SEO training-, kennis- en adviescentrum › SEO forum › SEO vragen en discussies › Vraag over invloed robots.txt
Tags: iframe, robots.txt, seo
- Dit onderwerp bevat 1 reactie, 2 deelnemers, en is laatst geüpdatet op 5 jaren, 1 maand geleden door Alain Sadon.
-
AuteurBerichten
-
-
5 november 2019 om 10:13 am #39122
Ik heb een muli taal WordPress site met een custom theme. Op 24 september zag ik ineens een gigantische drop in traffic, na enig zoeken kwam ik er achter dat er een core update van Google uitgerold was hierdoor ben ik zo’n 60% van m’n traffic kwijtgeraakt. Mijn site heeft een embed van flightradar24.com (net zoals alle concurrerende sites).
Ik heb een SEO expert ingehuurd die kwam met de volgende conclusie:
Ook wordt er in de robots.txt een regel aangeroepen met Disallow: */embed. Dit kan er voor zorgen dat Google de embeds die hieruit worden ingeladen niet kan inlezen en daardoor meer moeite heeft met het toekennen van waarde aan deze embeds. Dit is iets wat de andere sites niet hebben. Google heeft moeite met iframes en het toekennen van waarde, maar als hij deze iframes niet mag crawlen zal er nog meer moeite zijn met deze iframes. Het is dan ook zeker de moeite waard om hiermee te testen.
Gezien de zoektermen lijkt het er ook op dat de sites met een embed van flighradar24 het goed doen op deze zoekterm (wat enigszins logisch is ook natuurlijk). Echter heeft Google bij flighradar.online waarschijnlijk moeite met het inschatten van de bron van de embed, waardoor het niet zeker is dat deze op de hoogst mogelijke positie rankt.
robots.txt ziet er als volgt uit:
User-agent: *
Disallow: /cgi-bin # классика…
Disallow: /? # все параметры запроса на главной
Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: *?s= # поиск
Disallow: *&s= # поиск
Disallow: /search # поиск
Disallow: /author/ # архив автора
Disallow: */embed # все встраивания
Disallow: */page/ # все виды пагинации
Allow: */uploads # открываем uploads
Allow: /*/*.js # внутри /wp- (/*/ – для приоритета)
Allow: /*/*.css # внутри /wp- (/*/ – для приоритета)
Allow: /wp-*.png # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.svg # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.pdf # файлы в плагинах, cache папке и т.д.
Allow: /wp-admin/admin-ajax.phpOm het overzichtelijk te maken hier nog een keer robots.txt zonder de Russische commentaren:
User-agent: *
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search
Disallow: /author/
Disallow: */embed
Disallow: */page/
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-*.svg
Allow: /wp-*.pdf
Allow: /wp-admin/admin-ajax.phpIk heb m’n technische team die in de Oekraïne zit (vandaar de russische comments) gevraagd of het kan wat deze SEO specialist zegt. Zij zeggen dat het onzin is en dat wat de SEO specialist zegt niet klopt.
Ik heb 2 vragen:
1) kan de Disallow: */embed regel er voor zorgen dat Google m’n embeds niet meer (goed) kan crawlen?
2) Zijn er andere regels in robots.txt die ervoor gezorgd kunnen hebben dat ik zo hard geraakt bent door de Core update van Google.
-
16 november 2019 om 1:11 pm #39139
De eenvoudigste manier om de robots.txt te testen is via Google’s robots.txt tester: https://www.google.com/webmasters/tools/robots-testing-tool. Zorg dat je bent ingelogd in het juiste Google account en kies de juiste property. Vervolgens kan je verschillende cruciale pagina’s van je site als url invoeren en kijken of die geblokkeerd worden. Zo bevat je robots.txt de regel Disallow: /?. Dat betekent dat URL’s die /? bevatten gedisallowed worden. Misschien heb je bijvoorbeeld filter-pagina’s in je site die zodoende niet worden geïndexeerd?
Overigens zorgt een disallow in de robots.txt er niet voor dat die pagina uit de zoekresultaten wordt verwijderd. De instructie zorgt er slechts voor dat Google de inhoud van de pagina niet gaat bekijken. Als er veel links naar die pagina liggen kan Google (op basis van bijvoorbeeld de ankerteksten in de links) toch besluiten de pagina te tonen.
Dat is één, of eigenlijk twee, want dit betrof je tweede vraag. Je eerste vraag betreft de disallow van de iframe. Als je embeds onder */embed staan zorgt de Disallow: */embed er dus voor dat Google die inhoud niet gaat bekijken. Normaal gesproken zal Google proberen de inhoud van de embed bij pagina waar het iframe staat te indexeren, maar ik begrijp dat dit nog wel eens mis gaat (bij Google). Nu Google de inhoud van de iframe niet mag bekijken, zal Google niet weten wat de bezoeker wél mag bekijken. Normaal gesproken vindt Google dat niet fijn: zij willen zien wat de bezoekers ook zien. Ik zou deze disallow om die reden dus weghalen. Je zou ook in de Google Search Console (bij URL inspectie – Gecrawlde pagina bekijken – Meer informatie – Paginabronnen), kunnen kijken of Google een melding maakt over de robots.txt.
-
-
AuteurBerichten
Gerelateerde berichten:
- Niet op Google zichtbaar en vraag over Google Search Console 2 februari 2022 Beste allemaal Ik ben bezig met een website en ik loop tegen het volgende aan. Er word momenteel maar een pagina op google getoond, de…
Je moet ingelogd zijn om een antwoord op dit onderwerp te kunnen geven.