Crawl fouten in Webmaster Hulpprogramma

Tags: crawlfouten, google, webmasterhulpprogramma

Dit onderwerp is leeg.

Weergave van 12 reactie threads

Auteur

Berichten
- 24 juni 2011 om 7:36 am #22467
  
  iwanino
  Deelnemer
  Gestart:9
  Reacties:13
  
  Ga naar website
  
  Ik krijg 9 crawlfouten in Webmaster Hulpporgramma van Google. Dit geeft hij aan:
  404 (Niet gevonden) gekoppeld vanaf 11 pagina’s en gedetecteerd op 1 jun. 2011
  
  Op het moment dat ik mn site online zette, waren deze indd niet aanwezig (deze pagina’s had ik nog niet af en nog niet geupload).
  
  Een week later heb ik ze wél online gezet, maar hij blijft deze markeren als Niet gevonden 404. Hij wordt ook niet geindexeerd terwijl de rest van de site wel goed geindexeerd is.
  
  Ophalen als Googlebot geeft eigenlijk geen foutmeldingen. Hoe krijg ik deze foutmeldingen weg en belangrijker nog, hoe krijg ik deze urls wel geindexeerd?
- 24 juni 2011 om 12:29 pm #26495
  
  Bert van Heerde
  Lid
  Gestart:1
  Reacties:63
  
  @iwanino
  Webmaster Central heeft wel vaker van dit soort ‘verouderde’ data. Ik heb bij een site ook een rijtje 404 staan en deze verwijderd via URL verwijderen in Webmaster Tools. Hij geeft aan de URLs verwijderd te hebben, maar staan in een ander menu nog steeds vrolijk als 404. Dat zou niet mogelijk moeten zijn.
  
  Belangrijk is dat die pagina´s wel gewoon geindexeerd worden. Kijk bijvoorbeeld naar de cache van een aantal van die nep-404´s. Is de crawldatum recent? Dan is er niets aan de hand.
- 24 juni 2011 om 12:52 pm #26496
  
  iwanino
  Deelnemer
  Gestart:9
  Reacties:13
  
  Ga naar website
  
  @Bert bedankt voor je uitgebreide reactie!
  
  Mijn wedervraag is alleen waar ik die cache kan vinden aangezien de paginas die in WMH 404 foutmeldingen krijgen ook niet geindexeerd zijn in Google.
  
  kan ik dat zien via Ophalen Als Googlebot? Want die geeft dit aan (het eerste gedeelte van wat hij dan vindt):
  
  Dit is het resultaat nadat Googlebot de pagina heeft opgehaald.
  
  URL: http://www.mijndomeinnaamxxx.nl/mijndomeinvoorbeeld/
  
  Datum: vrijdag 24 juni 2011 02:04:18 PDT
  
  Googlebot-type: Web
  
  Download Time (in milliseconds): 212
  
  HTTP/1.1 200 OK
  Last-Modified: Mon, 20 Jun 2011 20:07:24 GMT
  ETag: “1e7dcf-2b26-4a62a489fac62”
  Vary: Accept-Encoding
  Content-Encoding: gzip
  Content-Type: text/html
  Server: PCX/No-Cache (cache01)
  Content-Length: 3282
  Date: Fri, 24 Jun 2011 09:04:20 GMT
  Age: 0
  Connection: keep-alive
  X-Cache-Hit: No
  X-Cache: 1786016689
  
  <br /> etc.
- 24 juni 2011 om 2:25 pm #26497
  
  Bert van Heerde
  Lid
  Gestart:1
  Reacties:63
  
  Een week later heb ik ze wél online gezet, maar hij blijft deze markeren als Niet gevonden 404. Hij wordt ook niet geindexeerd terwijl de rest van de site wel goed geindexeerd is.
  
  Okay, dus de pagina’s staan nu wel online? Raar dat Google ze niet indexeert.
  
  En Google kan ook bij die URLs, maw die pagina’s zijn gelinked vanaf een wel geindexeerde pagina?
  Heb je de robots.txt gechecked?
  Heb je toevallig een noindex,nofollow tag op die pagina’s staan?
  Geven deze pagina’s een code 200 terug (hier testen)?
  Zijn er problemen met de HTML (hier checken)?
  Heb je (verkeerd) gebruik gemaakt van canonical tags?
  
  Als hier het probleem niet ligt dan ligt het dus aan een glitch bij Google. Ik raad je aan om die pagina’s net even wat anders te noemen: meindomijn.nl/mijn-url naar bijv meindomijn.nl/mijn-url1 en dan deze pagina’s even te linken vanaf de homepage totdat ze geindexeerd zijn.
- 27 juni 2011 om 7:40 am #26505
  
  iwanino
  Deelnemer
  Gestart:9
  Reacties:13
  
  Ga naar website
  
  Wederom bedankt voor je uitgebreide reactie!
  
  Inderdaad vreemd dat ze niet geindexeerd worden. Mijn pagina bestaat uit 23 pagina’s waarvan er 14 geindexeerd zijn. De andere 9 zijn de paginas waar hij een ‘404 fout niet gevonden’ melding voor geeft. Als aanvullende informatie geeft hij ook aan: Gekoppeld vanaf 14 pagina’s (de andere, wél geindexeerde paginas)
  
  Google kan zeer zeker wel goed bij de URL’s komen, mijn site-navigatie is zonder twijfel zeer goed te noemen.
  
  Ik maak nergens gebruik van robots.txt en nergens een noindex of nofollow tag. Ook maak ik nergens gebruik van Canonical tags.
  
  Via de W3C successfully checked as XHTML 1.0 Transitional.
  
  Wat is een “Glitch”? Soort van bug?
  Raad je me aan om ze eerst te hernoemen en zodra ze geindexeerd zijn, te vernaderen naar de juiste naam?
- 27 juni 2011 om 11:10 am #26507
  
  iwanino
  Deelnemer
  Gestart:9
  Reacties:13
  
  Ga naar website
  
  Moet ik misschien toch aan deze paginas deze meta toevoegen? Voor de zekerheid?
- 27 juni 2011 om 11:28 am #26508
  
  glompie
  Deelnemer
  Gestart:25
  Reacties:220
  
  Ga naar website
  
  Als je index,follow weglaat gebruikt Google index,follow want dat is de default.
- 29 juni 2011 om 11:50 am #26529
  
  iwanino
  Deelnemer
  Gestart:9
  Reacties:13
  
  Ga naar website
  
  Ja weet ik Glompie, maar ik bedoelde meer als test voor de zekerheid. Ik ga nu op 1 van de paginas die een 404 foutmelding krijgt toch toevoegen. Bij wijze van test. Baat het niet dan schaadt het niet.
  
  Ik wil gewoon graag dat ze geïndexeerd gaan worden omdat het wel belangrijke pagina’s zijn…
  
  En het liefste zónder de url-namen aan te passen.
- 29 juni 2011 om 3:06 pm #26530
  
  glompie
  Deelnemer
  Gestart:25
  Reacties:220
  
  Ga naar website
  
  Misschien zien we iets als je zo’n 404 url hier geeft.
  Die metatag kun je testen maar ik denk niet dat dat gaat helpen.
- 5 juli 2011 om 2:46 pm #26548
  
  iwanino
  Deelnemer
  Gestart:9
  Reacties:13
  
  Ga naar website
  
  De Url kan ik, om privacyredenen, hier niet geven maar wellicht wel via een privebericht. Maar ik ben ervan overtuigd dat het aan de link niet te zien is. Via “Ophalen als Googlebot” krijg ik te zien “succesvol” bij alle “crawlfouten” en dit komt er dan uit:
  
  HTTP/1.1 200 OK
  Last-Modified: Mon, 13 Jun 2011 13:27:09 GMT
  ETag: “1036855e-2811-4a597e0568f3c”
  Accept-Ranges: bytes
  Vary: Accept-Encoding
  Content-Encoding: gzip
  Content-Type: text/html
  Server: PCX/No-Cache (cache01)
  Content-Length: 2942
  Date: Tue, 28 Jun 2011 07:39:56 GMT
  Age: 0
  Connection: keep-alive
  X-Cache-Hit: No
  X-Cache: 514356742
  
  Daar is toch ook niets mis mee??
- 5 juli 2011 om 4:29 pm #26552
  
  glompie
  Deelnemer
  Gestart:25
  Reacties:220
  
  Ga naar website
  
  ’t Is een beetje raden zonder url. Heb je überhaupt wel backlinks naar je site anders kan het ook lang duren voor Google weer eens langs komt.
  Misschien helpt een .xml sitemap als je die bij webmastertools aangeeft.
  
  Is de datum in de cache van je huidige pagina’s dezelfde als toen je die site online zette zonder de betrokken pagina’s?? Zo ja dan is ie gewoon pas 1x langs geweest en is het een kwestie van ff wachten.
  
  (Cache staat in de snippets van Google’s resultaten.)
- 8 juli 2011 om 3:38 pm #26562
  
  Bert van Heerde
  Lid
  Gestart:1
  Reacties:63
  
  Hoi Iwanino,
  
  Een ‘glitch’ is inderdaad een ‘bug’.
  
  1) Het is vervelend dat Google de pagina’s niet indexeert. Is dat nog steeds zo? Zoek op: site:.mijndomein.nl
  
  2) Wat je kunt doen is de pagina’s bookmarken met bijvoorbeeld Delicious om te kijken of Google die links wel volgt en dan de pagina’s indexeert/
  
  3) Mocht dat niet lukken: pagina’s hernoemen (URL hernoemen door er bijvoorbeeld een 1 achter te zetten). Wacht tot Google deze alternatieve pagina’s heeft geindexeerd. Lukt dat wel: verwijs vervolgens de oude pagina’s met een 301 door naar de nieuwe varianten.
  
  Stuur me anders een mailtje via insyde.nl, dan kan ik naar de website kijken. Het is lastig om ‘blind’ diagnoses te stellen.
  
  succes ermee!
  Bert
- 17 augustus 2011 om 10:08 am #22468
  
  iwanino
  Deelnemer
  Gestart:9
  Reacties:13
  
  Ga naar website
  
  Intussen heeft het probleem “zichzelf” opgelost. Ik denk ik deel het ff met jullie, aangezien dat wel zo netjes is na al die reacties om me te helpen.
  
  De crawlfouten hebben denk ik een dikke twee maanden (onterecht) in het Webmaster Hulpprogramma gestaan. Alles klopte (en heeft ook altijd geklopt) aan de urls maar ze werden maar niet geindexeerd en bleven maar staan als crawlfout.
  
  Een tweetal weken geleden waren de crawlfouten eruit, en een dag later waren ze netjes geindexeerd.
  Dus ik denk dat het aan google zelf lag.
  
  Misschien zou het nu met de nieuwe manier van Fetch as GoogleBot niet meer gebeuren, omdat je ze, wanneer ze succesvol zijn, je de url direct kan “aanmelden voor de index”..
  
  Anyways,
  
  bedankt.
Auteur

Berichten