12.1 Inleiding
Om te bepalen of uw site voor een zoeker waarschijnlijk al dan niet belangrijk is bekijkt Google uiteraard de inhoud van uw site (daarover zijn in deze handleiding al vele opmerkingen gemaakt), maar is er daarnaast ook nog een tweede aspect waarnaar wordt gekeken. De oprichters van Google, Lawrence Page en Sergey Brin, zagen eind jaren ’90 in dat als veel naar een site wordt verwezen, deze site vanuit het perspectief van de verwijzende sites waarschijnlijk een interessante site moet zijn. Zeker als de inhoud van de site van waaruit wordt verwezen ook nog eens met de door de zoeker opgegeven zoekwoorden te maken heeft. De mate waarin naar een site wordt verwezen is door Page en Brin uitgedrukt in een wiskunde via hun Pagerank-formule. ‘Link Populariteit’ gaat nog wat verder en beschouwt, naast de Pagerank, ook de context van de verwijzingen (in relatie tot de zoekwoorden).
De pagerank van een pagina zegt iets over de kans dat iemand, gegeven de wijze waarop Internetpagina’s onderling verbonden zijn, op de pagina terecht komt. Pagerank, in tegenstelling dus tot Link Populariteit, zegt niets over zoekwoorden of de inhoud van pagina’s. Pagerank is slechts één van de factoren die Google gebruikt om het belang van een pagina te beoordelen. Pagerank is van ‘oudsher’ een belangrijk onderdeel binnen SEO. Het verdient daarom aanbeveling hier het nodige van te weten. Met name voor het opzetten van een goede interne linkstructuur is kennis van dit onderwerp van belang. Feitelijk vormt PageRank de bodem onder het scorend vermogen van de pagina. Indien u zich echter oncomfortabel voelt met wiskundige formules en analyses kunt u deze pagina globaal doorlezen, of eventueel helemaal overslaan.
12.2 De pagerank formule
PR(A) = (1-d) + d * (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
PR(X) = Pagerank van pagina X
C(Ti) = Het totaal aantal outbound-verwijzingen vanaf pagina Ti
d = dempingsfactor
Deze toch vrij simpele formule heeft de basis gelegd voor de in stap 1 beschreven, revolutie in zoekmachine optimalisatie-land. Is dat niet interessant? Maar wat staat er nu eigenlijk? We moeten even door wat theorie, maar hou vol.
U moet eerst weten: hoe hoger de PageRank van uw pagina, hoe belangrijker Google uw pagina vindt. Er zijn twee manieren om tegen de inhoudelijke betekenis van PR(A) aan te kijken. Vanuit wiskundig perspectief kan gezegd worden dat PR(A) een maat is voor de kans dat een zogenaamde ‘random surfer’, waarmee een persoon bedoeld wordt die op willekeurige wijze op links op pagina’s klikt, op pagina A uitkomt. Een meer populaire (laten we zeggen, politieke) benadering is dat PR(A) een maat is voor de populariteit van pagina A, waarbij een link van pagina Ti naar pagina A wordt gezien als een stem (vote) voor pagina A. Beide manieren komen op hetzelfde neer.
De PageRank van pagina A is de som van een bepaald deel van de PageRanks van alle naar pagina A verwijzende pagina’s PR(T1) t/m PR(Tn). Welk deel? Welnu, dat is afhankelijk van het aantal andere links op de afzonderlijke pagina’s Ti (waarbij i, de i-de pagina van de n pagina’s is die naar A verwijst). Vanuit het random-surfer model wordt gezegd: het deel van de PageRank dat pagina Ti aan pagina A kan geven is niet anders dan de kans dat de surfer op pagina Ti op de link naar pagina A klikt, dus 1/C(Ti). Vanuit het voting/stem-model brengt pagina Ti in totaal C(Ti) stemmen uit, dus het belang van die stem (link) op pagina A is 1/C(Ti).
De dempingsfactor, die een waarde tussen 0 en 1 kan krijgen, is in de formule gebracht om een stukje psychologie van de random surfer te beschrijven. Bij een lage waarde (in de buurt van 0) verliest de surfer snel zijn/haar interesse in de pagina en stopt dus snel met willekeurig aanklikken van links. Bij een hoge waarde (in de buurt van 1) is de surfer blijkbaar fitter en gaat langer door met het willekeurig aanklikken van links. Er wordt algemeen aangenomen dat de Google-zoekmachine werkt met een d=0.85. Dit betekent dat de kans dat de random surfer op een link van pagina Ti naar pagina A klikt dus nog iets kleiner dan 1/C(Ti) is, en wel 0.85 * 1/C(Ti).
12.3 De betekenis van de PageRank formule
In natuurlijke taal kunnen we nu dus zeggen dat we met het oog op een hoge ranking in Goolge, een hoge PageRank willen bereiken en dat we dat doen door:
1. zoveel mogelijk verwijzingen naar onze pagina te realiseren;
2. het liefst verwijzingen willen creëren vanaf pagina’s die zelf een hoge PageRank hebben;
3. het liefst verwijzingen willen creëren vanaf pagina’s die niet zo (heel) veel andere verwijzingen bevatten.
Dit geldt voor zowel verwijzingen vanaf pagina’s buiten uw eigen site (inbound links) als vanaf pagina’s binnen uw eigen site (interne links).
Een voorbeeld.
Stel dat er twee pagina’s naar pagina A verwijzen: pagina T1 en pagina T2 (n is dus 2). De Pagerank van T1 is 2 en die van T2 is 3. Op pagina T1 staan in totaal 4 verwijzingen, waarvan één naar A. Op pagina T2 staan in totaal 3 verwijzingen, waarvan één naar A. De Pagerank van pagina A wordt nu: PR(A) = (1-0.85) + 0.85*(2/4 + 3/3) = 1.425.
12.4 Wijze van berekening van PageRank
U weet nu al heel wat. Maar de werkelijk is helaas nog iets complexer. Het Internet bestaat uit een enorme hoeveel pagina’s die allemaal via verwijzingen aan elkaar hangen. In voorgaand voorbeeld kan de PageRank van pagina A eenvoudig berekend worden omdat de PageRank van de pagina’s T1 en T2 als een bekende werd voorgesteld. Maar in werkelijkheid moeten ook de PageRank van T1 en T2 (en al die andere Internetpagina’s) berekend worden. Misschien ligt er ook wel een verwijzing van A naar T1. Dan is de PageRank van A afhankelijk van die van T1 en omgekeerd en zitten we dus vast met die mooie formule. Page en Brin hebben hier echter een oplossing voor bedacht.
Om de PageRank’s van alle pagina’s op het Internet te berekenen begint Google steeds weer opnieuw. Iedere pagina heeft dan een start-PageRank die uitgaat van de situatie dat er naar geen enkele pagina wordt verwezen (n=0). De PageRank van iedere pagina is dan 0.15. Reken maar na (1-d) = (1-0.85) = 0.15. Vervolgens loopt Google alle Internetpagina’s eenmaal door, en berekent daarbij de PageRanks van alle pagina’s op basis van voorgenoemde formule en deze start-PageRank. Alle pagina’s op het Internet hebben dan een nieuwe PageRank, die nog niet klopt, maar wel iets meer in de buurt is gekomen van de juiste waarde. Dan herhaalt Google die procedure nog een keer, en nóg een keer, etc. Bij iedere herhaling (iteratie) verschuiven de PageRanks steeds meer in de richting van de juiste waarde. Op basis van het totaal aantal Internetpagina’s kan bewezen worden dat we na zo’n 40 á 50 keer PageRank-waardes hebben verkregen die weliswaar niet 100% perfect zijn, maar daar wel heel dicht in de buurt zijn gekomen.
Een voorbeeld
Stel dat twee pagina’s A en T1 naar elkaar, en alleen naar elkaar (C=1), verwijzen. Verder is er een pagina T2 die ook en alleen naar A verwijst. Hoe zien de stappen eruit die naar de uiteindelijke PageRank leiden?
Stap |
Pagerank A |
Pagerank T1 |
Pagerank T2 |
Totale PageRank |
1 |
0.15 |
0.15 |
0.15 |
0.3 |
2 |
0.405 |
0.494 |
0.15 |
1.049 |
3 |
0.909 |
0.923 |
0.15 |
1.982 |
4 |
1.062 |
1.053 |
0.15 |
2.265 |
.. |
||||
7 |
1.310 |
1.263 |
0.15 |
2.723 |
… |
||||
40 |
1.459 |
1.391 |
0.15 |
3.000 |
Het is niet exact bekend hoe Google de verschillende stappen berekent, of er daadwerkelijk gestart wordt met een waarde van 0.15, en hoeveel iteraties er worden toegepast. Zeker is dat, hoe ze die zaken ook invullen, de uiteindelijke waarde via deze methode altijd op nagenoeg een zelfde waarde uitkomt.
Het zal duidelijk zijn dat een dergelijke aanpak voor het berekenen van nieuwe PageRanks, zelfs voor zeer snelle computers, een tijdrovende bezigheid is. De update van PageRanks vond in het begin daarom niet continu, maar zo ongeveer eens per maand, plaats. Op die manier hadden de Google-computers de tijd om het allemaal goed door te rekenen. Het moment waarop Google daadwerkelijk werd geüpdatet met de nieuwe PageRanks, werd de Google Dance genoemd. Omdat Google gebruik maakt van tienduizenden servers die de zoekopdrachten van gebruikers moeten verwerken, werd de update niet in één klap gerealiseerd. Daar gingen een aantal dagen overheen. Vandaar dat de ranking van sites gedurende die periode varieerde: Google danst. Tegenwoordig vindt de update van PageRanks echter continu plaats.
12.5 Een aantal tussenconclusies
Terug naar het voorgaande voorbeeld, kunnen we een aantal zaken constateren:
1. Als er geen pagina’s naar een bepaalde pagina verwijzen (zoals pagina T2), blijft de PageRank op de laagst mogelijke waarde, namelijk 0.15.
2. De minimum hoeveelheid PageRank binnen een site van drie pagina’s is daarmee 3 * 0.15 = 0.45. Dat wordt bereikt als het losstaande pagina’s zijn, waarnaar dus niet wordt verwezen. Bewezen kan worden dat de maximum hoeveelheid PageRank binnen een set van n pagina’s gelijk is aan n. In voorgaand voorbeeld is dat maximum dus bereikt (n=3, en de totale PageRank is 3).
3. Als de pagina’s A, T1 en T2 allen tot één site behoren, wordt de totale PageRank binnen een site verhoogd op het moment dat een pagina aan de site wordt toegevoegd, met minimaal 0.15 en maximaal 1.
4. De linkstructuur binnen de site is bepalend voor de hoogte van de uiteindelijke totale PageRank binnen de site.
5. Aangezien u waarschijnlijk slechts een beperkt aantal pagina’s binnen uw site hoog wil laten scoren in zoekmachines, is het de kunst om in ieder geval die pagina’s een hoge PageRank te laten krijgen. Voor wat betreft de linkstructuur van uw site kunt u dit kort gezegd realiseren door er voor te zorgen dat zoveel mogelijk pagina’s in uw site verwijzen naar de te optimaliseren pagina (meestal de index.html-pagina).
12.6 Toolbar PageRank en wiskundige PageRank
Tot zo ongeveer 2010 konden we de PageRank van onze pagina’s inzien via de Google Toolbar. Dat werd visueel weergegeven door een groene indicatie binnen een wit balkje. Door met de muis op het balkje te gaan staan zagen we de waarde. Deze waarde was minimaal 0 en maximaal 10. Deze toolbar-PageRank was echter niet dezelfde als de wiskundige-PageRank die hiervoor is uitgelegd. De wiskundige PageRank van een pagina kan immers veel hoger worden dan 10. Denk maar aan een pagina waar honderd verwijzingen heenliggen vanaf pagina’s die verder niet naar andere pagina’s verwijzen, en zelf een PageRank 10 hebben. De wiskundige PageRank van de pagina wordt dan: 0.15 + 100 * (10 / 1) = 1000.15 ! In theorie is de maximale PageRank van een pagina gelijk aan: (1-d) + d * N, waarbij N het totaal aantal pagina’s op het Internet is. Dat is de (absurde) situatie waarbij alle Internet-pagina’s alleen naar één en dezelfde pagina verwijzen.
De vraag is nu hoe de relatie ligt tussen deze twee type PageRanks. Welnu, Google heeft destijds die toolbar-PageRank geïntroduceerd omdat een waarde van 0 t/m 10 veel gebruikersvriendelijker is dan de wiskundige PageRank, die veel grotere waarden kan aannemen. Om er voor te zorgen dat die grote waarden vertaald worden naar een waarde op de schaal van 0- 10 werd een wiskundige omrekening toegepast. Deze omrekening was niet lineair, maar logaritmisch. Het verschil tussen een lineaire relatie en een logaritmische relatie is dat de uitkomst van een logaritme voor lagere waarden relatief sneller stijgt dan hogere. Hoe veel sneller wordt bepaald door het grondgetal van de logaritme. Vermoedelijk lag het grondgetal ergens rond de 6. De relatie tussen de toolbar PageRank en de wiskundige PageRank ziet er dan als volgt uit:
Toolbar PageRank |
Wiskundige PageRank |
0 |
0.15 – 0.9 |
1 |
0.9 – 5.4 |
2 |
5.4 – 32.4 |
3 |
32 – 194 |
4 |
194 – 1166 |
5 |
1166 – 6998 |
6 |
6998 – 41990 |
7 |
41990 – 251942 |
8 |
251942 – 1511654 |
9 |
1511654 – 9069926 |
10 |
9069926 – (0.15 + 0.85 * N) |
U kunt zien dat u relatief snel een PageRank van nul kan verhogen naar één. Naar twee wordt het al iets moeilijker, naar drie nog moeilijker, etc.
12.7 Uitgaande/externe verwijzingen
De laatste stap die ik rond dit onderwerp met u wil maken is te onderzoeken wat nu het effect is van uitgaande of externe verwijzingen (vroeger outbounds genoemd). Als we naar de PageRank-formule kijken zoals die aan het begin van deze pagina is geformuleerd, lijken dergelijke verwijzingen vanaf, laten we zeggen een pagina A naar een andere pagina X geen effect te hebben op de PageRank van A. Pagina’s lijken alleen iets te kunnen geven aan andere pagina’s zonder dat ze er zelf iets op verliezen. Als we sites in hun geheel beschouwen blijkt de situatie echter iets genuanceerder te liggen. Als een pagina A naar een pagina buiten de eigen site verwijst wordt een stukje van de PageRank dus niet benut binnen de eigen site, en ben je dat deel dus kwijt uit de totale PageRank van de site. Omdat er meestal binnen een site ook weer verwijzingen naar A terug liggen, kan er daarmee ook minder PageRank terug bij A komen. De PageRank van A wordt daarmee dus lager door de uitgaande verwijzingen.
Door uitgaande verwijzingen ‘lekken’ pagina’s dus PageRank. Twee manieren, waarbij gepoogd werd om dit lekken tegen te gaan, maar allebei niet (meer) werken, zijn:
a) Het programmeren van uitgaande links via javascript. Google is tegenwoordig namelijk goed in staat om ook dergelijke links te detecteren.
b) Het opnemen van de rel=nofollow bij de uitgaande link. Ook deze methode, die ‘PageRank sculpting’ werd genoemd, werkt niet, gegeven een publicatie van Google. Lees hier meer.
Een betere manier om het lekken in de hand te houden is om de uitgaande verwijzingen te leggen vanuit pagina’s met de laagste PageRank.
Tot slot moet worden opgemerkt dat uitgaande verwijzingen weliswaar een negatief effect op de PageRank van de eigen site hebben, maar dat PageRank niet het enige criterium is waarop Google de site beoordeelt. Het ligt voor de hand te verwachten dat juist ook uitgaande verwijzingen op een andere manier weer wel worden gewaardeerd, omdat 1) het afwezig zijn van dergelijke verwijzingen weer indruist tegen ‘de natuur’ van het Internet en 2) Google juist ook beter kan begrijpen waar de pagina over gaat. Advies: leg toch een klein aantal uitgaande verwijzingen, met name naar dié autoriteitsites waardoor Google beter kan gaan begrijpen waar de pagina inhoudelijk over gaat.
Pagerank, in tegenstelling tot het in het vorige hoofdstuk besproken begrip Link Populariteit, zegt dus niets over zoekwoorden of de inhoud van pagina’s. Omgekeerd, maakt Link Populariteit dus wel gebruik van de PageRank. Bij het ontstaan van Google was dat in hoge mate het geval, heden ten dage een stuk minder, maar nog steeds staat dit gegeven overeind. Er wordt nu echter naar veel meer getallen gekeken.
De PageRank kunnen we tegenwoordig dus niet meer inzien. Indien u toch een indruk wilt krijgen van de PageRank van uw pagina’s, kunt u bij Moz terecht. Die simuleren immers de PageRank-berekening.
Een begrip dat lijkt op PageRank, maar toch weer een heel andere werking en doel heeft is ‘TrustRank’. Voor de volledigheid behandel ik die in de volgende paragraaf.
12.8 Trustrank
TrustRank is een aanzienlijk minder bekend begrip dan PageRank, maar lijkt wel degelijk ook een rol te spelen in het rankingalgoritme van Google. Het TrustRank-concept, in 2004 ontwikkeld door Zoltan Gyongyi, Hector Garcia-Molina, & Jan Pederson, heeft als doel spam-sites tegen te gaan. Omdat het ondoenlijk is alle websites met de hand op spam te controleren is er een principe bedacht op basis waarvan algoritmes kunnen bepalen hoe betrouwbaar websites al dan niet zijn.
We hebben al gezien dat de leeftijd van de website, bijvoorbeeld, één van de criteria is voor het bepalen van vertrouwen of autoriteit. Maar dit algoritme voegt daar nog wel wat aan toe. Aan de basis van dit algoritme liggen een aantal grote, bekende, websites als bbc.co.uk, nytimes.com, google zelf, etc. Van die websites wordt gesteld dat ze een hoge mate van betrouwbaarheid hebben, en worden de seeds (zaden) genoemd in het TrustRank-algoritme. Ook overheidsinstellingen, grote nieuwskanalen en universiteiten kunnen seeds zijn.
Net als het PageRank-algoritme kan de TrustRank via verwijzingen gepropageerd (doorgegeven) worden naar andere webpagina’s. Een verwijzing vanaf bbc.co.uk naar uw eigen website is in dit opzicht dus erg veel waard. Als u zo’n verwijzing krijgt en dus veel TrustRank krijgt, geeft u dat via de verwijzingen op uw website vervolgens weer door naar andere websites, etc. Hoe verder de website van de seed ligt, hoe lager de hoeveelheid Trust die kan worden doorgegeven.
Deze voorwaartse propagate van Vertrouwen werkt allemaal heel logisch, maar er lijkt ook nog iets te zijn wat de TrustRank kan drukken: een terugwaartse propagatie. Als u met uw website gaat verwijzen naar websites die een lage TrustRank hebben, propageert die lage TrustRank terug naar uw website. Uw website kan dus niet alleen Vertrouwen krijgen door goede verwijzingen te krijgen, maar ook Wantrouwen krijgen als u naar de verkeerde websites gaat verwijzen.
Iedere serieuze websitebeheerder zou zich wat zijn/haar linkbuilding-strategieën moeten richten op het werken aan vertrouwen, TrustRank dus. Met een hogere TrustRank wordt het een stuk eenvoudiger hoog te scoren in zoekmachines.
Ook de concrete TrustRank die onze pagina’s hebben kan niet worden ingezien. Moz heeft wel een parameter in het leven geroepen die deze TrustRank benadert, namelijk de MozTrust. Nadeel van deze parameter is dat alleen de voorwaartse en niet de terugwaartse propagatie van Trust wordt meegenomen.
Vorige – 11. Linkbuilding | Volgende – 13. SEO tools |