Hoe werkt zoekmachine Google?

google afbeelding

Handleiding: Hoe werkt zoekmachine Google?

Om te begrijpen hoe Google werkt, is het van belang om te weten hoe zoekmachines in het algemeen werken. De zoekresultaten pagina’s, de blauwe links op een rustige, witte achtergrond, hebben Google gemaakt tot de meest bezochte website wereldwijd en het één van de meest winstgevende bedrijven ter wereld van dit moment. Google is het startpunt van het internet voor een tientallen miljoenen gebruikers. In Nederland voert Google ook de ranglijsten aan. Google is met ruim 98% veruit de meest gebruikte zoekmachine in Nederland (bron: Nationale Search Engine Monitor 2014).

oogle richt zich volledig op de ontwikkeling van de ‘perfecte zoekmachine’; een concept dat door Larry Page, medeoprichter van Google, wordt omschreven als een machine die ‘begrijpt wat je bedoelt en vindt wat je zoekt’. In dat kader is ook vorige maand Google Universal Search gelanceerd. Hoge verwachtingen zoekmachine Google Het is echter immens complex om de techniek te ontwikkelen voor de perfecte zoekmachine. Dit komt ook omdat de verwachtingen nu hoger liggen. “Vind je het juiste antwoord op jouw zoekvraag niet in de eerste 3 zoekresultaten? Dan is er iets mis”, aldus Udi Manber.

De Google Index

Voordat er überhaupt gezocht kan worden in Google, wordt er eerst een gigantische database opgebouwd, de Google Index. In de beginjaren van Google werd er elke 6 tot 8 weken een nieuwe index gebouwd. Op dit moment controleert Google vele pagina’s op dagelijkse basis. Google heeft vele duizenden computers aan elkaar gekoppeld om de gigantische en hard groeiende Google index op te bouwen. Naast het ranking algoritme heeft Google ook een technologie ontwikkeld om duizenden computers aan elkaar te koppelen zonder verlies van snelheid.

Google PageRank

Een bekend en populair onderdeel van het ranking algoritme is PageRank, een door Google oprichter Larry Page ontwikkelde technologie om de relevantie en kwaliteit van webpagina’s vast te stellen. PageRank wordt uitgedrukt in een cijfer tussen 1 en 10, wat op basis van een logaritmische schaal wordt bepaald. Google hanteert de volgende (vereenvoudigde) uitleg: In plaats van directe koppelingen te tellen, interpreteert Google een koppeling van pagina A naar pagina B als een ‘stem’ van pagina A voor pagina B. Google beoordeelt de relevantie van een pagina door de ontvangen stemmen te tellen. PageRank bepaalt in feite hoe vaak andere websites naar een bepaalde pagina linken. Websites die populair zijn, en specifiek diegene met een hoge(re) PageRanks, worden beschouwd als websites met een hogere kwaliteit. Lees ook mijn uitgebreide Google PageRank handleiding.

´Signals´, de factoren die Google hanteert

Amit Singhal heeft een veel uitgebreider systeem ontwikkeld voor het rangschikken van webpagina’s. Dit ranking algoritme is gebaseerd op meer dan 200 factoren, door Google ‘signals’ genoemd. PageRank is slechts één van de vele signals. Sommige signals komen van webpagina’s, zoals woorden, links, afbeeldingen, etc. Andere factoren zijn gebaseerd op hoe pagina’s in de loop van de tijd zijn veranderd. Andere signals zijn data patronen die opgemaakt worden uit de bijna ontelbare zoekopdrachten die Google over de jaren heen heeft ontvangen.

‘Classifiers’, de formules die Google hanteert

Nadat de ‘signals’ van een webpagina zijn geïdentificeerd, worden de ‘classifiers’ aan het werk gezet. Classifiers zijn formules die informatie proberen te achterhalen over de zoekopdracht met het doel om de gebruiker de meest relevante zoekresultaten terug te geven. Classifiers geven bijvoorbeeld aan of iemand op zoek is naar informatie, of iemand een product wil kopen, of iemand een bedrijf of een persoon zoekt, etc. Ook identificeren classifiers of een zoekopdracht bijvoorbeeld om een merknaam gaat. Google heeft onlangs een nieuwe classifier ontwikkeld die namen achterhaald van mensen die niet beroemd zijn.

‘Topicality’, hoe relevant is een webpagina?

De ‘signals’ en ‘classifiers’ berekenen meerdere indicatoren van de relevantie van een webpagina, waaronder de indicator ‘topicality’. De indicator topicality geeft aan hoe relevant een webpagina is ten opzichte van de brede categorie van de zoekopdracht. Een pagina over bijvoorbeeld een toespraak van president Bush over Darfur vanuit het Witte Huis heeft een hoge ‘topicality score’ voor “Darfur”, lager voor “George Bush” en een lage topicality score voor “Witte Huis”. Alle indicatoren worden gecombineerd tot een totale score. De 10 webpagina’s met de hoogste totale score verschijnen op de eerste pagina, tenzij er onvoldoende diversiteit in de zoekresultaten is. “Als je veel verschillende perspectieven heb op één zoekresultaten pagina is dat veek relevanter dan een eenzijdig perspectief”, aldus Matt Cuts. “Als iemand bijvoorbeeld naar product zoekt, is niet onwaarschijnlijk dat je geïnteresseerd bent in een review van het product op een weblog, een pagina van de fabrikant, een website of winkel waar het te koop is en een vergelijkingswebsite”.

Google aan het werk: Infograghics

how google works

Maxol Finance Services
"Onze ervaring op het gebied van fiscale, administratieve, financiële dienstverlening is uw garantie van een goede samenwerking!"