0

Datacenter's van Google

0

De index van Google in petabyte's

Hoe Google antwoord geeft op onze vragen

Google is dé plek voor het vinden van een antwoord op een vraag. Het zoeken naar een antwoord gebeurt maar liefst 13,7 miljard keer per maand! Maar hoe werkt Google nu precies? Hoe vindt Google zo snel de informatie die we nodig hebben? Een uitleg over de kunst en wetenschap die het mogelijk maken: Hoe Google antwoord geeft op onze vragen.

 

Crawlen

Google antwoord onze vragen door complexe handelingen (berekeningen) te verrichten. Softwareprogramma’s van Google, genaamd webcrawlers (soms ook wel ‘spider’ genoemd), zoeken naar openbaar beschikbare webpagina’s op het World Wide Web, genaamd Internet. Op dit moment zijn er 30 biljoen losse webpagina’s (geschreven: 30.000.000.000.000). De bekendste webcrawlingbot is de Googlebot.

Crawlen of doorzoeken is het proces waarmee Googlebot nieuwe en bijgewerkte pagina’s opspoort die moeten worden toegevoegd aan de index van Google. Google gebruikt een enorm aantal computers om miljarden pagina’s op internet te doorzoeken (of ‘crawlen’). Googlebot maakt gebruik van een algoritmisch crawlproces. Computerprogramma’s bepalen welke sites worden gecrawld, hoe vaak dat gebeurt en hoeveel pagina’s van elke site worden opgehaald.

Het crawlproces van Googlebot begint met een lijst van URL’s van webpagina’s, die wordt gegenereerd aan de hand van vorige crawlprocessen en die wordt uitgebreid met sitemap-gegevens die worden geleverd door webmasters. Googlebot bezoekt al deze websites. Links (SRC en HREF) die op elke pagina worden aangetroffen, worden toegevoegd aan de lijst van pagina’s die moeten worden gecrawld. Nieuwe sites, wijzigingen in bestaande sites en verbroken links worden allemaal geregistreerd en worden gebruikt om de index van Google bij te werken.

 

Google-Index

Alle pagina’s die door Googlebot worden gecrawld, worden verwerkt in een gigantische index , die alle woorden bevat die door het programma worden aangetroffen en de locatie ervan op elke pagina. Deze ‘index-bibliotheek’ is 120 miljoen gigabyte groot (114 petabyte). Daarnaast verwerkt Google de gegevens die zijn opgenomen in de belangrijkste tags en attributen van de inhoud, zoals title-tags en alt-attributen. Googlebot kan veel soorten inhoud verwerken, maar niet alle. De inhoud van sommige rich-mediabestanden of dynamische pagina’s kan Google niet verwerken.

 

Algoritmen en resultaten

Wanneer een gebruiker een zoekopdracht invoert, doorzoeken de intelligente computers de index naar overeenkomende pagina’s. De resultaten die volgens Google het meest relevant zijn voor de gebruiker, worden vervolgens geretourneerd, Google antwoord. De relevantie wordt bepaald door meer dan 200 factoren (genaamd Algoritmen), Google heeft meerdere algortimes – meer dan 200 in totaal, waarvan van circa 150 de werking bekend is – die bepalen waar webpagina’s op de zoekranglijst komen. PageRank is een van de belangrijkste algoritmen. De PageRank geeft de waarde van een pagina weer op basis van de inkomende links van andere pagina’s. Dat wil zeggen dat de PageRank van uw site wordt verhoogd door elke link naar een pagina op uw site vanaf een andere site. Google doet er alles aan om de gebruikerservaring te verbeteren door spamlinks en andere praktijken die de zoekresultaten negatief beïnvloeden, te identificeren. De beste typen links zijn links die worden weergegeven op basis van de kwaliteit van uw inhoud.