Hoe identificeer ik een zoekmachine? Sommige van de grote zoekmachines kun je herkennen aan hun hostnaam. Deze is vaak samengevoegd uit een naam of bedrijfsnaam. Een voorbeeld zou kunnen zijn spidey.webcrawler.com.
Een efficiëntere weg een robot te volgen is hun werknaam, of wat soms ook browsernaam wordt genoemd. Robots hebben hun eigen naam, net als browser's. Netscape en IE identificeren zich als Mozilla. Alta Vista’s robot laat Scooter zien, terwijl HotBot’s robot Slurp heet.
De beste oplossing: robots.txt
Code: Selecteer alles
# robots.txt for http://your.site.com/
User-agent: googlebot
Disallow: /admin/
Disallow: /album_mod/
Disallow: /attach_mod/
Disallow. /db/
Disallow: /docs/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /mods/
Disallow: /modules/
Disallow: /pix/
Disallow: /profilcp/
Disallow: /smilie_creator/
Disallow: /stat_modules/
Disallow: /super_mod/
User-agent: yandex
Disallow: /admin/
Disallow: /album_mod/
Disallow: /attach_mod/
Disallow. /db/
Disallow: /docs/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /mods/
Disallow: /modules/
Disallow: /pix/
Disallow: /profilcp/
Disallow: /smilie_creator/
Disallow: /stat_modules/
Disallow: /super_mod/
User-agent: *
Disallow: /admin/
Disallow: /album_mod/
Disallow: /attach_mod/
Disallow. /db/
Disallow: /docs/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /mods/
Disallow: /modules/
Disallow: /pix/
Disallow: /profilcp/
Disallow: /smilie_creator/
Disallow: /stat_modules/
Disallow: /super_mod/
Als je jouw logfile's volgt kun je de zoekmachines er zo uitpikken aan de hand van hun namen. Je zult verrast staan hoeveel en hoe vaak kleine zoekmachines, privé agenten en andere robots jouw pagina’s op gegevens doorzoeken. Kleine en ook experimentele zoekmachines zullen je bezoeken. Offline browser zullen zich aansluiten, zoals NetCarta’s WebMapper en BackRub. Dit zijn privé zoekmachines.
Uiteraard zullen je de grote robots gelijk opvallen. Het is eenvoudig Infoseek als Infoseek Sidewinder/0.9 en WebCrawler als WebCrawler/3.0 te identificeren. Je dient wel te weten dat HotBot door Inktomi word onderhouden welke weer overeenkomt met Slurp/2.0 of dat Architext het moederbedrijf van Excite is.
Slotopmerkingen
OK, je weet nu waar je naar moet kijken. Hoe dan ook, er zijn enkele dingen die teleur kunnen stellen. Voorbeeld: sommige zoekmachines gedragen zich als gekken. Echt waar. In je logfile zul je bij voorbeeld kunnen zien dat HotBot diverse keren op bezoek was om telkens maar weer dezelfde pagina te indexeren. Gedurende deze bezoeken was HotBot bezig met uitbreiding van de database en heeft niet voldoende informatie over jouw pagina. Zo werkt dus een goede zoekmachine. Ze zal op gezette tijden jouw pagina’s opzoeken om de informatie aan te vullen of uit te breiden. Dit kan dus over een aantal dagen uitgestreken worden. De beweegreden hiervoor is jouw website niet over te belasten met de aanvragen van een normaal werkende robot.
Soms denken mensen dat robots nadat enkele van hun pagina’s zijn geïndexeerd deze vergaarde informatie ook gelijk over het hele web beschikbar is. De realiteit is echter zo dat de robots herhaaldelijk op bezoek zullen komen om juist jouw website juist te catalogiseren. Bekijk dus regelmatig jouw logbestanden en je weet wat er gebeurde.
