problemen met site indexeren bots(google e.d.):oplossing!!

traxx! · Bericht door **traxx!** » 09 feb 2005, 11:16

Zoekmachines in actie worden ook wel spider's, crawler's of robots genoemd. Ze bezoeken jouw webpagina om gegevens te vergaren. Deze robots laten tijdens hun zoektocht door het web sporen achter net als de gewone bezoekers op je server doen. Als je weet waar je moet zoeken kun je gelijk zien wanneer er een zoekmachine op bezoek was. Dit kan je zorg verminderen dat juist jouw pagina’s nooit bezocht worden door een robot. Je kan op de voet volgen wat een robot wel of niet gezien heeft op jouw site.

Hoe identificeer ik een zoekmachine? Sommige van de grote zoekmachines kun je herkennen aan hun hostnaam. Deze is vaak samengevoegd uit een naam of bedrijfsnaam. Een voorbeeld zou kunnen zijn spidey.webcrawler.com.

Een efficiëntere weg een robot te volgen is hun werknaam, of wat soms ook browsernaam wordt genoemd. Robots hebben hun eigen naam, net als browser's. Netscape en IE identificeren zich als Mozilla. Alta Vista’s robot laat Scooter zien, terwijl HotBot’s robot Slurp heet.
De beste oplossing: robots.txt

Code: Selecteer alles

# robots.txt for http://your.site.com/

User-agent: googlebot
Disallow: /admin/
Disallow: /album_mod/
Disallow: /attach_mod/
Disallow. /db/
Disallow: /docs/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /mods/
Disallow: /modules/
Disallow: /pix/
Disallow: /profilcp/
Disallow: /smilie_creator/
Disallow: /stat_modules/
Disallow: /super_mod/

User-agent: yandex
Disallow: /admin/
Disallow: /album_mod/
Disallow: /attach_mod/
Disallow. /db/
Disallow: /docs/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /mods/
Disallow: /modules/
Disallow: /pix/
Disallow: /profilcp/
Disallow: /smilie_creator/
Disallow: /stat_modules/
Disallow: /super_mod/

User-agent: *
Disallow: /admin/
Disallow: /album_mod/
Disallow: /attach_mod/
Disallow. /db/
Disallow: /docs/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /mods/
Disallow: /modules/
Disallow: /pix/
Disallow: /profilcp/
Disallow: /smilie_creator/
Disallow: /stat_modules/
Disallow: /super_mod/

Begin je zoektocht met het zoeken naar robots.txt op je servermachine. Dit bestand vertelt de robots wat ze wel of niet mogen op jouw pagina’s. Niet alle zoekmachines geven gehoor aan robots.txt, maar de meeste wel. Alles wat dit bestand benaderd is waarschijnlijk een spider of robot.
Als je jouw logfile's volgt kun je de zoekmachines er zo uitpikken aan de hand van hun namen. Je zult verrast staan hoeveel en hoe vaak kleine zoekmachines, privé agenten en andere robots jouw pagina’s op gegevens doorzoeken. Kleine en ook experimentele zoekmachines zullen je bezoeken. Offline browser zullen zich aansluiten, zoals NetCarta’s WebMapper en BackRub. Dit zijn privé zoekmachines.

Uiteraard zullen je de grote robots gelijk opvallen. Het is eenvoudig Infoseek als Infoseek Sidewinder/0.9 en WebCrawler als WebCrawler/3.0 te identificeren. Je dient wel te weten dat HotBot door Inktomi word onderhouden welke weer overeenkomt met Slurp/2.0 of dat Architext het moederbedrijf van Excite is.

Slotopmerkingen
OK, je weet nu waar je naar moet kijken. Hoe dan ook, er zijn enkele dingen die teleur kunnen stellen. Voorbeeld: sommige zoekmachines gedragen zich als gekken. Echt waar. In je logfile zul je bij voorbeeld kunnen zien dat HotBot diverse keren op bezoek was om telkens maar weer dezelfde pagina te indexeren. Gedurende deze bezoeken was HotBot bezig met uitbreiding van de database en heeft niet voldoende informatie over jouw pagina. Zo werkt dus een goede zoekmachine. Ze zal op gezette tijden jouw pagina’s opzoeken om de informatie aan te vullen of uit te breiden. Dit kan dus over een aantal dagen uitgestreken worden. De beweegreden hiervoor is jouw website niet over te belasten met de aanvragen van een normaal werkende robot.

Soms denken mensen dat robots nadat enkele van hun pagina’s zijn geïndexeerd deze vergaarde informatie ook gelijk over het hele web beschikbar is. De realiteit is echter zo dat de robots herhaaldelijk op bezoek zullen komen om juist jouw website juist te catalogiseren. Bekijk dus regelmatig jouw logbestanden en je weet wat er gebeurde.

Paul_ · Bericht door **Paul_** » 09 feb 2005, 15:07

Maar dan is wel meteen voor sommigen op je forum duidelijk waar je de zoekmachine niet bij wilt hebben. Meestal niet erg, maar soms misschien wel.