Search Engine Spiders identificeren

Discussieer hier over alles rondom phpBB.
Forumregels
LEES: Algemene Voorwaarden. Dit forum is niet voor technische vragen!
Plaats reactie
Gebruikersavatar
rickieizfazt
Berichten: 52
Lid geworden op: 04 jan 2008, 09:50
Contacteer:

Search Engine Spiders identificeren

Bericht door rickieizfazt » 21 feb 2008, 20:59

Voor enkele weken vroeg ik hier om het script voor de installatie van extra bots. Helaas is dat off-line ivm problemen. Het bijhouden van bots is belangrijk omdat een bot die niet bekend is geen goede toegang krijgt zo blijkt in de praktijk. Als je bijvoorbeeld forums afschermt en pas laat lezen als een gebruiker inlogt dan heb je een probleem met de bereikbaarheid van je forum voor de bots die niet bekend zijn in je ACP van je forum. Ook het maken van een sitemap met bijvoorbeeld A1 (gedraagt zich als bot) gaat niet goed meer lukken. Als het je niet uitmaakt dat je goed in de searchengines komt en SEO is niet bekangrijk voor je dan kun je dit vanzelfsprekend allemaal overslaan en laten zitten.

Dus om goede bots hun werk goed te laten doen, hier de lijsten met BOTS die hun werk normaal doen.

Avondje tikken of misschien kan iemand het script aanpassen (dat er al is) met al deze Search Engine Spiders List als MOD. De eerste lijst is wat verouderd zo lijkt het, de tweede met 303 bots redelijk up-to-date.

Code: Selecteer alles

http://www.siteware.ch/webresources/useragents/spiders/



303 bots met download optie Robots Database, check site , aantal inactief!

Code: Selecteer alles

http://www.robotstxt.org/db.html
Dit is een interessante link als je wilt weten welke bots er rondwaren op site die je ondanks dit allemaal nog steeds niet hebt geïdentificeerd en dus als gast binnekomen.

Code: Selecteer alles

http://www.crawltrack.fr/
Tot slot misschien wel de belangrijkste om niet te vergeten, de BAD BOTS, de spammers en degenen die je robots.txt negeren:

Code: Selecteer alles

http://www.kloth.net/internet/badbots.php


en geleend van webmasterworld A Close to perfect .htaccess ban list

Code: Selecteer alles

<Files .htaccess> 
deny from all 
</Files> 
RewriteEngine on 
RewriteBase / 
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*NEWT [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Crescent [OR] 
RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [OR] 
RewriteCond %{HTTP_USER_AGENT} ^[Ww]eb[Bb]andit [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebEMailExtrac.* [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NICErsPRO [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Teleport [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Zeus.*Webster [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Microsoft.URL [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR] 
RewriteCond %{HTTP_USER_AGENT} ^LinkWalker [OR] 
RewriteCond %{HTTP_USER_AGENT} ^sitecheck.internetseer.com [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ia_archiver [OR] 
RewriteCond %{HTTP_USER_AGENT} ^DIIbot [OR] 
RewriteCond %{HTTP_USER_AGENT} ^psbot [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EmailCollector 
RewriteRule ^.* - [F] 
RewriteCond %{HTTP_REFERER} ^http://www.iaea.org$ 
RewriteRule !^http://[^/.]\.your-site.com.* - [F] 

Code: Selecteer alles

Here's my latest bad bot list. Post if there are more, or if any shouldn't be there. 
I know there's a couple that are duplicates with the [NC} option inplace... 

RewriteEngine on 
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Bullseye.* [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^BDFetch [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^bot\ mailto:craftbot@yahoo.com [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^CherryPickerSE [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^CherryPickerElite [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Crescent [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Crescent.*Internet.*ToolPak.* [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^DIIbot [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^DISCo [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^eCatch [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*[Ee]mail.* [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^EmailCollector [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^GetRight [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Grafula [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^HMView [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^HTTrack [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^ia_archive [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^ia_archiver [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^InterGET [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^internetseer.com [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^InternetSeer.com [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^JetCar [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^larbin [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^microsoft.url [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Microsoft.URL [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*Indy [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*NEWT [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^MSFrontPage [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Navroad [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^NearSite [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*NEWT.*ActiveX [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^NICErsPRO [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Octopus [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^psbot [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^ReGet [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^sitecheck.internetseer.com [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Siphon [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Superbot [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^SurfWalker.* [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Teleport [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Teleport*28 [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Telesoft [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^TV33_Mercator [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^[Ww]eb[Bb]andit [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^[Ww]eb[Cc]ollector [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^[Ww]eb.*[Mm]ole [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^[Ww]eb[Ww]easel [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebEMailExtrac.* [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebZIP [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Wget [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Widow [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Zeus [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Zeus.*Webster [NC,OR] 
RewriteCond %{REQUEST_URI} formmail.* [NC,OR] 
RewriteCond %{REQUEST_URI} FormMail.* 
RewriteRule ^.*$ byebye.php [L] 

Draai canverPORTAL met phpBB3, advanced SEO MOD, SEO dynamic metatags, in board geintegreerde Ajax Chatbox, diverse kleine MODS. BRIDGED Coppermine gallery. Cutenews onder overall_header en _footer. RSS van Cutenews is geintegreerd in Portaal. SEO & BOTS monitored by CrawlTrack en phpMyvisites, twee echte aanraders . Tevens de SNEWS RSS functions published via Feedburner, phpBB Arcade online games. Kom eens langs op http://tjoogle.com work in process: bridged phpFusion

ElbertF
Berichten: 5803
Lid geworden op: 12 okt 2004, 08:34
Contacteer:

Re: Search Engine Spiders identificeren

Bericht door ElbertF » 21 feb 2008, 22:35

rickieizfazt schreef:Als je bijvoorbeeld forums afschermt en pas laat lezen als een gebruiker inlogt dan heb je een probleem met de bereikbaarheid van je forum voor de bots die niet bekend zijn in je ACP van je forum.
Als je een forum afschermd wil je toch niet dat je berichten alsnog via de cache van een zoekmachine gelezen kunnen worden? Je moet bots zien als gewone gasten, er gaat niks fout als ze niet bekend zijn in het ACP.

Gebruikersavatar
rickieizfazt
Berichten: 52
Lid geworden op: 04 jan 2008, 09:50
Contacteer:

Re: Search Engine Spiders identificeren

Bericht door rickieizfazt » 21 feb 2008, 22:46

Daar kan ik het even niet mee eens zijn en dat zal ik uitleggen. Een forum wat alleen gelezen kan worden door een geregistreerde gebruiker en niet door een gast (zoals het nogal een ingesteld wordt) kan mijns inziens ook niet gelezen worden door een bot die niet in de ACP staat? En dus niet geindexeerd worden. Het is geen fout maar een probleem als je wel met je pagina's in de index wilt. Want een afgeschermd forum komt maar weinig voor. De meesten laten registreren omdat ze het leuk vinden om registered users te hebben denk ik toch? Dus moet je dan alle bots toevoegen die je kent.....

Als ik met mijn Ferrari board wil dat alle Ferrari rijders zich registreren dan scherm ik af. vervolgens kom ik met de info niet bij de bot en dat wil ik ook weer niet. Overigens..... helaas gaat mijn board niet over Ferrari's...

Doordenkend op dit punt zal het denk ik zelfs zo zijn dat met name nieuwe gebruikers hun gegevens en forums soms afsluiten, zich vervolgens aanmelden of hebben aangemeld per website of software bij zo veel mogelijk zoekmachines waarvan vervolgens in een aantal gevallen de spider geen toegang heeft tot de gegevens van de site, de boards zelf, als de betreffende spider niet in de tabel staat.

En dan wat harde feiten. In mijn geval (host one.com registreert bots) werd tot nu toe van 53% van de spiders die op bezoek kwam ook in ACP geregistreerd dat ze er waren. Hier zaten onduidelijke en spambots bij maar in het geval van 4 bots werd de boot gemist zonder dat dat eigenlijk de bedoeling was. Vandaar mijn vragen, opmerkingen en dit onderwerp hier. Ik zou er graag nog veel meer vinden want ook voor mij zelf is het dus een punt wat aandacht heeft.
Draai canverPORTAL met phpBB3, advanced SEO MOD, SEO dynamic metatags, in board geintegreerde Ajax Chatbox, diverse kleine MODS. BRIDGED Coppermine gallery. Cutenews onder overall_header en _footer. RSS van Cutenews is geintegreerd in Portaal. SEO & BOTS monitored by CrawlTrack en phpMyvisites, twee echte aanraders . Tevens de SNEWS RSS functions published via Feedburner, phpBB Arcade online games. Kom eens langs op http://tjoogle.com work in process: bridged phpFusion

ElbertF
Berichten: 5803
Lid geworden op: 12 okt 2004, 08:34
Contacteer:

Re: Search Engine Spiders identificeren

Bericht door ElbertF » 22 feb 2008, 11:13

Ik begrijp nog steeds niet waarom je dat wilt, wij hebben hier bijv. afgesloten teamforums en ik zou toch echt niet willen dat een bot hierbij kan. Ten eerste omdat alle niet-teamleden alles dan doodleuk kunnen lezen op Google, ten tweede omdat het vrij makkelijk is om je user-agent te veranderen (of via Google's vertaalfunctie te surfen die als een soort proxy dient) en je voor te doen als Google, en zo als niet-geregistreerd lid alles gewoon te kunnen lezen op het forum.

Hier is verder alles te lezen voor gasten/bots, maar moet je wel een account hebben om een bericht te kunnen plaatsen. Zoals je kunt zien zijn er om die reden genoeg mensen die registreren. Persoonlijk registreer ik nooit op forums waar ik van te voren niks kan lezen, waarom de moeite nemen als je niet weet wat je krijgt? Aan geregistreerde leden die nooit terug komen heb je toch ook niks?

Kortom bots zijn gewoon gasten en moet je niet anders behandelen. Het handige van de lijst met bots is dat je permissies zo kan instellen dat ze bijv. geen knoppen zien voor het aanmaken van een nieuw bericht, omdat dat soort pagina's geen inhoud bevatten en dus ook niet geïndexeert hoeven te worden.

Zoveel relevante bots zijn er verder trouwens niet, met Google, Yahoo en Live dek je 95% van de zoekopdrachten.

Gebruikersavatar
rickieizfazt
Berichten: 52
Lid geworden op: 04 jan 2008, 09:50
Contacteer:

Re: Search Engine Spiders identificeren

Bericht door rickieizfazt » 22 feb 2008, 15:37

Hoi Elbert, je snapt volgens wat ik lees denk ik niet wat ik hier bedoel, het is ook niet eenvoudig.

1. Ik heb een board en ik wil dat iedereen inlogt voor dat hij bij de informatie kan. 2. Ik wil zo veel mogelijk bezoekers. 3. Omdat mijn forum is afgesloten totdat je inlogt (omdat ik wil dat je je registreert voordat je iets ziet of kan (en dat is echt op heel veel boards) zullen alle bots die niet in de ACP staan het board niet kunnen indexeren.

Ik denk dat jij met een afgesloten forum een forum bedoelt dat voor 1 afgeschermde groep gebruikers is. Daar heb ik het niet over. Ik heb het over een open forum dat pas zichtbaar is als je inlogt. Dus je kunt wel zien op de index dat het forum BESTAAT maar als je er in wil MOET je inloggen en iedereen is er welkom. In geavanceerd staat voor gasten zien aan en lezen uit. Zo staan heel veel forums ingesteld als ik zo eens rondsurf. De forums die ik bedoel zijn gewoon open maar pas zichtbaar nadat je inlogt. Dat komt toch vaak voor?

Bij deze instellingen, die ik zelf ook gebruik, ben je verplicht zoveel mogelijk bots op te nemen. Ik zag het gemis aan bots ook pas doordat de botstats van de provider twee keer zo veel bots staan dan in die van het board. In de gedetaileerde stats zag ik dat de bots die niet in ACP staan maar een of twee pagina's zien en dan 'rap aftaaien'. Maar goed, ik draai engels en richt me niet specifiek op nederland. Het is ook geen kritiek, het is geen fout, het is wel een aandachtspunt voor degenen die mijn instellingen gebruiken. En als deze botinstellingen internationaal gebruikt worden voor alle phpBB3 boards is daar het aandachtspunt zeker aanwezig,

Ik draai in engels en probeer (probeer......) een groter publiek aan te spreken. Met de grote drie draai je in Nederland misschien wel 95% maar dan ga je - bijvoorbeeld - in Rusland toch echt het schip in want die draait voor meer dan 60% op Yandex. Als je hier kijkt http://www.webmasterworld.com/category11.htm zie je ook hoeveel zoekmachines/crawlers/bots er wereldwijd rondwaren en wat ze zoal doen. En al pakten ze zelfs wereldwijd 95%, ik zou dan die 5% ook willen maar het tekort aan dekking is wereldwijd echt veel groter.

En o ja, ik had bij die vier bots die ik mistte ook Ilse..... Dat is een Nederlandse bot en die moet er toch ook zeker in bij de meesten hier? Mij pakte die niet mee omdat ik engels voer als taal trouwens.
Draai canverPORTAL met phpBB3, advanced SEO MOD, SEO dynamic metatags, in board geintegreerde Ajax Chatbox, diverse kleine MODS. BRIDGED Coppermine gallery. Cutenews onder overall_header en _footer. RSS van Cutenews is geintegreerd in Portaal. SEO & BOTS monitored by CrawlTrack en phpMyvisites, twee echte aanraders . Tevens de SNEWS RSS functions published via Feedburner, phpBB Arcade online games. Kom eens langs op http://tjoogle.com work in process: bridged phpFusion

ElbertF
Berichten: 5803
Lid geworden op: 12 okt 2004, 08:34
Contacteer:

Re: Search Engine Spiders identificeren

Bericht door ElbertF » 22 feb 2008, 16:17

rickieizfazt schreef:Hoi Elbert, je snapt volgens wat ik lees denk ik niet wat ik hier bedoel, het is ook niet eenvoudig.
Ik begrijp heel goed wat je bedoeld. :P
rickieizfazt schreef:Ik denk dat jij met een afgesloten forum een forum bedoelt dat voor 1 afgeschermde groep gebruikers is. Daar heb ik het niet over.
Dat was in mijn voorbeeld zo ja, maar komt op hetzelfde neer.
rickieizfazt schreef:Ik heb het over een open forum dat pas zichtbaar is als je inlogt. Dus je kunt wel zien op de index dat het forum BESTAAT maar als je er in wil MOET je inloggen en iedereen is er welkom. In geavanceerd staat voor gasten zien aan en lezen uit. Zo staan heel veel forums ingesteld als ik zo eens rondsurf. De forums die ik bedoel zijn gewoon open maar pas zichtbaar nadat je inlogt. Dat komt toch vaak voor?
Waarom zou je mensen irriteren door ze te verplichten om te registreren en in te loggen als ze toch allemaal welkom zijn? Iemand zoekt dus op Google en vindt een pagina op je forum. Ze klikken op de link en zien geen bericht maar een inlogvenster. Ze hebben geen account dus moeten eerst registreren, activeren, inloggen om er vervolgens achter te komen dat het bericht misschien niet het resultaat is wat ze zochten en vertrekken weer (als ze al die moeite al nemen).

Het enige wat je bereikt is dat je ledenlijst weer +1 is, dit is volgens mij ook waar het jou om te doen is. Het lijkt dan net alsof je verschrikkelijk veel leden hebt terwijl 99% na één bezoek toch niet terug keert.

Het is veel beter om de forums openbaar te maken, en ze te laten inloggen als ze willen deelnemen aan de discussie zoals hier. Een gebruikersnaam en avatar zorgt ervoor dat ze herkenbaar zijn etc., wat niet relevant is als ze toch niks posten. Als je een goed onderwerp hebt zal je dit juist meer leden opleveren, omdat hun interesse wellicht gewekt wordt als ze de berichten als gast gewoon kunnen lezen.

Zoals ik al zei haken de meeste mensen af zodra ze een inlogscherm zien, zeker als ze het bericht ook gewoon op Google zelf kunnen lezen via de cache en dus niet moeilijk hoeven te doen.

Je kan nooit alle duizenden bots op het internet bijhouden, er komen er praktisch dagelijks nieuwe bij (ik kan ook zo even een bot maken als ik wil). Daarom zou ik alleen de relevante bots toegang geven als je dit toch graag wilt, en die staan er eigenlijk al bij. Uiteraard kun je de lijst aanvullen om ook andere bots permissies te kunnen geven maar voor de meeste mensen is dit helemaal niet interessant.

Gebruikersavatar
rickieizfazt
Berichten: 52
Lid geworden op: 04 jan 2008, 09:50
Contacteer:

Re: Search Engine Spiders identificeren

Bericht door rickieizfazt » 22 feb 2008, 16:34

Ok Elbert now we are talking. Jij denkt er vanuit je gevoel over maar laten we ons beperken tot harde cijfers. Ik had per 30 dagen 2000-2200 bookmarks, nu heb ik per 30 dagen 100-120 nieuwe leden. Dit worden voor ruim 70% vaste bezoekers die dagelijks terugkomen. Omdat ze inloggen kunnen ze ook antwoorden wat ook eerder geen mens deed. phpBB is about 'building communitys'. Daar ben ik nu mee bezig en dat kost tijd.

En met deze software http://www.crawltrack.fr/ hou ik al die 1000'den bots bij maar vooral degenen die bij mij op de site komen en willen indexeren. Natuurlijk weet ik ook dat je zo een bot kunt maken, ik heb er zelf ook zo een klaar staan als je dat wilt. Maar je chargeert nu. De kern van het verhaal is dat, als de standaardinstellingen voor bots wereldwijd zijn, een groot gedeelte slechte zaken doet met de instellingen die ik bedoel en die toch vaak gehanteerd worden voor phpBB3 boards.

Ik snap wat jij bedoelt. Een groot gedeelte van het publiek dat langskomt profiteert en taait af. Zo werkt het nu eenmaal. Ik stoor me daar niet aan maar 'als ik niks aan jou hebt heb jij zo weinig mogelijk aan mij' is dan toch een zakelijke reactie? En ik betwijfel in alle redelijkheid of al te veel mensen 'in de cache van Google' werken. Als ze al weten dat ie bestaat, wat het is en wat je er mee kunt.

Het is een goede zaak om - vanuit mijn denkwijze - zo veel mogelijk bots op te nemen die je denkt nodig te hebben en die langskomen.
Draai canverPORTAL met phpBB3, advanced SEO MOD, SEO dynamic metatags, in board geintegreerde Ajax Chatbox, diverse kleine MODS. BRIDGED Coppermine gallery. Cutenews onder overall_header en _footer. RSS van Cutenews is geintegreerd in Portaal. SEO & BOTS monitored by CrawlTrack en phpMyvisites, twee echte aanraders . Tevens de SNEWS RSS functions published via Feedburner, phpBB Arcade online games. Kom eens langs op http://tjoogle.com work in process: bridged phpFusion

ElbertF
Berichten: 5803
Lid geworden op: 12 okt 2004, 08:34
Contacteer:

Re: Search Engine Spiders identificeren

Bericht door ElbertF » 22 feb 2008, 18:19

Het is vooral een tip, veel mensen hebben dezelfde denkwijze als jij en dat is mijn ogen toch een verkeerde. Net zoals dat je bij veel winkels eerst een klantenpas moet aanschaffen voor je korting krijgt. Uiteraard zullen veel mensen dit doen (en blij zijn met de korting), maar echt sympatiek is het niet. Het is ook twijfelachtig omdat zoekmachines geen toegespitste content willen indexeren maar gewoon wat iedereen ziet, hier worden dan ook 'penalties' voor uitgedeeld.

Zover ik weet zijn de bots die standaard door phpBB3 herkend worden trouwens allemaal "vriendelijke" bots.

Gebruikersavatar
rickieizfazt
Berichten: 52
Lid geworden op: 04 jan 2008, 09:50
Contacteer:

Re: Search Engine Spiders identificeren

Bericht door rickieizfazt » 22 feb 2008, 18:37

OK Elbert dank je voor je eerlijkheid, ik kan je gedachten goed volgen maar kies voor nu een andere weg.
Overigens als er ook volgens jou veel zo denken dan is dit uiteindelijk toch een nuttige 3.0 discussie want voor al die mensen is het toch belangrijk om de bots te kennen.

Heb je trouwens gekeken naar Crawltrack en gezien wat een prachtige add-on dat is met instructies voor phpBB2 en phpBB3? Je ziet hem bijna nergens of misschien kende je hem al? Hij herkent zo'n 1300 crawlers en update per week 'the good and the bad and the new' dus die vriendelijke bots die langskomen kun je toevoegen. Ik vind het een schitterend programma en snel en makkelijk te installeren.
Draai canverPORTAL met phpBB3, advanced SEO MOD, SEO dynamic metatags, in board geintegreerde Ajax Chatbox, diverse kleine MODS. BRIDGED Coppermine gallery. Cutenews onder overall_header en _footer. RSS van Cutenews is geintegreerd in Portaal. SEO & BOTS monitored by CrawlTrack en phpMyvisites, twee echte aanraders . Tevens de SNEWS RSS functions published via Feedburner, phpBB Arcade online games. Kom eens langs op http://tjoogle.com work in process: bridged phpFusion

ElbertF
Berichten: 5803
Lid geworden op: 12 okt 2004, 08:34
Contacteer:

Re: Search Engine Spiders identificeren

Bericht door ElbertF » 22 feb 2008, 21:47

De botlijst aanvullen is natuurlijk altijd leuk, vooral om te zien welke bots wanneer en hoevaak op je forum komen. Ik heb me er niet verder in verdiept, ik vindt het leuk om te zien wanneer Google of Webarchive langskomt maar kan me niet interesseren in elk klein spidertje. :P Vooral ook omdat ik zoals ik al aangaf niet met speciale permissies voor bots werk of veel waarde hecht aan SEO op een forum.

Plaats reactie