Pagina 1 van 2

Complete forum laten indexeren door zoekmachine-bots

Geplaatst: 11 feb 2005, 13:20
door Paul_
Het is al in meerdere onderwerpen langs gekomen dat dat google met zijn googlebots veel moeite heeft met het indexeren van phpbb forums en dat dit komt door de sessie ids (sid) in phpbb.

Het nadeel hiervan is dus dat je phpbb forum nauwelijks wordt geindexeerd door google. Ik wil namelijk graag dat google mijn complete forum indexeerd :D Nu zijn er meerdere mogelijkheden mogelijk. En ik ben benieuwd wat jullie de beste vinden.

- handmatig alle sessie ids uit het phpbb script halen.
- een van de mods gebruiken, welke?

Ik heb een pagina gezien die alle php files van onderwerpen en subfora (viewtopic en viewforum) omzet in een html bestand (zo lijkt het). Zie bv http://forum.plesksupport.nl/

Ik wil het dus niet hebben over robots.txt en .htaccess beveiligingen tegen de bots omdat ze te veel dataverkeer genereren.

Bij mij heeft msn 2165 pagina's geindexeerd en google 55 pagina's.

Geplaatst: 11 feb 2005, 14:24
door Erik Geurts
Ik heb er voor gekozen op overal in het script de append_sid() weg te halen. Ik heb het uitgebreid getest, het heeft geen nadelige gevolgen voor mijn site, maar het betekent wel dat de URLs van de topics en posts niet telkens veranderen. Het gevolg is geweest dat Google en andere bots de site veel beter konden indexeren, en daarmee is de pagerank van mijn site flink gestegen, en ook het aantal bezoekers dat via Google langskomt.

Geplaatst: 11 feb 2005, 14:34
door Paul
Wat volgens mij simpeler is om in die functie het deel weg te halen wat de sid erachter zet? Ik weet niet uit me hoofd hoe die functie eruit ziet maar mischien is dat dan makkelijker?

Geplaatst: 11 feb 2005, 16:57
door mosymuis

Geplaatst: 11 feb 2005, 17:13
door Paul_
mosymuis schreef:Kijk eerst eens hier:
http://www.phpbb.nl/viewtopic.php?t=9987
Die had ik inderdaad een week geleden gevonden. Maar ik kon het vandaag niet meer vinden. Ik zocht blijkbaar niet ver genoeg terug.

Dat zijn 23 nuttige tips in de eerste post.

Punt 5 en 23 hebben betrekking tot mijn vraag. Wat is nu jullie ervaring hier mee?

Jij hebt handmatig alle sessie ids eruit gesloopt. Ben je nog van mening dat dat de beste methode is? Waar kan ik een duidelijke uitleg vinden hoe dat moet? phpbb.com is immers offline en op phpbb.nl kan ik het niet vinden. Want je omschreef het als volgt:
Handmatig alle append_sid() functies eraf slopen. Monnikenwerk...

Geplaatst: 11 feb 2005, 18:17
door mosymuis
Zeker niet de beste methode, omdat het foutgevoelig is (als je geen ervaring hebt met het debuggen van PHP code moet je er niet aan beginnen) en ontzettend lang duurt. Bovendien maak je het onmogelijk om mensen zonder cookies gebruik te laten maken van je forum, maar dat is een compromis waar je bewust voor kunt kiezen.

Het weghalen van het SID in de append_ functie is ook niet echt een aanrader, omdat pagina's als die van ModCP en het AdminCP een SID vereisen. Een van je beste opties is het gebruiken van /pretty/urls/with/mod_rewrite, dat kan aan de hand van deze walkthrough. Hiermee creëer je .html files, welke Google graag ziet. :)

Geplaatst: 11 feb 2005, 21:40
door Paul_
Hmm, lastig.

Want die pretty html urls lijkt me ook wat overdreven. Hoe houd een server het qua gebruik bij een druk bezocht forum? Het lijkt me iedere keer nogal een intensief proces. En dan lijkt een phpbb forum zonder session id wel netter. Want ook alle adressen zullen nu wijzigen.

Hoe zit het met het verwijderen van de session id bij het updaten naar een nieuwe versie van phpbb. Moet dan het monniken werk herhaald worden? Is het niet mogelijk om alleen de index.php viewtopic.php en viewforum.php zo te bewerken dat ze geen session id meer weergeven?

Want in de uitleg op link veranderd hij 2 dingen. Hij haalt de sessie id eruit en hij maakt van de php files html files zodat je het ?-teken, de =-teken en &-teken kwijtraakt. Om nog mooiere files voor google te krijgen. Is het niet mogelijk om alleen de sessie id er op zijn manier uit te gooien en de php structuur te behouden. Dan heb je al 1 vlieg. De 2de kun je eventueel pakken door het maken van html pagina's.

Geplaatst: 11 feb 2005, 22:06
door mosymuis
Paul_ schreef:Hoe houd een server het qua gebruik bij een druk bezocht forum? Het lijkt me iedere keer nogal een intensief proces.
Neuh, vergeet niet dat een computer zijn hand niet omdraait voor cijfer- en patronenklusjes. Het vertalen van een adres volgens de instructies van Apache zou ik geen noemenswaardige belasting voor je server noemen, afgezien van het feit dat je forum waarschijnlijk toch niet zo groot is dat je op dat soort dingen moet gaan letten.
Paul_ schreef:Hoe zit het met het verwijderen van de session id bij het updaten naar een nieuwe versie van phpbb. Moet dan het monniken werk herhaald worden?
Alleen als je bij een update phpBB volledig overschrijft, natuurlijk. Bij manuele updates wordt er in principe niets aan de adressen veranderd, dus dan is je werk veilig.
Paul_ schreef:Is het niet mogelijk om alleen de index.php viewtopic.php en viewforum.php zo te bewerken dat ze geen session id meer weergeven?
Dat kan, maar het staat wat slordig naar je bezoekers toe als ze op pagina's als ledenlijst, PB en zoeken wél ?sid= adressen krijgen en in topics niet. Bovendien zijn de bestanden die jij nu noemt toch het meeste werk, dus als je er aan begint kan je ze het beste allemaal doen.
Paul_ schreef:Is het niet mogelijk om alleen de sessie id er op zijn manier uit te gooien en de php structuur te behouden. Dan heb je al 1 vlieg. De 2de kun je eventueel pakken door het maken van html pagina's.
Je vergeet dat een .htaccess de adressen aanneemt, en dan intern vertaalt. Wat jij zoekt is een manier waarop de adressen al zijn omgezet, op het moment dat ze de server bereiken. Dát zijn namelijk de adressen waar Google mee werkt.

Geplaatst: 11 feb 2005, 22:17
door Paul_
Op de volgende onderwerpen van webmasterworld hebben ze het ook over het verwijderen van sessie ids. Maar waarom lijkt het daar veel simpeler? Zien ze iets over het hoofd? Of kan het zo ook?

- http://www.webmasterworld.com/forum103/297.htm
- http://www.webmasterworld.com/forum103/209.htm
- http://www.webmasterworld.com/forum103/322.htm

Volgens mij zorgen zij er zo voor dat alleen de search-bots geen session id krijgen. En dat is natuurlijk helemaal mooi, iedereen tevreden.
mosymuis schreef: Dat kan, maar het staat wat slordig naar je bezoekers toe als ze op pagina's als ledenlijst, PB en zoeken wél ?sid= adressen krijgen en in topics niet. Bovendien zijn de bestanden die jij nu noemt toch het meeste werk, dus als je er aan begint kan je ze het beste allemaal doen.
Het is nog slordiger vind ik om als ze op pagina's als ledenlijst, PB en zoeken wél php pagina's krijgen en in topics html (zie dit phpbb forum met html)

Ik krijg trouwens op mijn eigen forum en op andere forums ook welleens een session id te zien maar niet altijd. Ook erg raar...

Geplaatst: 11 feb 2005, 22:27
door mosymuis
Het uitsluiten van het SID op basis van hostname (voor Googlebot, Inktomi etc) is inderdaad nog een andere optie, hier bestaan een paar mods voor op phpbb.com en phpBBhacks. Ik heb er eens eentje geprobeerd, maar het gaf als enige resultaat dat Google database error pagina's gepresenteerd kreeg vanwege dubbele sessies die de bot kreeg. Niet echt een verbetering, een indexering van errors. :P

Je kunt ze dus uitproberen, maar ik vond het geen succes.

Geplaatst: 11 feb 2005, 22:35
door Paul_
Hmmm, ik zal nog een nachtje slapen over alle 3 de opties.
- pretty html files
- SID MOD
- Alle sids verwijderen.

Mosymuis jij vind de 3de optie dus nog steeds de netste optie?

De append_sid() functies komen in ongeveer 54 php files van phpbb voor. Is er niet ergens een zipje te downloaden waar een groot deel van die files in staan? Dus phpbb 2.0.11 files zonder mods en met alleen het verwijderde append_sid()?

Geplaatst: 11 feb 2005, 23:04
door mosymuis
Paul_ schreef:Mosymuis jij vind de 3de optie dus nog steeds de netste optie?
De derde is gewoon lomp, het is het meeste werk maar geeft gegarandeerd resultaat. :P De tweede is het slimste, maar werkte zoals ik al zei voor mij niet. De eerste wordt daarom het meeste gebruikt.
Paul_ schreef:De append_sid() functies komen in ongeveer 54 php files van phpbb voor. Is er niet ergens een zipje te downloaden waar een groot deel van die files in staan? Dus phpbb 2.0.11 files zonder mods en met alleen het verwijderde append_sid()?
Ik ken überhaupt geen forums die dit gedaan hebben zoals ik, en ben ook nog nooit een versie tegengekomen waarin dit klusje al geklaard was. Waarschijnlijk ook omdat het phpBB in mogelijkheden aantast: ik zei al dat het mensen die geen cookies accepteren, uitsluit van forum gebruik.

Geplaatst: 12 feb 2005, 10:07
door Luuk
En als je append_sid wilt verwijderen kun je denk ik beter de functie in sessions.php aanpassen, hoef je maar 1 ding te veranderen.

Geplaatst: 12 feb 2005, 10:59
door Paul_
Luuk schreef:En als je append_sid wilt verwijderen kun je denk ik beter de functie in sessions.php aanpassen, hoef je maar 1 ding te veranderen.
Maar bij mosymuis werkte dat dus niet.
mosymuis schreef: Ik ken überhaupt geen forums die dit gedaan hebben zoals ik, en ben ook nog nooit een versie tegengekomen waarin dit klusje al geklaard was. Waarschijnlijk ook omdat het phpBB in mogelijkheden aantast: ik zei al dat het mensen die geen cookies accepteren, uitsluit van forum gebruik.
En de SID MOD heeft dit niet?

En de pretty html files ook niet?

Geplaatst: 12 feb 2005, 12:19
door Paul_
Ik heb besloten om volgend weekend de pretty html urls te installeren. Maar dan om het op te slaan als onderwerp/4252/index.html en dus niet als onderwerp/4252.html En dan het adres /onderwerp/4252 te gebruiken.

Maar eerst moet ik erachter zien te komen wat dit is: Veel unieke bezoekers op mijn site met vreemde request

Want ik vertrouw mijn site nog niet helemaal. Het wordt nog steeds op PHP 4.3.8 gedraaid.

Geplaatst: 12 feb 2005, 19:38
door mosymuis
Paul_ schreef:Want ik vertrouw mijn site nog niet helemaal. Het wordt nog steeds op PHP 4.3.8 gedraaid.
Dat heeft niets met Santy te maken, de kans op een hack via de PHP serialize bug is klein. Maar inderdaad; wel zo snel mogelijk upgraden!

Luuk schreef:En als je append_sid wilt verwijderen kun je denk ik beter de functie in sessions.php aanpassen, hoef je maar 1 ding te veranderen.
..
mosymuis schreef:Het weghalen van het SID in de append_ functie is ook niet echt een aanrader, omdat pagina's als die van ModCP en het AdminCP een SID vereisen.

Geplaatst: 12 feb 2005, 20:04
door Luuk
@Mosymuis, ik bedoelde ook mocht hij het toch willen doen :wink:

Geplaatst: 12 feb 2005, 21:46
door abcde
Ik heb hier een klein vraagje over; ik heb een probleem met Mod_Rewrite. Ik gebruik Lycos Paid. Het probleem is dat ik een 404 error krijg. Werkt Mod_Rewrite niet op Lycos Paid? Heeft iemand een andere oplossing?

Geplaatst: 13 feb 2005, 11:07
door Paul
neej dat werkt niet op lycos nee :(.

Geplaatst: 13 feb 2005, 11:31
door jh0nny
Nou succes met het indexeren, ik ben er zelf maar vanaf gestapt omdat het echt teveel MB's begint te kosten .. stond er zo'n 180.000 keer in met mijn forum die rond de 120.000 berichten bevat en het kost nu echt teveel aan dataverkeer om de boel te laten indexeren aangezien dat ding vrijwel continue aanwezig was en maar bleef indexeren ... nu staat de teller op zo'n 80.000 en indexeert ie vrijwel niets nieuws meer (maar goed ook :D) ... was in het begin blij ermee maar uiteindelijk kostte het 10-tallen procenten aan dataverkeer en dat vind ik toch net ietsjes teveel. 8)