Im Abakus-Forum vermutet Curadhan, dass der Googlebot neuerdings Cookies annehmen würde:
ich hab ein Glossar, welches bei Nichtannahme von cookies Session-IDs vergibt. Bei der durchsicht meiner Logs ist mir aufgefallen, dass der Googlebot alle URLs ohne Sessions abgerufen hat. Nimmt der neuerdings cookies an?
Ihm pflichtet der neue Benutzer moin zuerst bei, ich habe das ganze jedoch ersteinmal relativiert. Meiner Meinung nach hat der Bot nur gelernt Session-IDs aus URLs wegzuschneiden und die Seiten direkt anzufragen.
Ich bin gespannt ob man hier weiteres rausfinden wird…
Wie soll das gehen? Dass der Bot Cookies annimmt, halte ich für äußerst unwahrscheinlich.
Viel wahrscheinlicher, logischer und einfacher ist wohl die von dir genannte Variante, dass die SIDs abgeschnitten werden.
[…] Bislang war es so, dass der Googlebot ein großes Problem mit Sessions hatte. Entweder wurden Seiten mit Sessions nicht indexiert oder es entstanden unschöne Dubletten. Ich habe bei einigen neuen Projekten, jedoch auch bei älteren, die Beobachtung gemacht, dass Sessions kein Problem mehr für den Googlebot darstellen. So indexiert der Googlebot z.B. unseren Shop nicht mehr mit dem Anhang (&robot=1), sondern so, als würde er Cookies annehmen. Bislang ging ich hier von einem Phänomen aus, welches nur vereinzelt auftritt und vielleicht auf diverse Optimierungen zurückzuführen ist, jedoch betrifft es auch neue Projekte, bei denen gänzlich auf eine Abschaltung oder Unterdrückung der SID’s verzichtet wurde. Mir war das bisher auch kein Posting wert, da ich keine Referenzobjekte hatte. Jan Piotrowski schreibt jedoch ebenfalls über dieses Phänoment und verweist dabei auf einen Thread im Abakus Forum, wo der Benutzer Curadhan ebenfalls über diesen Umstand berichtet. Ich nehme im Gegensatz zu Jan Piotrowski jedoch an, das es sich hierbei um eine Kombination aus Sessions handeln und bescheiden können und Cookies annehmen handelt. Warum? Bei unserem Shop läuft die Detection über Cookies und da der Googlebot diese anscheinend akzeptiert, wird dieser auch nicht mehr als Bot erkannt und die Variable robot=1 nicht mehr an die URL angehangen. Das sind aber weiterhin nur Vermutungen und man muss das weiter austesten. […]
Naja, theoretisch könnte er das Cookie nur für genau diesen Seitenaufruf „annehmen“ und dadurch das anhängen eine Session-ID vermeiden. Beim nächsten Seitenaufruf wird wieder eines „gesetzt“ von der Seite und deshalb wieder keine SID angehängt.
Müsste man halt mal genau analysieren. Ich bin mir aber ziemlich bis ganz sicher dass man beim Bot niemals ein Cookie auslesen können wird das bei einer vorherigen Seite gesetzt wurde – das wäre technisch ein massiver Aufwand der sich nicht wirklich lohnt da der Bot sowieso den unverfälschten Inhalt einer Seite möchte.
ob er wirklich cookies annimmt kann man ganz einfach feststellen, einfach cookie ins logfile schreiben 🙂
ich kann mir zwar testweises annehmen von cookies vorstellen, aber eine riesensite mit cookies koordiniert abzugrasen, das würde mich denn doch sehr verwundern.
Ich denke auch eher dass der Bot nun in der Lage ist die SIDs wegzuschneiden. Durch eine unbemerkte Panne müsste Google bei meinem phpBB Forum eine SID zugewiesen bekommen haben. Aber im Index waren die Seiten ohne SIDs.
[…] Eine interessante Diskussion findet sich im Abakus-Forum und im Blog von Mario. Demnach wäre es möglich das der Googlebot nun besser mit Sessions umgehen kann. Es bleibt abzuwarten ob dies stimmt und wie gut das funktioniert. Insofern gilt erst einmal weiter das dem Googlebot zum Beispiel durch eine Useragent-Abfrage Sessions vorenthalten werden sollten. […]
Aber wenn der Bot neuerdings Session IDs aus den Urls filtern kann, dann sollte das ja einigen Seiten weniger bis keinen DC bescheren und anderen mehr Pages im Index oder liege ich da falsch?