続報:GoogleBotがどんなリンクを辿るのか調べてみた

前回の投稿「GoogleBotがどんなリンクを辿るのか調べてみた - やわらかたまご - molaovo -」から少し時間が経過して・・・

GoogleBotはJavaScriptを少しは動かしているかもしれない。

そんな驚きの結果が出てしまったので、続報を書く。


前回の記事でアクセスされていなかった、/区切りの配列にしてjoinするようないじわるonclickの別ドメイン版↓

<a onclick="window.open(['http:','','hoge.example.com','foo','bar','test.html'].join('/'), '_blank');return false;" href="javascript:void(0)">別ドメインのリンク</a>

こいつに対して、↓この子の足あとがあった。
apacheのaccess_logより抽出。まだインデックスはされてなかった。。。)

"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

・・・まじで!?
頭いいな、こいつ。

てことは、高負荷とかそういうのを気にしてクローラーを避けるためにJSで画面遷移させるようなページは、あまり意味が無いのかもしれないなぁ。
ちゃんとリンクにrel="nofollow"つけろってことか。
あるいは、何度も来ないようにHTML側にもnofollowつけたり、robot.txtに書いたり。

当たり前の話だけど、来て欲しいページと来てほしくないページ、それぞれしっかり対策しないとダメだな。