Googleのクローラーに関して分からないこと

結構前の記事なのですが「WEB in the morning」さんの「Googleのクローラー」という記事より。

Googleのクローラー、3種類あると思うんだけど、
まず1つはブログとかPing飛ばしたら来る奴。
これ、Ping飛ばすと一発でアクセスしてインデックスしてるよね。
次によく更新されるページやオーソリティー高いページにターゲット絞ってアクセスしてるやつ。
1~3日に1回くらいインデックスしてるよね。
あと、最後に2週間に一回くらい回ってくる通常のクローラー。
普通のサイトの場合、このクローラーでリンク価値が判断される。
Googleのクローラー

この3種類のクローラーって言うのがわからなかったんですね。
自分が見た事あるのは多分「通常のクローラー」
で、

Mozilla/5.0 (compatible; Googlebot/2.1; http://www.google.com/bot.html)

多分これ。
自分はこの1種類だけだと思ってたのです。

■ロボットが来ないのにインデックスもキャッシュもある?

以前「Yahoo!とGoogleの検索結果反映のタイムラグを調べてみた」という記事で更新からインデックスまでの経緯を追っていた際に不思議だったのは

・クローラーのアクセスログがないのに検索結果に表示される

ということでした。
自分で書いたもののそもそもそんなことはありえるのかと。

ちなみに昨日の更新「Googleインスタント検索と一緒に実装された矢印キーを探る」もログを見ていたところクローラーのアクセス無し。でもインデックスもキャッシュもあり。

Cache

キャッシュ日時:5/1 16:05:49
→日本時間 5/2 25:05:49

となるわけですがこの区間のログがないわけですね。
(というか昨日の更新から今までGooglebotの該当ページに対してのログがない)

Log_2

そこで思ったのが単純に

Mozilla/5.0 (compatible; Googlebot/2.1; http://www.google.com/bot.html)

ではないクローラーがアクセスしていて、それをココログのログ管理機能では捕獲できないだけではないか説。
(上記ロボットはアクセスログに残っている)


■晴練雨読さんのログを参照する。


到着クローラー種類分析 – 2011年5月1日 / SEOの晴練雨読

ログを公開しているので見てみたところ、知らないGoogleのログが。

Feedfetcher-Google; (+http://www.google.com/feedfetcher.html)

これか!と思ったのですが、参照のURLを見るとどうも違う模様。

Feedfetcher はユーザーが追加したこのフィードを収集し、定期的に更新しますが、ブログ検索や Google のその他の検索サービスにはインデックスを登録しません(フィードは Googlebot でクロールされたときのみ検索結果に表示されます)。
Feedfetcher – ウェブマスター ツール ヘルプ

で、Googlebotの説明を見ると以下の通り。

インデックス登録するサイトの近くにあるマシンで多数のクローラーを稼働させています。そのため、google.com の複数のマシンからのアクセス(ユーザーエージェントはすべて Googlebot)がログに記録される場合があります。
Googlebot とは – ウェブマスター ツール ヘルプ

同じUserAgentでもココログが捕獲出来ていないログがあるということなのだろうか・・・ふーむ。

結論「わからない」というもやもやした感じなのですが、やっぱりこの辺は無料ブログ機能の限界値なのかなー。

コメント

タイトルとURLをコピーしました