【LLMの反応】ChatGPTとPerplexityでGoogleのインデックス後ページが出てくる

LLMが取得しているページの内容について気付きがあったのでまとめ。

厳密には以前から言われていたことではあったけどそれを検証したようなイメージです。

検証方法について

ページのtitleをbotによって変更する

はじめに今回のページの仕掛けについて。
LLMが何のデータを使っているのか(例えばChatGPTがGoogleの検索結果を使う、など)を検証するためにbotによってtitleを変更する仕組みを作りました。

過去に作ったネタページを再構築。
「ぜんぶ雪のせいだ」メーカー

ちなみに従来のネタページとしても利用できます。

※余談ですがJADEconの豊藏さんのLTでアイキャッチの話をしていたので、それに倣ってアイキャッチも入力文字に対応できるようにしました。

botごとの出力ルール

当該のbot(下記)がクロールするとtitleのbotNameが変更になります。

‘googlebot’ => ‘Google’,
‘NotebookLM’ => ‘NotebookLM’,
‘Google-InspectionTool’ => ‘Google-InspectionTool’,
‘bingbot’ => ‘Bing’,
‘slurp’ => ‘Yahoo! Slurp’,
‘duckduckbot’ => ‘DuckDuckBot’,
‘baiduspider’ => ‘Baiduspider’,
‘yandexbot’ => ‘YandexBot’,
‘facebookexternalhit’ => ‘Facebook Bot’,
‘twitterbot’ => ‘X Bot’,
‘applebot’ => ‘Applebot’,
‘petalbot’ => ‘PetalBot’,
‘ccbot’ => ‘CCBot’,
‘gptbot’ => ‘GPTBot’,
‘gemini’ => ‘Gemini’,
‘ChatGPT-User’ => ‘ChatGPT-User’,
‘claudebot’ => ‘ClaudeBot’,
‘Claude-User’ => ‘Claude-User’,
‘Claude-SearchBot’ => ‘Claude-SearchBot’,
‘anthropic-ai’ => ‘Anthropic AI’,
‘PerplexityBot’ => ‘PerplexityBot’,
‘Perplexity-User’ => ‘Perplexity-User’,
‘bytespider’ => ‘ByteSpider’,
‘amazonbot’ => ‘Amazonbot’

例えば

  • googlebotであれば「「ぜんぶ雪のせいだ」メーカー【Google向け】」
  • bingbotであれば「「ぜんぶ雪のせいだ」メーカー【Bing向け】」
  • ChatGPT-Userであれば「「ぜんぶ雪のせいだ」メーカー【ChatGPT-User向け】」

のようなtitle要素になります。

インデックスされていたページなので既存のインデックスを使用すると「「ぜんぶ雪のせいだ」メーカー」となります。
また上記に該当しないユーザーやbotも同様で【◯◯向け】は入りません。

使用したプロンプト

今回はLLM向けに以下のようなプロンプトを投げてみました。

このページはどんなタイトルで何が書いてある?
https://www.baka-ke.com/lab/snow.php

ここで表示されるtitleがどのbotを通しているのかを見てみようという検証です。

各LLMの反応

ここからが検証。

前段:GoogleとBingの検索結果

この検証段階ではGoogleの検索結果は変化しておりました。Bingはまだ。

それでは恒例、各LLMの反応です。

ChatGPT:【Google向け】を返す

かねてから言われていましたが「Google向け」のtitleを表示しています。

Googleの検索結果を使用していそうです。

Claude:bot表記なし

「’Claude-User’ => ‘Claude-User’」も反映できるようにしているのだけど反映なし。
そもそもログを見るとbotが来ていない。

NotebookLM:NotebookLM表記

これは直アクセス。それはそうか。

Gemini:【Google向け】を返す

Geminiは過去の検証からもGoogleの検索結果と連動しているのでそれはそうという感じ。

AIMode:【Google向け】を返す

これももちろんGoogle向け。

Perplexity:【Google向け】を返す

そうだったっけ???ってなったやつ。

ログを見ている限りPerplexity-Userで来ているのだけど、Googleの検索結果を使用していそうです。
「独自の検索エンジン」とは…。

おまけ:Copilot

まとめ

今回の検証結果です。

LLM名 返ってきたタイトル 推測される参照元
ChatGPT 【Google向け】 Googleのインデックス利用想定
Claude 表記なし 過去キャッシュ?
NotebookLM 【NotebookLM向け】 直接クロール (NotebookLM)
Gemini 【Google向け】 Googleのインデックス利用想定
AIMode 【Google向け】 Googleのインデックス利用想定
Perplexity 【Google向け】 Googleのインデックス利用想定

一言

以上、LLMの反応でした。

Bingの方のインデックスが進んだらもう一回調べてみる。

ブログへのサポートのお願い(アマゾンギフト)

いつも「バカに毛が生えたブログ」をご愛読いただきありがとうございます。

現在、このブログは皆様のおかげで無料・広告なし(※)で運営しております。
※AdSenseはセンシティブ判定されてしまうため、広告を掲載できません。

ブログの継続とさらなる充実のためご支援をお願いします。
支援は一度限りのショット支援として、¥150から可能です。

いただいた支援は、以下のような形で活用させていただきます:

  • サーバー費用やサイトの維持
  • 新しいコンテンツの作成
  • モチベーション

ご希望の方はスパチャ読みをいたしますので、その旨をお知らせください。

ご支援はより良いブログを提供するための力になります。

こちらのメールアドレスを送信先にしてください。
↓タップするとコピーされます

コメント

タイトルとURLをコピーしました