前回の更新:【検索メモ】突如10倍に以上になったインデックスステータスの謎と気になるデータ

ここでインデックスが何故か以上に増えているという事例を紹介しました。

wmt

こちらの正体を@JDo2013さんに教えてもらいました!ありがとうございます!

 

中華系でクエリを投げられているページがインデックス増加の要因に

では早速回答を。

「site:www.baka-ke.com 中国」

cha

cha_1

こ れ は ひ ど い 。

 

どんなページなのか?

ページそのものは中身があるわけではなく、サイト内検索に特定のキーワードを入れて投げているだけの空ページ。

cha-2

このページで言うと検索窓から「景徳鎮茶器【中国茶www.chinaocha.com】2015年03月20日★o2biwz」というキーワードを投げて、URLがhttps://www.baka-ke.com/?s=景徳鎮茶器【中国茶www.chinaocha.com】2015年03月20日★o2biwzとなる仕組み。

 
通常こういうのってインデックスされないと思うんですけど、大量にインデックスされているってことはインデックスをさせる仕組みもきちんと一式で用意されてるんでしょうね。

 

政府系サイトなども一部同じ状態に

「景徳鎮茶器 go.jp」で検索してみると一般企業のサイトや政府系サイトなども。

cha-3

うーむ…ちょっとなあ…

 

どうするべきなのか?

正直放っておけばいいのかなと思ったのですが、この大量のページが「低品質」とか思われても嫌なのでウェブマスターヘルプフォーラムで聞いてみることにしました。

サイト内検索でスパムを第三者に行われて大量にページインデクスされている件について

しばし、待つ。

 

追記

全てが解決した。

noindex

WordPressを使っている場合、プラグインAll in One SEO Packの「Use noindex for the Search page」(検索結果ページにnoindexを入れる)にチェックを入れる。
今回のは検索結果ページが汚染される問題なのでこれで解決です。

本当にありがとうございました。

 

追記(2)

鈴木さんからこんなコメントをいただきました。

最初から検索エンジンをクロールさせないように設定しておくのが好ましいというお話。

ちなみに言及されているGoogle公式はこちら。

robots.txt を使用して、検索結果ページや、検索エンジンからアクセスしたユーザーにとってあまり価値のない他の自動生成ページをクロールしないよう制御します。
ウェブマスター向けガイドライン – Search Console ヘルプ

私のサイトの場合、WPの「?s=」が発生するためパラメーターで拒否する必要があります。
パラメーター付のrobots.txtの設定方法ですがこちらに掲載されていました。

robots.txtでクロール拒否する方法 | 無料SEO対策のススメ

?s=を拒否する場合は以下の通り。

Disallow:*?s*

最後にウェブマスターツールのrobots.txtテスターにかけて、テストしてみます。

robots
(手順)
1.ウェブマスターツールのrobots.txtテスターに書き込み
2.対象となるURLを入力
3.「ブロック済み」となればブロックされています。

上記は仮想の書き込みなのでこれだけでは実際に書き込んだことになりません。書き換えたものをアップロードして完了です。

こうすれば今回のような汚染は事前に防げますね!

 
(気になること)
今回の当サイトのよう既にindexされている場合、一旦クローラーを回させて「noindex」認識させてからrobots.txtの送信のイメージがあるんですけど、これってどうなんだろう…???


“【検索メモ】突然インデックスが大量に増えた…その正体は大量スパム。政府系サイトも同じ目にあっていた。” への3件のフィードバック

【検索メモ】中華系クエリスパムのインデックスの原因。バックリンクが大量に増えていた。 | バカに毛が生えたブログ にコメントする

CAPTCHA