前回:【検索メモ】突然インデックスが大量に増えた…その正体は大量スパム。政府系サイトも同じ目にあっていた。

この時にそもそもの疑問として「通常インデックスされるはずのない検索ページがなぜインデックスされるのか?」というのがあったんです。

もちろんrobots.txtで制御していないのはあったんですけども、そもそも通常クローラーは自分で検索クエリを投げてページを辿らないので、どこかからリンクを設置したりしていないとそもそもそのページに行けないわけです。

今回、ウェブマスターツールを見ていたらその原因が分かったのでまとめます。

もう色々見ていると「ただただ気持ち悪い」って感想しか出てこないです…

 

急増しているバックリンク

ウェブマスターツールの「サイトへのリンク」に見知らぬドメインが大量に。

wmt

何これ怖い。

深堀りしていくと…

wmt-2

当サイトのクエリに対して謎のリンクが当てられています。

wmt-3

同じドメイン内のサブドメインからのリンク。

しかもURL名称が「クロムハーツコピー大阪」とか完全にスパム…

 

どんなサイトなのか?

サイトにアクセスしてみたところ重すぎてアクセス出来なかったので、Googleのキャッシュから。
※今回調査のためにアクセスしましたが、アクセスするのはおすすめしません。

キャプチャ
spam

ここの部分のソースを覗いてみましょう。

spam_1

source

有名メディアサイトや内閣、銀行サイトのサイト内検索へリンクをガッツリ張ってます。
クエリの内容は「クロムハーツスーパーコピー」とかそんなのです。こわい。

 
このリンク元をドメインで検索するとこんな感じ。

google

自動生成なんだろうけど、ただただこわい。

 

予防策

ここに引っかからないようにするためには予め検索結果のページをクローラーに辿らせないようにすることが重要です。

前回も掲載しましたが同じものを載せておきます。

***************************************************************************

robots.txtでクロール拒否する方法 | 無料SEO対策のススメ

?s=を拒否する場合は以下の通り。

Disallow:*?s*

最後にウェブマスターツールのrobots.txtテスターにかけて、テストしてみます。

robots
(手順)
1.ウェブマスターツールのrobots.txtテスターに書き込み
2.対象となるURLを入力
3.「ブロック済み」となればブロックされています。

上記は仮想の書き込みなのでこれだけでは実際に書き込んだことになりません。書き換えたものをアップロードして完了です。

***************************************************************************

ちなみに上記事例はパラメーターが「?s=」だったケースなので、それ以外の場合はそこに応じて変更します。

私の場合、既にリンクを受けているので念のため非承認も投げておきました。

spam

今のところネガディブな影響はないんですけども、こういうのちょっと勘弁して欲しいですね。