「ワードサラダ」とRSS取得による自動生成ページ&トラバなスパムたち

2007年07月05日 19:35

インターネットイメージ先に【又聞き・噂・二次情報を排除した体験談重視の検索サイト「SHOOTI(シューティ)」スタート】を記事にした際、製作会社の【編集長のブログ】にたどり着いた。その投稿記事の中でワードサラダという興味深いスパム方式について説明があり、つい読みふけってしまった。手法は違えど最近似たようなコンセプトの、自動生成ページによるスパムを受けていたので、ここでまとめて紹介(注意喚起)することにする。

スポンサードリンク

こんなサラダ要らない……「ワードサラダ」

詳しくは言及している【ブログウォッチャー編集長の日記】に目を通して欲しいのだが、簡単にまとめると

「自動で妙ちくりんな、しかも話題に登りそうなキーワードばかりを集めた日本語の文章を生成。文法上の最低限のルールは守っているので、検索エンジンなどのロボットはだまされて検索対象とし、検索結果としてリストアップしてしまう」


というもの。例として挙げられるページから具体例を抽出すると、

35年前にあの事件が起こって以来、ずっと深田恭子は人を馬鹿にしたような態度で宇宙人に連れ去られそうになった。そしてそのことに朝になってやっと気づいた。

あー、疲れた。宮瀬菜祐子はまだ慣れてないせいか、UFOが現れた。あんな光景は二度と見れないだろうな


という感じだ。人間がチェックしたら思わず脳波スキャンをしたくなるような文章だが、一応「てにをは」や主語・述語のルールは守られている。そこで検索エンジンたちは「普通の文章だ」と勘違いし、クローリング・インデックス化してしまうらしい。

子どもの文字遊びや出来の悪い翻訳ソフトの直訳みたいなページをなぜ大量生成する必要があるのか。理由は簡単。これも参照元で指摘されているように、金儲けをするために過ぎない。

具体例ページのソースコードを確認すると、楽天市場のクッキーを強制的に食わせている。楽天市場のクッキーは一度ブラウザに記録されると使用されるまで30日間は生きる仕様である。そこでこのページを何も知らずに見た読者が他のページに移り、楽天市場で買いものをすると、このサイトの運営者にマージンが入るという仕組みだ。つまり、これらのページは「強制クッキー食わせページ」のための「まきえさ」なのである。

ロングテールの仕組みではないが、こんなお莫迦なシステムでも大量生成すれば、何人かはひっかかるかもしれない。0.01%でも、100万人が通過すれば100人が「隠しクッキー」を食わされる羽目になる(ちなみにこの方法、楽天の規約によれば明らかに違反行為。通達されれば即時アカウント削除のうめきにあう)。

当方が運営しているサイトでは、過去に一度だけこのワードサラダタイプのサイトからスパムトラックバックを受けたことがある。その時は「コピペしたのか、あるいは自動翻訳したサイトかな」くらいにしか思っていなかったが、今回参照元の記事を読み、はじめてこれが「ワードサラダというシステム化されたスパム行為」であると知った次第である。

情報商材系で流布?……自動生成ページ

「ワードサラダ」はどうやら海外で主流のようだが、日本でむしろ流行っているのはRSSを使った自動生成ページによるスパム。

以下はお知らせメールで届いた、該当サイトからのスパム情報。該当トラックバックは即時削除してしまった。

Subject: [Garbagenews.com] エントリー 7521(トランス脂肪酸「日本人摂取量は海外比較で少ない」食品安全委員会発表) への新しいトラックバックです
Date: Wed, 4 Jul 2007 18:15:30 +0900
From: ****@jgnn.com
To: ****@jgnn.com

エントリー 7521 (トランス脂肪酸「日本人摂取量は海外比較で少ない」食品安
全委員会発表) へのトラックバックを受信しました。

IP アドレス: 66.***.206.***
URL:
タイトル: トランス脂肪酸 バター
ウェブログ: 芸能人の毎日ニュース

概要:
高血圧とトランス脂肪酸トランス脂肪酸は、いわゆる不飽和脂肪酸のことで、油を高温で過熱するときに生まれる物質です。植物油を硬化させるために使われる水素が添加されて...


これだけ見ると、ごく普通のトランス脂肪酸関連の情報が書かれたブログからのトラックバックに見える。実際管理画面を見ても、トラックバック送信側のサイト情報はごく一部(メールで送られてきたのと同程度)しか表示されないので、「関連するサイトからだな」と判断してしまう。

しかし実際に該当するサイトを閲覧してみると、

該当サイト。
該当サイト。

こんな感じである。オリジナルなのはブログタイトルとブログの説明一行だけで、あとはすべてRSSから取得してきた他サイトの文章のみ。トラックバックを送信した際には、「RSSで取得してきた他サイトの文章」が送信元の情報として流されるので、受け手の管理画面だけでは自動生成スパムサイトと気が付きにくいわけだ。

世間一般に話題として登っている単語を検索し、該当するサイトのダイジェストをRSSで片っ端から拾い集め、それを自分のコンテンツのように設置している。仕組みとしてはそんなところだろう。あるいはこの検索する「流行の単語」自身も、専用のサイトかツールを使って選択しているのかもしれない。

ちなみにこのサイトも、上記の「ワードサラダ」のサンプル同様に楽天市場の強制クッキーが見受けられた。通報すれば一発アウトである。

このタイプのサイトは、ここ半年ばかりの間、特に三か月ほどの間に急増したように見受けられる。関連情報の口コミサイトなどの話によれば、「寝ている毎日○万円が振り込まれる究極のシステム」などのようなキャッチセールスで、「無料ブログサービスへの自動生成ブログの設置」「サイトやページ生成・増殖」「キーワードの設定」「該当キーワードに関連するサイトへの自動トラックバック」などを、設定さえ施せば自動的に手放しでやってくれる情報商材系のツールが高値で売買されているようである。

最近ではツールの使い方がうまくいかないか、あるいはいちいち設定するのが面倒なのか、初期設定のままのサイトや、文字化けしまくりで意味をなさないサイトすら見かける始末。

このようなサイトからのトラックバックを拒否するか受領するかは正直「個人の自由」だが、当方としては「愛をもって」ざっくりと削除し、ついでにIPブロックまでして差し上げる。

見極めの方法

「ワードサラダ」に言及した元記事によると、あるブログASPではこのような自動生成サイトやワードサラダタイプのサイト・エントリー(記事)がすでに全体の数%を占めているという。いわく「スゴイですね。負荷かけまくりです。」とのこと。

実際に「ワードサラダ」や「自動生成ページ」のツールを操作したことはないので断言はできないが、それ系のサイトを(特に前述したように初期設定のままトラックバックを打ってきたサイトを)見た限りでは、次のような方式である程度見極め、認識し、避けることができると思われる。

■1.URLがランダム式

「ワードサラダ」について触れた元記事で取り上げられた該当サイトでは個別ID部分が「hifgytfu」、「自動生成ページ」の例では「blog002****.blog****」(*は数字)だった。これらのように「アトランダムなアルファベットや数字の組み合わせ」や「何らかの識別IDと数字の組み合わせ」が個別ID部分に使われているURLは、ワードサラダも含めた自動生成・スパムサイトである可能性が高めだといえる。理由は……わかるよね。

■2.フリーのブログサービス

別に「フリーのブログサービスを使うな」と苦言をはいているわけではない。しかし今回取り上げたワードサラダや自動生成ページでは、ほぼすべてがフリー(無料)のブログサービスを利用している。なぜならそのようなサービスではマクロを組むなりブログラム化すればいくらでも新しいブログを作れるし、何らかの問題が起きてブログを削除されても、自分のダメージは最低限にとどめることができるからだ。

これが例えば自前のサーバー上で実施していたり、独自ドメインを使っていると、サーバーやドメインレベルでの損失を被ってしまう。しかしフリーサービスなら、「自動的に作られた、自分はほとんど手を下していないゴミページ」を失うだけ。この差は大きい。

かくしてリスクの低いフリーのブログサービスが、彼らの定住の場になる。

■3.単語タイトル

いくら自動生成されるページだからといっても、やはり効果的なキーワードが該当するページを作らないと(彼らにとって)効率が悪い。例えば今現在なら「年金」「梅雨」「猛暑」「選挙」などが旬のキーワードで、検索する人も多い。それはすなわち「カモになる人が多い」ことも表す。一方で「北京原人」「のえのえぷう」などのキーワードで自動生成のページを作っても意味はほとんどない。アクセスされる可能性がほとんど無いからだ。

そこでこのようなスパムサイトでは、注目を集めているキーワードをタイトルにもっていく傾向が強い。例えば「ワードサラダ」サンプルページでは「政治/親安倍路線で存在感増す麻生氏-参院選後の政局 歳川隆雄/麻生太郎、安倍首相」がページタイトルであったし、「自動生成ページ」の例では「トランス脂肪酸 バター」がタイトルだった。恐らくはこれらのキーワードを元に検索し、該当するテキストなりRSS情報を持ってくるのだろう。


他にも似たような手法のものとして、Wikipediaのデータを丸ごとごっそり抽出する方法もある。これはかなり昔から使われてきた方法だが、あまりにもあからさまなものが多く、対処もほどこされたようで、最近ではそれほど見かけなくなった。

検索結果やトラックバック元がこれらのスパムサイトであるかどうかを確認するには、実際に訪れてみるのが一番確実。ただし上記2例のように強制クッキーを食わせるのはもちろん、中には悪質なスパイウェアなどを仕込むものもあるので十分注意が必要である(マイクロソフトをはじめとしたシステム系からの警告のように装って了承を得させ、ナニなことをさせるサイトもある始末)。

検索エンジンの運営側もブログサービス側も仕事はしっかりやっているので、こういった問題には随時対処しているのだが、正直いたちごっこな感がある。現状の問題点には今後各方面で善処してもらうことに期待するしかないだろう。

一方で自らのサイトやブログへのトラックバック、さらには検索時の検索結果に対しては、注意しすぎるくらいに注意深く、そして「君子危うきに近寄らず」の姿勢で臨むのが一番無難なようだ。

追伸:
さっそく7月5日付で当記事に、該当するスパムが来たようです。「良い実例」としてしばらくはこのまま放置しておきます。

Related Posts Plugin for WordPress, Blogger...

スポンサードリンク



 


 
(C)JGNN||このサイトについて|サイトマップ|お問い合わせ