Deep Web

ご無沙汰してます。今月号の CACM から deep Web (以下、深層ウェブ)についての論文を紹介します。IPアドレスを乱択して得たウェブサイトのなかでバックエンドのデータベースを使って問い合わせをしているものを探すことで、ウェブ全体に存在する深層ウェブの数を推定しています。案外、検索エンジンが深層ウェブを見つけていることに驚きました。論文の最後に、深層ウェブをサポートするための方式についてちらりと提案していますが、よく分りません。同じ著者らがすでに書いた論文に書かれているようです。

深層ウェブの発見

原理的に有効な2,230,124,544個の IP アドレスから無作為に百万個を抽出して、それに向って HTTP 接続を試みることでウェブサイトのサンプルを作成する(281のウェブサイトを発見)。それらのサンプルサイト群のそれぞれについて、深さ10のクロールを行って得たページからデータベースに対する問合せフォームを見つける(129個を発見)。ただし、単純なテキスト検索は除外する。同じ問合せフォームが同じデータベースにアクセス場合も多いので、手作業によって同一性を担保する(24個のサイトが34個のウェブデータベースを利用していることを確認)。

この結果を 2,230,124,544/1,000,000 倍にスケールすることで、インターネット上の深層ウェブの量を見積ると

深層ウェブサイトの数 307,000
ウェブデータベースの数 450,000
問合せフォームの数 1,258,000

深層データベースの内容の分類

発見した深層データベースの内容をYahoo!ディレクトリカテゴリに応じて分類したところ、ビジネス (23%)、コンピュータとインターネット (17%)、教育 (16%)、科学技術 (8%)、余暇 (8%)、ニュースとメディア (6%)と続き、かなりの広がりがある。一般に深層ウェブがビジネスに関連すると信じられており、商用利用は確かに多いものの、実際はさらに広い分野で利用されていることが確認された。

検索エンジンのカバー率

Google、Yahoo、MSN のカバー率を比較した。それぞれの深層ウェブページに適当な問い合わせを投げ、得られたページから得たキーワードを利用して、各検索エンジンに問合せを発行し、検索エンジンでサイトを発見できるかどうかを確認した。このとき、サイトをそれぞれの深層ウェブサイトに限定した。

この結果、Google と Yahoo はそれぞれ 32% を発見した。MSN は 11% に留まる。この結果は、一般に信じられている以上に深層ウェブの内容が検索エンジンで索引されていることを示している。これは、一部の深層ウェブが検索インタフェイスだけでなく、ディレクトリサービスも提供していることが原因だと思われる。

深層ウェブディレクトリのカバー率

深層ウェブを発見するためのディレクトリサービスが存在するが、それらのカバー率を評価してみた。

登録されているウェブデータベースの数 カバー率
completeplanet.com 70,000 15.6%
lii.org 14,000 3.1%
turbo10.com 2,300 0.5%
invisible-web.net 1,000 0.2%

関連論文

  • BrightPlanet.com: "The deep Web: Surfacing hidden value." 深層ウェブの潜在的な重要性を見い出した文献。43,000-96,000個の深層ウェブサイトが7,500TBのデータ(表層ウェブの500倍!)を保持していると推定している。
  • T. M. Ghanem: "Databases deepen the Web," IEEE Computer 73, 1 (2004), pp. 116-117. 検索エンジンが深層ウェブをアクセスできていないことを論じている。
  • D. Fetterly, M. Manasse, and others, "A large-scale study of the evolution of Web pages," In Proc. 12th WWW conf., 2004, pp. 669-678. 表層ウェブのサーベイ
  • E. O'Neill, B. Lavoie, and R. Bennett, "Web characterization." 表層ウェブのサーベイ