SIRTEL 2007
1st Workshop on Social Information Retrieval for Technology-Enhanced Learning (SIRTEL 2007)なるワークショップを見つけました。ギリシアのクレタ島で開催されるそうですが、論文投稿締切は先週でした。
The Art of the Start
The Art of the Startは、Guy Kawasakiが書いた起業家のための本のようです。これについての評判をあるブログで読みました。
この本の内容も興味深いのですが、この本の紹介ページを見ていていろいろ面白い発見がありました。Guy Kawasakiのブログによれば、この本の表紙のデザインについてコンテストがあったそうです。70名から約150の提案があったそうです。「起業/何かを始める/スタート」といったイメージだと思うのですが、いろいろなアイデアがあって面白いです。Adam Tuckerさんの作品が優勝したそうですが、これが採用されたのかな?そのようですね。
次に面白いと思ったのは、本の前文の一部と思われる以下の文章です。
The biggest influence on my writing was my high school English teacher, Harold Keables. A few years ago, unfortunately, he passed away. I hope he’s in a place where no one uses the passive voice nor splits infinitives. Based on my performance in his classes, he would be astounded (there’s that passive voice again) to learn that I have written eight books. Frankly, so am I.
以下が私家版の翻訳です。
わたしの文章に最も大きな影響を与えたのは、私の高校で英語を教えていたHarold Keables先生です。残念なことに、先生は数年前に故人となりました。天国にあって、誰も受動態や分離不定詞*1を使わないような所にいらっしゃるとよいのですが。クラスでもできが悪かったぼくが8冊も本を執筆したことを知ったら、先生はさぞかし驚かされることでしょう(あ〜、また受動態を使っちゃったよ)。
日本の高校で国語の教育を受けた人のどれだけがこのような言葉を残すことでしょうか。ぼくは小学校から高校にいたるまで、ろくな作文教育を受けていません。ひらがなとかたかなと漢字が読み書きできるようになったことにな感謝しますが、作文について実際に有益なことはなにほとんど学んだことはないと思います。ぼくは作文技術については、これまでに読んだ本といくつかの作文技術の本からだと思います。
ほかのひとも似たようなものじゃない?日本中のひとがこんなことをやっていて、ほとんどの人が系統的に作文技術を学んでいないというのは、ひどく無駄な教育をしているように思います。どうせ身につかない小学校や中学校の英語教育なんてやめて、作文の指導でもやればいいのに。
その前に、小学校と中学校の先生に作文の指導をしなくてはならないのだけど。
iStockPhoto.com
高品質な写真を安価に提供してくれるサイトとしてiStockPhoto.comが紹介されていました。現在、約183万枚の写真が登録されていて、Garr Reynolds さんによれば検索インタフェイスが優れているそうです。
彼がこのサイトを薦めるのは、利用料金が安いからです。以下が写真一枚あたりの価格です。
サイズ | 価格 |
---|---|
300x400 | $1 |
800x600 | $2 |
1600x1200 | $4 |
1920x1600 | $6 |
MapISNet 2007
1st International Workshop on Maps Based Interaction in Social Networks (MapISNet '07)という国際会議が開催されるそうです。
Held in conjunction with INTERACT'2007, 11th IFIP TC 13 International Conference on Human-Computer Interaction. HCIと地図ですか。
Dynamic User-Defined Similarity Searching in Semi-Structured Text Retrieval
Filippo Geraci and Marco Pellegrini, "Dynamic User-Defined Similarity Searching in Semi-Structured Text Retrieval," submitted to Spire 2007.
WWW 2007 で Google の人が似たような論文を発表したはず。
Deep Web
ご無沙汰してます。今月号の CACM から deep Web (以下、深層ウェブ)についての論文を紹介します。IPアドレスを乱択して得たウェブサイトのなかでバックエンドのデータベースを使って問い合わせをしているものを探すことで、ウェブ全体に存在する深層ウェブの数を推定しています。案外、検索エンジンが深層ウェブを見つけていることに驚きました。論文の最後に、深層ウェブをサポートするための方式についてちらりと提案していますが、よく分りません。同じ著者らがすでに書いた論文に書かれているようです。
- B. He, M. Patel, Z. Zhang, and K. C.-C. Chang, "Accessing the Deep Web," CACM 50, 5 (2007), pp. 95-101.
深層ウェブの発見
原理的に有効な2,230,124,544個の IP アドレスから無作為に百万個を抽出して、それに向って HTTP 接続を試みることでウェブサイトのサンプルを作成する(281のウェブサイトを発見)。それらのサンプルサイト群のそれぞれについて、深さ10のクロールを行って得たページからデータベースに対する問合せフォームを見つける(129個を発見)。ただし、単純なテキスト検索は除外する。同じ問合せフォームが同じデータベースにアクセス場合も多いので、手作業によって同一性を担保する(24個のサイトが34個のウェブデータベースを利用していることを確認)。
この結果を 2,230,124,544/1,000,000 倍にスケールすることで、インターネット上の深層ウェブの量を見積ると
深層ウェブサイトの数 | 307,000 |
---|---|
ウェブデータベースの数 | 450,000 |
問合せフォームの数 | 1,258,000 |
深層データベースの内容の分類
発見した深層データベースの内容をYahoo!のディレクトリカテゴリに応じて分類したところ、ビジネス (23%)、コンピュータとインターネット (17%)、教育 (16%)、科学技術 (8%)、余暇 (8%)、ニュースとメディア (6%)と続き、かなりの広がりがある。一般に深層ウェブがビジネスに関連すると信じられており、商用利用は確かに多いものの、実際はさらに広い分野で利用されていることが確認された。
検索エンジンのカバー率
Google、Yahoo、MSN のカバー率を比較した。それぞれの深層ウェブページに適当な問い合わせを投げ、得られたページから得たキーワードを利用して、各検索エンジンに問合せを発行し、検索エンジンでサイトを発見できるかどうかを確認した。このとき、サイトをそれぞれの深層ウェブサイトに限定した。
この結果、Google と Yahoo はそれぞれ 32% を発見した。MSN は 11% に留まる。この結果は、一般に信じられている以上に深層ウェブの内容が検索エンジンで索引されていることを示している。これは、一部の深層ウェブが検索インタフェイスだけでなく、ディレクトリサービスも提供していることが原因だと思われる。
深層ウェブディレクトリのカバー率
深層ウェブを発見するためのディレクトリサービスが存在するが、それらのカバー率を評価してみた。
登録されているウェブデータベースの数 | カバー率 | |
---|---|---|
completeplanet.com | 70,000 | 15.6% |
lii.org | 14,000 | 3.1% |
turbo10.com | 2,300 | 0.5% |
invisible-web.net | 1,000 | 0.2% |
関連論文
- BrightPlanet.com: "The deep Web: Surfacing hidden value." 深層ウェブの潜在的な重要性を見い出した文献。43,000-96,000個の深層ウェブサイトが7,500TBのデータ(表層ウェブの500倍!)を保持していると推定している。
- T. M. Ghanem: "Databases deepen the Web," IEEE Computer 73, 1 (2004), pp. 116-117. 検索エンジンが深層ウェブをアクセスできていないことを論じている。
- D. Fetterly, M. Manasse, and others, "A large-scale study of the evolution of Web pages," In Proc. 12th WWW conf., 2004, pp. 669-678. 表層ウェブのサーベイ。
- E. O'Neill, B. Lavoie, and R. Bennett, "Web characterization." 表層ウェブのサーベイ。
Dan Pinkのこと
Reynoldsさんのブログに新しい記事(Dan Pink: writer, presenter, mensch)が上ってました。この方は、有名なライターさんで、Al Gore元副大統領のスピーキ原稿を書いていたこともあるそうです。
今日のテーマは 'mensch' の意味とそれを体現している Dan Pink を称える内容となっています。関西外語大学での講演での質疑がとても活発だったそうです。なぜか?質問をした学生に自分が書いた本をあげたから。本が欲しくて質問をするひとがたくさんでたそうです。