このコラムは無料メールマガジン「アメニティ&サウンド音と快適の空間へ」 vol.36〜vol.64(2003年8/21〜2004年11/18)に音響と開発の関連コラムとして連載していたものを編集掲載したものです。
昨今(2004年5月掲載時)の検索関連ニュースではデスクトップのマイクロソフト対WEBのGoogleというような表現を見かけます。
当のGoogleはPC内のローカルファイルも対象とした検索ツールのサービスを計画しているようです。
▼Google、PC内のデータを検索するツール立ち上げへ
ITmedhiaニュース 2004年5月19日
http://www.itmedia.co.jp/news/articles/0405/19/news051.html
米Yahoo!の独自検索技術への切替やMicrosoft社の検索技術開発と次期OS Longhornに搭載予定のWinFSという検索機能など膨大に蓄積されたデータに対する高速で適切な検索機能は注目度が高くなっています。
WEB検索においては、今の所、後発のGoogleが大成功を勝ち取り、特に日本においては、大手ポータルサイトに多く採用されていることもあってGoogleの検索シェアは非常に高くなっています。
日ごろから皆さんもご利用になる機会が多いかと思います。
ご存知のように、検索サイトの技術は大別すると2種類あり、Yahoo! ディレクトリに代表されるような人が集めて分類したリンク集を検索するタイプ(ディレクトリ型)とサーバーソフトウェアで自動的にWEBサイトから多くのデータを集めて全文検索を可能にするためのデータをサーバー内に蓄積するロボット型検索エンジンとがあります。
現在の主流はGoogleに代表されるロボット型検索エンジンです。
ロボット型の検索エンジンの技術は、細かい点で違いはあるものの、おおよそ、クロール、インデックス、クエリー検索という3段階のアーキテクチャーを取るものが多いようです。
何かを検索しようとする時、数年前(2004年5月掲載時)はGoogle以外にGoo(inktomi)やinfoseek、Laycosなど複数の検索エンジンを使い分けて検索することがありましたが、現在ではGooもinfoseekも(オリジナルも残っていますが)、ページ検索はGoogleですから検索結果はおおよそ同じ結果しか得られません。
▼井上俊一さんのblog - エッセンシャル・サーチエンジンに
クローラー、インデクサ、クエリーサ−バーについて書かれています。
(より詳しいサイトもありますが、簡潔さと新しさでこちらを紹介します)
2004年5月10日から3回分です。
http://inoue.typepad.com/searchengine/
冒頭のニュースは続報がないと詳細がわかりませんがGoogleの全文検索機能とは異なる技術になるだろうことは、その仕組みを考えてもあきらかです。
ページランクの技術などインデクサに相当する部分は全く要素技術が異なります。
便利な検索方法が利用できることは歓迎しますが、WEBの検索のようにローカルファイルでも検索を実現できるのかは今の所わかりません(他社の検索でも条件は同じですが)。
Googleの検索結果は大変便利ではあるのですが、検索結果が変動しつづけていることや(現在のGoogleはサーバー更新サイクルが常時といっても良いほどです)、And検索限定、大文字小文字区別をしない、ページランク評価など、ロジックには特徴があり、当然ながら、万能ではありません。
多くの方が検索エンジンの検索結果を高く信頼されており、以前に、いただいた質問に対して検索してみては、と回答した所「検索してみたがそのような情報は存在しない」とクレームのようにいわれたことがあります。
実際には「存在しない」というのは誤りで、検索キーワードや検索の方法に問題があり検索結果が表示されなかっただけですが……
Googleで検索する場合、And検索でしか検索されないことや日本語の形態要素解析部分には癖があって、検索キーワードの表現方法によって検索結果が全く異なる(インデックスが違う)ことなどを認識して利用する必要があります。
また、大変便利に利用できる大量のデータをサーバーに収集してはいますが、対象になっていないページもまた膨大にあることや、人にとって有用な情報が掲載されたページが上位に入っていないこともあることを忘れないことが肝要です。
世の中の全ての情報がWEB上に存在しているわけでも全てのページがインデックスされているわけでもありません。
検索エンジンはインターネットらしい便利な機能ですが、利用する機会が多いだけに特徴や限界などを知りうまく活用したいところです。
ARIはハードウェア設計、製造、ファームウェア開発、 Windowsアプリケーションの開発をしています。 実績等に興味をお持ちいただけましたら、会社情報に主な開発実績を 「音響と開発」のコーナーには事例など関連情報を掲載していますのでご覧ください。
ソフト、ハードウェア 技術関連の雑記
このコラムは無料メールマガジン「アメニティ&サウンド 音と快適の空間へ」 vol.36〜vol.64(2003年8/21〜2004年11/18)に 音響と開発の関連コラムとして連載していたものを編集掲載したものです。
ソフトウェア開発と開発ツール関連の雑記
機器組込みのエンベデット・ソフトウェア(ファームウェア)の開発に関連したコラムです。 メールマガジン「アメニティ&サウンド 音と快適の空間へ」に連載していた技術・開発コラムを編集掲載しています。
技術・開発の閑話 : ソフト開発コラムファームウェア開発(組込み)の技術 / |
開発ツールの話 : ソフト開発コラムソフトウェアの分類 / |
プロジェクト初期 ツール評価 : ソフト開発ツールの話プロジェクト初期のツール評価 / プログラムの動作・ソースの作成 / コード生成 アセンブラ、コンパイラ / 型変換を伴う式評価(コード生成) / 暗黙のライブラリ(コンパイラ生成コード) / 組込みCPUのメモリアクセス / コード生成〜デバッガ |
デバッガとICE ツール評価2 : ソフト開発ツールの話CPU,DSPの内部の状態モニター / プロセッサ周辺のモニター(メモリ、I/O) / 実行の停止(ブレーク) / シングルステップ実行 / 任意部分の実行 / ヒストリー - 実行トレースとコマンド / 各種ファイルのロード、セーブ / シンボル化 |