【Vol.20】2004年3月号 |
「ARIアメニティ&サウンド マンスリー」は、 毎月 第4金曜日にお届けしています。 みなさまにお楽しみいただけますよう努力する所存ですので、 今後とも末永くお付き合いいただけますようお願い申し上げます。
|
1. 技術・開発コラム ■音声認識とドラえもん |
このコーナーは、
ディジタル機器の開発やソフトウェア開発にかかわることなど、
技術・開発に関するコラムをARIならではの観点で
お届けできればと考えています。
|
||
3/27日に、 バンダイから玩具のドラえもんロボットが発売されます。 バンダイが「2010年までに本物のドラえもんを作りたい /Real Dream Draemon Project」 いうプレスリリースで話題を提供していました (4次元ポケットや重力浮遊している歩行は厳しいですね。 余談ですが…… 日本語IMEはあまり多くの固有名詞が登録されていなくて 変換に手間がかかることが多いのですが 「ドラえもん」はちゃんと登録されているようです)。 音声認識 |
||
発売される「ドラえもん・ザ・ロボット」は、 プレスリリースのロボットではなく、 音声を発したり、音声認識を搭載した玩具です (走行したり、動きますが)。 プレスリリースなどによると、 音声認識はワードスポッティングという、 聞き取った音声全文を認識しようとするのではなく、 重要なキーワードのみを分析することで、認識精度と、 演算処理量のバランスを採るという方式が採用されています。 ワードスポッティング方式は、 各社それぞれのアルゴリズムがありますので、 技術としては一様ではありませんが、 特定の語の認識が重要な機器において 認識率を向上させるのに適した方式です。 「ドラえもん・ザ・ロボット」の場合には、 「ドラえもん」や 「あそぼう」、 「ポケット」 などの特定キーワードに絞って認識することでリアクションをつけると、 それなりにリアクションするロボットとできますから、 ワードスポッティングが採用されています。 パソコンの創世記からインタラクティブに応答、 会話することには人々の関心をもたれてきました。 パソコンにおける初期段階での認識は、 テキストによるチャットのような会話を行うプログラムでした。 家庭用ゲームでも、音声による操作、指示をするゲームや 会話を楽しむ「シーマン」のようなゲームもあります。 |
認識率の評価音声認識文字認識などの認識率は、 非常に高い数字が示される場合があります。 例えば、「99%以上の精度」 などの確率による表現です。 99%の確率とはいったいどれくらいの精度であるか、 また、目的にとって問題となるのか、 問題とはならないのかを考える必要があります。 文字認識で99%とは、 100文字中1文字は間違っている可能性がありますから、 このメールであっても、かなりの文字数で間違いが生じます。 音声認識の場合には、 間違いをフォローできる利用方法もあることを忘れてはいけないでしょう。 音声認識と音声案内の技術を利用する場合、 認識の得点が低い場合、再度、質問してリカバリーできます。 音声による応答、会話型のサービスの場合、 技術的な認識率と 実際に運用に利用できるかを分けて評価するべき場合もあります。 ただし、応答の場合にはリアルタイム性が必要ですから、 処理量が少なくて済むような技術でなければいけなくなります。 |
|
音声による応答もそうですが、 文字ベースの音声処理を除いた処理であっても、 今の所、人が応答しているような インテリジェントなプログラムは実現されていません。 特に、玩具やゲーム、家電などに搭載するには、 言語処理のための大きな辞書データベースを搭載することは 技術面でもコスト面でも容易ではないことは想像に難くありません。 ネットワークを介した処理音声認識や会話などで 必要とされるデータベースや計算能力を 個々の機器に搭載されるパーツで実現できないとしても、 無線LANや携帯電話などの高速な無線回線ネットワークを利用して 外部にある専用サーバーで処理を行うことで、 ネットワークのレイテンシーで実現できる可能性があります。 例えば、音声をマイクで受音して、ネットワークに送信し、 音声認識サーバーで処理した結果、 リアクションのデータまで機器に返すことも考えられます (当然、少し時間が必要ですが)。 分担する外部のコンピュータと ネットワーク・スループット が十分に高速な場合、 音声応答などの処理を分担させることが可能になります。 外部サーバーのみではなく、 LANに接続されたPCなどによって分散処理を行うことも考えられます。 機器の実装の大きさによる制限が緩和され、 本体の処理能力を必要としないため、 端末機器のコスト問題もクリアできます。 携帯電話のiモードも、 携帯端末本体がデータやサービスを行っているわけではないように、 音声処理の計算リソースやデーターベースを利用することで、 音声処理能力を付加できるところが ネットワーク型のモデルの実現性の魅力です。 ネットワークの向こうにオペレータの人がいて 機械で処理しにくい部分を補うのもありだと思いますが…… 「むじんくん」ですね。 「ドラえもん・ザ・ロボット」 は無線LANなど搭載していませんが、 第2段は、「ドラえもん・ザ・むじんくん」で、 時々、 ロボットとは信じられないような インテリジェンスのあるリアクションをするロボットというのはどうでしょう。 |
||
それでは、 次回もよろしくお付き合いください。 (^^)
|
||
▲CONTENS |
2. 音と音響の四方山 ■ロボットの金管楽器演奏 |
このコーナーは 音や音響についてのコラムをお届けしています。 あまり指向を決めているわけではありませんので 雑多な感じになりますが、 お付き合いいただければ幸いです。 | ||
今月11日(3/11)にトヨタ自動車が発表公開した "トヨタ・パートナーロボット”のニュースは、 TVニュースなどでも紹介されていたので、 ご存知の方も多いと思います。 発表されたロボットは、
二足歩行型、二輪走行型、搭乗歩行型の3種類で、
二足歩行型と走行型は、
楽器のトランペットを演奏するデモを行っていました。 ロボットの自動演奏 |
||
ピアノや太鼓、ギターの演奏ロボットは、 各所で以前から実現されています。 古典的な自動人形やオルゴールのようなレベルでも、 オルガンやギター、ピアノなどの自動演奏ロボットや機械はあります (身近な所ではピアノ・プレーヤーがありますね)。 早稲田大学の高西研究室では 「人間形フルート演奏ロボット」が研究されています。 ▼早稲田大学 高西研究室 インターネットに掲載されている個人の感想などを散見すると「非常に驚き」 としている方と、 「なぜ?トランペット」 という疑問や単に歩行ロボットの付加価値的に感じている方 の2つの感想が見受けられます。 ASIMOなどの2速歩行ロボットや 各種のロボ・コンなどの映像も良く見かけますし、 ロボットが楽器演奏しても、 あまり新鮮な感想を持たないという方もいらっしゃると思いますが、 金管楽器を演奏しているロボットをトヨタが開発していることには、 企画を含めて少々意外な驚きがあります。 トランペットという楽器はロボットに演奏させるためには ロボット側での演奏要素が多く、 難易度が比較的難しい部類の楽器といえると思います。 先のフルートロボットも、ピストン式の肺によって空気を送り出し、 口唇部を動かして空気量を調節していますが、 木管のフルートが演奏できるのであれば、 金管のトランペットもというわけには行かないでしょう(高西研の場合には 演奏パフォーマンスなどにも着目されているため、 方向性も少々異なると思いますが)。 金管楽器の場合には、 楽器の鳴る仕組みが木管とは異なり、 人の口唇部の振動やコントロールによって演奏さえます。 とりわけトランペットは、 管の共振長をコントロールして音程を変える機構が少なく、 音程を口で作る部分がありますから ロボットの演奏は高度になるように思います。 |
トランペットの演奏トランペットの演奏は、 アンブシュアという口唇の使い方や タンギングという舌を使った 息のコントロールなどに技術が要求される楽器で ピアノやオルガンのようにキーを押す(打鍵) と発音したり、 ギターのように弦を撥弦(はじく) ことで発音、打楽器のように打撃によって発音する楽器と比較して 発音の機構が演奏者に拠ります(どの楽器も高度な演奏はそれぞれに難しいですが)。 アンブシュア 吹奏の口の形や唇の使い方などを指します。 リップ(唇)がリード(音源)なので、 演奏上、最重要とされているのがアンブシュアです。 タンギング タンギングはトランペットのアーティキュレーションや 発音を舌(や息使い)を使ってコントロールすることを指します。 舌を使って音を切ったり、アタックをつけたりされます。 細かく音を切る手法にダブルタンギング、 トリプル・タンギングなどと呼ばれる技法があります。 リップスラー 「唇でスラー(音をつなぐ)」という呼称の通り、 バルブをそのままにして唇で音程を変える演奏技法です。 トランペットは、同じピストンの押さえ方で、 異なる音程の音がでます。 リップスラーはその音をスラーでつないで演奏します。 ワウワウミュート 管の開口部分に蓋をする消音器です。 消音といっても特有の音が出ます。 ミュートを開け閉めで音色をコントロールして演奏する方法もあります。 トヨタのデモでは「笑点」のテーマを演奏していましたが、「笑点」のメロがミュート音です( ロボットのミュートの演奏のところはなかったので ミュートも使えるのかまでは判りません)。 |
|
発音方式の違いと管楽器の分類フルートも息の使い方や風の送り方は重要ですが、 息の渦を音源にするエアリード式によって発音しています。 トランペットやホルン、トロンボーンなどの金管楽器は、 リップリードといってマウスピースという唇の振動で発音し方式が異なります。 |
||
木管楽器のクラリネット、オーボエ、サックスもマウスピースを使いますが、 リード楽器といわれるように、 マウスピースに1枚(シングルリード)または2枚(ダブルリード)のリードを持ち、 リードを振動させて発音します。 人口唇ピストン式のトランペットは、 3本のバルブで7音階と倍音(音色)を制御していますが、 それ以上の音の高低などは口とマウスピースで作り出しています。 ロボットの画像を見ると、 口は最初からマウスピース向きに小さいように見えますし、 人工唇によって制御されていると発表されていますが、 口唇の動きが良くわからないのが残念です。 愛知万博で一般公開されるようですので、 万博のころにはもっと情報が沢山見られるかもしれません。 口をマウスピースにフィットさせて主に風量と風速によって 口唇の振動を制御する方式でもある程度までは 可能にも思いますが、トランペットが単に自動演奏されるというより、 人口唇と肺によって演奏することに技術的意義があると 考えられていると思いますから、 きっと、細かく制御されているのだと思います。 |
金管楽器と木管楽器ご存じのように金属でできていてもフルートやサックスは、 木管楽器に分類されます。 フルートが古くは木製だったことも分類の起源となっていると思いますが、 材質による分類ではなく、金管、木管の分類は、発音方式によって 分けられています。 リップリード方式のトランペットなどは金管、 エアリード、シングルリード、ダブルリードで発音いしている 管楽器が木管楽器と分類されます。 金管楽器 トランペット、トロンボーン、ホルン、チューバなど 木管楽器 フルート、クラリネット、オーボエ、ファゴット、サックスなど ちなみに、トロンボーンをはじめて交響曲に使ったのは、 ベートーヴェン第5番「運命」だそうです。 ベートーヴェンは新しい楽器を取り入れたり交響曲の追求に熱心ですね。 |
|
演奏データロボットが歩行したりパフォーマンスしながら演奏していますから、 トランペットの楽曲演奏に関するデータ意外にも 制御データがあることは間違いありませんが、 演奏データがどのようになっているかも興味深いところです。 標準のMIDIデータでは 発音とピッチなどのデータを持たせることはできますが、 ブレス・コントローラーなどの制御はそれほど多くは定義されていません。 上のコラム部にも一部、 トランペットの演奏についてご紹介していますが、 特有の奏法を持たせないとトランペットらしい演奏に聞こえません。 MIDIのような形式になっているとは限りませんが、 演奏データの作成のしやすさを考えると、 MIDIに準じたデータなのではないかと推測されます。 ヤマハのVA音源という物理シミュレーション・シンセサイザーでは、 MIDIで管楽器特有の演奏を制御するために システム・エクスクルーシブ・メッセージ を利用しています。 トヨタの演奏データも類似した エクスクルーシブ などで作られているのかもしれません。 金管楽器のトランペットが可能であれば、 他の金管楽器を演奏するロボットも実現されそうですから、 愛知万博の時には、トランペット2本の合奏ではなく、 管楽器のコンボでさらに高度なパフォーマンスが 披露されるのかもしれませんね。 |
||
それでは、次回もよろしくお付き合いください。 (^^)
|
||
▲CONTENS |
編集後記 |
|||
茶色い小瓶 先日、 列車の中で「白いコートを来た男が白い粉を撒いた」 「茶色い瓶を置いた」という乗客の連絡で 列車を停止して乗客を非難させたをいう事件に関して、 連絡は誤りで、 特に危険な毒物などは発見されなかったというニュースがありました。 問題の列車内を調査した結果、 問題の車両に茶色い嘔吐物が発見されたのみで、 結論として「白いコート」が「白い粉」に、 「茶色い嘔吐物」が「茶色い瓶」に 間違って連絡されたものだとされていました。 コンテキスト このニュースについて話しているときに、 「白いコートの男が 茶色い危険物と置いて、周りの乗客数人が気分が悪くなった というコンテキストは一致している」 と話したところ、 「コンテキストってなに?」 という反応が返されました ( カタカタで拡大された意味で使っているから余計にダメですね)。 「コンテキスト」や「セマンティックス」などIT系で愛用されるような カタカナ用語に接する機会が多いと、 通じない相手に対して自分でも使ってしまっていることを忘れ勝ちです。 特に、インターネット関連で頻出する言葉は、 WEB上の普通の人らしき人も 使っている場合があるので感覚が鈍くなります。 「コンテキスト」や「セマンティック」などの言葉が多用されている文を、 用語の意味を知らないと仮定して眺めてみると、 ずいぶんとチンプンカンプンな文章で、 それらの用語がなければ、 ほとんど内容がない文章も存在していることに気付きます。 ナゾの日本人 BlogでBlogを話題にしているトピックスなど、 「コンテキスト」「セマンティック」「RSS」「XML」「トラックバック」 「ping」「アグリゲーター」「Bloger」「Movable Type」 そして「Blog」と、 関心の薄い人にとっては 理解しようもない用語、固有名詞の連続になっているものがあります。 そうした文章に接する機会が多いと 自分でも気付かない内に 「良くわからない言葉」 を話す「ナゾの日本人」になってしまうので注意が必要ですね。 それでは、来月もよろしくお願い申し上げます。
|
|||
▲CONTENS | |||
配信と配信停止 |
|||
このメールマガジンは無料メールマガジン配信サービス で配信されています。 配信停止をご希望の方がいらっしゃいましたら、 お手数ですが、登録いただいた各配信元の専用ページか ARIのHTMLメールマガジン登録、解除 のページでご解除いただきますようお願い申し上げます ( みなさまにご登録いただいたメールアドレスはARIでは記録、 収集しておりません)。 各配信サービスの解除ページは次の通りです。
万一、「解除できない」 「配信サービスがわからない」 「解除方法がわからない」 など解除にお困りの場合には、 ご遠慮なく 電子メール でご連絡ください。 |
|||
|
|||
Copyright(C) 2004. ARI.CO.,LTD. All Rights Reserved.
|
|||