エコーサプレッサー(Echo Suppressor)とは、音声通信機器で利用されている 音響エコーを抑制するための装置や仕組みです。 エコーサプレッサーはNLP(Non-Linear Processor)とも言われます。
電話で話をする時、話している本人(送話者)と離れて聞いている人(受話者)との 会話中に送話者の声が受話者のスピーカからマイクに入り送話者の耳に戻ってくるのが通話で発生する音響エコーです。 エコーが発生すると通話がしにくくなるため、エコーを消すために1950年代に開発されたのがエコーサプレッサーです。
現在の携帯電話(スマートフォン)やTV電話、会議システムなどの通信機器には、大抵の場合、 エコーを低減、抑制するために、性能や詳細な技術的な方式の違いはあるものの エコーサプレッサーやエコーキャンセラー(適応フィルタによるエコー信号の除去装置、仕組み)が組み込まれています。
音声通話信号のレベルに閾値を設けて音声回線の有効性を検出する処理を VAD(ボイスアクティブティ検出)といい、 VADを適用することで背景ノイズ音のみの信号源を無音としたい場合などで使われます。
エコーサプレッサにおいては、双方向の通話音声を比較し音量が低い音声レベルを下げ、 音量が大きい音声回線を優先する処理部をVADと呼びます。
インターネットの音声通話 VoIPや音声コーデックなどの分野では、 VADを用いて一定以下のレベルを無音に扱い、音声パケットを節約するため、 VADを無音圧縮の別名として使われていることもあります。
VADによって信号を無音として扱うと、通話が切断されているかのように感じるため、 不快感のないレベルのノイズを付加するコンフォートノイズ発生器 (CNG:Comfort Noise Generator)の併用がITU-Tの規格などでも採用されています。
AGC(自動ゲイン制御)は、 音声のレベルを検出して音量が小さい場合に自動的に音量を上げるなどのゲイン制御の動作をします。
マイクと話者の距離が一定とはならない複数話者もありえる会議システムやTV電話のような機器では、 話者が話している状態を検出してAGCによって一定以上の音量で会話できるようにすることが必要となります。
さて、小さな声や遠い距離の人に有効にAGC機能するように感度を上げると、 エコーが大きい状態では、残留エコーの音量を上げることになる場合があります。 さらに、エコー音がAGCで音量が上げられると回線を通して相互にエコー音がフィードバック、ゲインアップされて ハウリングが発生するというような事態も引き起こすことが考えられます。
AGCの動作原理や仕組みは簡単な物ですし、実用性が高く一般的な機能ブロックですが、 AGCも使い方によっては、VADと同様の音声の有効性検出のような工夫や高度な制御、調整が必要になってきます。
双方向通話が可能な全二重通信において、同時に話者が話す状態をダブルトーク 一方のみが話している状態をシングルトークと呼ばれています。
エコーサプレッサーでは、ダブルトークが発生すると一方の音声が制限されるため、 ダブルトークは機器の内部だけの状態です。 エコーキャンセラーの場合にはダブルトーク時のエコー除去性能が重要となります。
エコーサプレッサーの動作原理は送話者が話しているのか受話者が話しているのかを送信と受信の信号レベルを比較し 信号レベルの高い方の信号を通過させ反対の信号は減衰させることによって(VAD)、 受話者のスピーカからマイクに廻って戻ってくるエコーや相互にフィードバックが発生することで生じるハウリングを抑圧します。
エコー抑制機能としてエコーサプレッサーが採用されている機器では、 人が話している時に聞き手が笑ったり、大きな声で相槌を入れると、 その度に音量が低下するので(感度などによります。無音まで音量が絞られる場合もあります)、 交互に話をする会話であっても、 実際にはエコーサプレッサーのみで全二重通話のエコー抑制とするのは難があります。
低優先とされた回線の音量の低下は機器によって異なりますが、 強力に残留エコーを低下させるためには無音に近づけることになります。
なぜなら、エコーがある程度残っている状態であっても無音と検出するような調整にしないと、 優先された送話者が話終わった後にエコーがある程度残っている状態の時に 受話側の回線の方が音量が高い状態と検出されてエコー音が復帰することになるためです。
このような状態に対して一定時間は復帰させないように工夫されるなど色々考えられるわけですが、 簡易に実現するには、一定以上の音量が無い場合には無音とし、 優先しない信号を定常的に低く抑えるような方法にすると安定動作になるだろうことは簡単に想像できます。
そのため、エコーサプレッサーやVADを応用した通話回線は、半二重通話のように片側の音声のみが 優先されるような動作になっていて、VADの感度や調整にもよりますが、二人が同時に話すダブルトークが発生すると、 一方の音声が聞こえていない状態になります。
音量レベルの検出処理は音量レベルの感度と時間の感度が存在します。
離散的にサンプリングされた信号波形は一時的な経過レベルであるため、 一定の時間内の信号レベルとするため時定数のようなファクターが必ず存在します(デジタルでもアナログでも)。
エコーサプレッサーの場合、2つの信号の音量比較を行うため、音量を検出する時間と、比較時間の2つの時間があり、 さらに、一般的には、有効無効の切り替わりなどの時間とその感度のようなパラメータを持ちます。 通話信号には会話していない場合であっても背景雑音も存在しているため、信号レベルに対する感度も存在します。
エコーサプレッサーは簡単な仕組みですが、有効に機能させるには、 無音とする場合、残留エコーがある場合など色々な状況に対して レベルと時間の感度を適した調整にする必要があります。
エコーサプレッサーの特徴をまとめると次のようになります。
音量検出器と比較器、ゲイン制御器のみで構成されるため小規模で簡易な仕組みで実現できます。
送話者と受話者が同時に話をすると両方向から音声信号が来るため信号レベルを比較し、 両者の音声が小さくなったり、音量変化し、会話が難しくなります。
信号レベルを比較し判断するための時間が必要なため、話し始めた時、 最初の数音が聞こえない状況(クリッピング : clipping)が発生したり、 不自然に音声が切れないような調整が必要です。
受話側の環境が騒音下にある時、送話者が話すと聞こえていた騒音も減衰し、回線が切れたように誤解することがあります。 これはシングルトーク状態での意図しない音量制御です
総じて、全二重通話においては難点が多い印象ですが、とにかく、簡単な仕組みで実現できることが最大のメリットです。
エコーサプレッサーは簡易な回路で実現できるため、主に、古い電話や、簡易な装置で使われています。 一方、適応制御を用いるエコーキャンセラー方式には色々ありますが、エコーサプレッサーより高度な回路や信号処理が必要となります。
エコーキャンセラーは、全二重回線での双方向の同時通話(ダブルトーク)を可能にするため、近年の携帯電話や会議システムではエコーキャンセラーが用いられます。
とは言え、エコーキャンセラーの方式によって同時通話時の適応フィルタの性能は高度な信号処理を必要とするため、 エコーキャンセラーと呼ばれているものでもダブルトークのエコーキャンセル性能は方式によって大きな差が生じています。
このページは、音響技術に関する専門用語や、技術開発に関する掲載記事中のキーワードについてのご紹介が複数箇所で必要になった項目をまとめた共通の用語紹介ページです。
用語説明を含む関連性の高い内容のページがある場合には、そのページへのリンクになっている場合があります。専門用語を網羅しようという用語辞典ではありませんので記載内容が十分とはいえませんが、ご参考になる部分がございましたら幸いです。
ARIは会議システム用のエコーキャンセラー・ソフトウェア製品を開発、販売しています。 音響機器の音響測定のお手伝いなど音響技術サービス、試作、研究開発や特注機器などの設計、製造までご相談いただけます。