本文へスキップ

音と音情報・マルチモーダルシステムを考える

鈴木陽一研究紹介Reserch areas

研究の視点

 情報通信技術の進歩で,遠くの人ともいつでも自由にコミュニケーションがとれるようになりました。離れた場所tとのコミュニケーションでは,音(聴覚情報)や映像(視覚情報)など,複数の感覚情報(マルチモーダル感覚情報)を自由にやりとりることがとても重要です。
 その中でも,音(聴覚情報)は,音声を理解したり,音楽を楽しみ,ときには危険を察知したりするために重要な役割を果たしています。一方,聞きたくない音(騒音)防ぐこともかも大事です。また,映像など他の感覚情報も一緒にやりとりができれば,より強い臨場感を感ずることも可能になります。
 そのような情報システムを作るには,人間の感覚情報の処理の仕組みを知ることがとても大事です。なぜなら,どのようなコミュニケーションでも,そのどちらかの端には人間がいますから。私は,このように考えて教育と研究を進めています。

高臨場感3次元聴覚ディスプレイに関する研究

「聴覚ディスプレイ」って?あまり聞き慣れない言葉かもしれません。
 ディスプレイと言えば普通は映像情報(視覚情報)の提示システムです。しかしVR分野では,聴覚や触感,嗅覚などへの情報提示システムを,感覚種(感覚モード)の名称をかぶせて,聴覚ディスプレイ,触覚ディスプレイ,嗅覚ディスプレイのようにいいます。 したがって,聴覚に情報を提示するシステムや装置が聴覚ディスプレイということになります。しかし,通常のイヤホンやヘッドフォン,スピーカなどを聴覚ディスプレイと呼ぶことはなく,通常,次の2種類のシステムを聴覚ディスプレイと呼びますが,私が取り組んでいるのは1のタイプです。

  1. 聴覚による空間情報(音空間情報)の提示システム,特に高精度,高精細なシステムを指します。8Kテレビの22.2chなどもその例です。研究用では157チャネルのシステム(東北大学)もあり,フランスのIRCAMでは300チャネルを超えるシステムが開発されています。3次元聴覚ディスプレイやバーチャル聴覚ディスプレイなどと呼ぶこともあります。
  2. 様々なデータを音として提示するシステム。ソニフィケーションとも呼ばれます。たとえば遺伝子の塩基配列を音符に変換して聞くなどは古典的な例になります。

【バイノーラルディスプレイ】
活動報告写真上の分類でいえば,1に当たる3次元聴覚ディスプレイの一種です。人間は,左右2つの耳に入る音信号に基づいて,音がどこから来るかや,音がどう広がっているかなどを判断することができます。
 これを逆に考えれば,ある場所に音源があったと考えたとき,つまりバーチャルな音源があったときに両耳に入る音信号をきちんとディジタル信号処理で作ることができれば,その音信号をヘッドフォンなどを用いて与えれば,人間は音があたかもバーチャル音源から聞こえてくるように感ずることができます。このような3次元聴覚ディスプレイをバイノーラルディスプレイと呼びます。
 左の図は,バイノーラルディスプレイを使って実験の準備をしているシーンです。左側の「スピーカ」からは音が出ておらず,位置センサーが入っているだけなのです。頭の上についている位置センサーの情報と合わせて,バーチャル音源がどちらの方向にあるかを常に観測して音のディジタル信号処理計算を行い,ヘッドフォンからはバーチャル音源の位置に合った音信号を左右の耳に提示します。すると,実際に音が出ているのはヘッドフォンですが,音はバーチャル音源の位置から聞こえてきます。

ラウドネス(音の感覚的な大きさ)に関する研究

活動報告写真  音を聞いたときの感覚的,主観的な大きさをラウドネス (loudness)といいます。私は,人間のラウドネス知覚の基礎的な特性を調べ,その知識を情報システムに応用する研究に取り組んで来ました。
 ラウドネスは音が物理的に強いほど大きくなります。しかし,音の強さが同じでも,音の性質が変わるとラウドネスは変化します。たとえば,純音(倍音を含まない音で正弦波音ともいいます。身近な例では音叉や口笛,ハミングなどはそれに近い音です)を考えると,純音の周波数(物理的な音の高さ)によって,ラウドネスは変化します。逆に,周波数が変わってもラウドネスが変化しないような音の強さを表す等高線を等ラウドネスレベル曲線といいます。
 等ラウドネスレベル曲線は,人間の聴覚の感度の周波数特性とも言え,1930年代から研究されて来ました。20世紀半ばにはISO規格(ISO226)になっています。しかし,1985年に当時のISO226に示された特性には誤差があることがわかり,全面改定作業が始まりました。私はその作業の終盤にISOのプロジェクトリーダとして取り組み,2003年に改訂が実現しました。上の図は,その等ラウドネスレベル曲線のISO規格(ISO226:2003) で,今でも使われています。
 また,ラウドネスに関する研究の成果は,車の中など騒音のある環境で音楽を聴くための調整法や,ディジタル補聴器の開発などに応用して来ました。

屋外拡声システムの高度化研究

活動報告写真

 津波などの災害警報を伝える防災行政無線には屋外拡声システムが備わっています。東日本大震災では,住民の方のほぼ半数が防災行政無線で大津波警報を知った反面,20%ほどの方は音声がよく聞き取れなかったと言われています。
 これを受けて,屋外拡声システムの音声提示法の改善を目指した研究を進めてきました。写真は,2012年に仙台市の荒浜地区で行った,屋外スピーカから出された音や音声の聞き取り実験の様子です。音声の聞き取り実験では,NTTの単語親密度データベースに基づいた単語表を用いました。単語親密度とは,その単語に対するなじみの程度の平均値です。これらの実験の結果,次のようなことが明らかになっています。
①複数の屋外拡声装置から大きな時間遅れを伴って音声が届く現象(ロングパスエコー)が大きな影響を及ぼしている。②マルチパスエコーの影響の軽減には発声時に単語と単語の間に数100ミリ秒の空白時間を設けることや,親密度が高い単語を使うとよい。

 グラフを見ると,親密度の高い単語の方が音声聞き取りの正答率が確かに高くなっていることがわかります。
 また,私も会員の日本音響学会では,これら様々な研究成果に基づいて屋外拡声に関する技術基準を策定し,公表しています。
 さらに現在は,噴火や津波などで,耳に聞こえないほど周波数が低い音(インフラサウンド)が発生することに着目し,インフラサウンドをの早期かつ効率的に検出するための信号処理技術の研究も進めています。

多感覚(マルチモーダル感覚)情報と高次感性情報に関する研究

動物は,五感(聴覚,視覚,触覚,嗅覚,味覚)や運動感覚などを様々な感覚情報を使って私たちが置かれた環境を認識しています。特に聴覚情報と視覚情報の相互作用は,かつて考えられていたよりもずっと強く,密接であることが知られてきています。人間も例外ではありません。
 写真のように,小さな光源が短く光るのと,ヘッドフォンから短い音をダスタイミングについて実験してみました。
 光源が少し離れたところにあっても,光は1秒に約30万kmの速度で伝搬しますので瞬時に目に届きます。一方音は1秒に約340mしか伝搬しませんので,音源が1m離れるごとに約3ミリ秒ずつ遅れて耳に届きます。
 この実験では,バイノーラルディスプレイを使って,光源から出ているように感じられるようにして,光と音が同時に聞こえる物理的なタイミングを測定しました。その結果,光源の距離が数10mくらいまでであれば,1m離れるごとに音を3ms遅く出したときに同時と感じられることがわかりました。
 これは,私たちの脳が,音は光より遅く届いたときが元々の場所では同時だということを直感的に判断していることを意味します。このように,聴覚と視覚はお互いの感覚情報を物理的な性質に基づいて相互に関係づけているのです。
 このような相互作用は,純粋な聴覚の役割と考えられる3次元的な音空間知覚でも行われています。どちらから来たかわからないときに振り向いて確認するのは,音空間知覚が聴覚情報のみならず自己運動感覚情報などとの相互作業を利用して,正確を期していることを示しています。このような相互作用にも強い興味を抱いています。
 また,複数の感覚情報(マルチモーダル感覚情報)の相互作用は,臨場感に代表される高次な感性情報を高める上で重要な働きをしています。そこで,その働きが,感覚情報の中のどんな要因によるものかを明らかにする研究を進めています。

鈴木陽一

東北文化学園大学工学部
知能情報システム学科 教授