"VoiceOver" music by Apple.音声インタフェースでここまでできたよ.

Appleが発表した新しいiPod shuffleには,Apple製品にはこれまでなかった音声インタフェース"VoiceOver"が搭載された.

従来のiPodのインタフェースは,液晶ディスプレイを用いた視覚的なもので,そのなかでディスプレイを持たないiPod shuffleは特異な存在だった.iPod shuffleはランニング中など,動きながら音楽を聴くことに特化しているので,どうせその時に見ることのできないディスプレイは要らないよね,という割り切ったインタフェースを持った製品だった.

でも,動きながらでは見ることができないけど,音は聞こえるよね,ということで生まれた機能が今回の"VoiceOver"(と思われる).Appleのwebサイトによると,これはプレイリスト名や曲名をイヤフォンを通じて音声合成によって提示するという仕組みのようだ.

音声合成とここで言ってるのは,任意のテキストを与えると声として出力する仕組みのことだ.iPodの場合,たとえばアーティスト名を予め録音して再生する仕組みにすると,膨大な量の音声ファイルを予めiPodに組み込んでおく必要があるが,音声合成であれば,比較的少量のプログラムとデータのみで,任意のアーティスト名を音声として出力することができる.

技術的問題としては,まず(1)テキストの読みが正しいかどうか,次に(2)音声が自然(高品質)かどうか という問題がある.(1)の問題に関しては,アーティスト名や曲名は数多あるので,正しい読みで発音できるかどうかがまず問題だ.これは高品質な辞書や形態素解析の仕組みがあればある程度はカバーできる.しかし,アーティストが独自に考えた当て字などは辞書に入れるしかないので,VoiceOverでも読めない曲名,アーティスト名が出てくることが予想される.

(2)に関しては,たとえば,正しい読みでも,音が機械的であるとか,アクセントがおかしいなどの問題である.前者の問題は,予め録音した音声を,音単位でばらばらにしてくっつける素片編集型音声合成,最近は統計ベースのHMM音声合成などを用いると,実際の人間の声を用いているので自然な音が合成できる.アクセントの問題は,これもある程度はルールベースで解決できるが,全自動で行うのは難しいとされている.この辺の品質に関しては,実機をみて判断したい.

で,VoiceOverが技術的にすばらしいところは,この音声合成が,多数の言語について一つの小さなハードウェアで行えるところである.今回の音声合成がどのような仕組みで実現されているかは不明だが(データ量などを考慮すると,HMM音声合成?合成の専門家の分析を伺いたいところです),これほど小さな筐体で高品質な音声合成が行えるというのは驚きである.合成自体もだが,合成の前に形態素解析など,様々な前処理が必要なはずなので,今回,それをどういう仕組みで実現しているかは大変興味深い.

技術的な面は別として,これほど広範に販売されている商品で音声インタフェースが有効に活用された例は初めてではないだろうか.まだ実機を触っていないので想像だが,カーナビの音声ナレーションと並んで,これから多くの人に受け入れられていく音声インタフェースになるのではないかと思う.

音声認識音声合成と言った音声工学の成果をどこで生かしていくかは,長年議論の対象となっていた.アプリケーションの一つの方向性として,ハンズフリー,アイズフリーといった,他のインタフェースが使えない状況でこそ音声というモダリティが生きると考えられてきた.iPod shuffleはまさにそういうコンテキストにばっちりはまったアプリケーションだが,今実際に商品として市場に現れたのは音声工学に携わるものとして非常に感慨深い.