音声認識

音声認識は口に出した言葉を通してコンピュータとやりとりをする手段です。このページでは音声認識を使うためのアプリケーションを紹介し、Arch でそれらソフトウェアをインストールして使用するガイドを提供します。

ノート: 音声認識は今まで Linux でのサポートがあまり存在しなかったものの一つです。興味を覚えたとして軽く掘り下げてみても、コミュニティには十分なドキュメントやヘルプが見つからないことがしばしばあるでしょう。

音声認識の種類

音声認識が意味するところは複数あります:

テキスト読み上げ:
その名の通り、テキスト読み上げ (Text-To-Speech, TTS) は文章を処理して音声クリップにします。視覚障害者がコンピュータを使うのに役に立ちますが、単純にコンピュータエクスペリエンスを高めるのにも使うことができます。TTS を行うプログラムはいくつか存在し、(スクリプトで簡単に使える) コマンドラインベースのプログラムもあれば便利な GUI が付いているものもあります。
音声コントロール/コマンド:
音声からテキストに変換するアプリケーションの最も基本的な形態です。特定の、特に一単語のコマンドを認識して、アクションを実行します。大抵はアプリケーションランチャーの代わりとして使われ、例えばユーザーが “firefox” という単語を発音すれば新しいブラウザウィンドウが開かれます。
口述筆記/完全な音声認識:
完全な口述・認識ソフトウェアを使うことで口に出して読んだ文章やパラグラフを即座にデータから文章に変換することができます。これを使えば、手紙の文章を読んでメールクライアントのウィンドウに書き出させるなどが可能です。時として、この種のアプリケーションは声を認識させるのに訓練させる必要があったり、使用すれば使用するほど正確性が向上したりします。

開発状況

数年前は Linux で音声認識を実装しようという勢いがありました。あれから、プロジェクトの多くは停滞しています。

テキスト読み上げアプリケーションの一覧

テキスト読み上げアプリケーションの分野では Festival と eSpeak が有名です。比較がこちらにあります。

eSpeak — 英語など50以上の言語に対応する、コンパクトでオープンソースなソフトウェアスピーチシンセサイザー。

http://espeak.sourceforge.net/ || espeak

Festival — 音声合成システムを作成するためのフレームワークで、様々なモジュールのサンプルを含んでいます。完全な音声合成機能を提供します。

http://www.cstr.ed.ac.uk/projects/festival/ || festival

MBROLA — 70言語以上をサポートするノンフリーな音素発音プログラム。

http://tcts.fpms.ac.be/synthesis/mbrola.html || mbrola^AUR

Speech Dispatcher — 音声合成のコモンインターフェイス。eSpeak や Festival など音声合成ソフトのバックエンドを備えています。

http://www.freebsoft.org/speechd || speech-dispatcher

音声コマンドアプリケーションの一覧

Gnome-Voice-Control

Gnome-Voice-Control は GNOME デスクトップを操作するための対話システムです。Google Summer of Code 2007 で開発されました。AUR からインストールできます。

VEDICS

VEDICS (Voice Enabled Desktop Interaction and Control System) はボイスコマンドを使って OS を操作できるようにする補助ソフトウェアです。

ノート: Not yet tested.

サイトリンク

機能:

終了・最小化・最大化などの基本的なウィンドウ操作。
ブラウザやメールクライアントなどデフォルトアプリケーションの呼び出し。
デスクトップ上のエレメントの名前を呼ぶことでそれにアクセス。
GNOME3 と GNOME2 をサポート。

Perlbox-Voice

Perlbox Voice はデスクトップを音声コマンドで操作できるようにするアプリケーションです。

ノート:

最後の更新は2005年。
AUR にパッケージが存在しますが、festival-don が依存パッケージになっていません。

サイトリンク

機能:

テキストtoスピーチ (Festival の音声合成を利用)
音声によって指定したアプリケーションを開く。例えば、"Web" と言うと、Perlbox-Voice Control はあなたが選択したブラウザを開きます。
音声だけで Linux デスクトップを操作するためのデスクトッププラグイン。仮想スクリーンやデスクトップを切り替えたり、実行ダイアログを呼び出したり、画面をロックすることができます。
カスタムコマンドをサポートしており、自由にコマンドを追加可能。
擬似コマンドによってコマンドを入力することができます。例えば、"Good morning" と言うと、機械音声がこう返します、"And good morning to you"。

音声認識アプリケーションの一覧

フリーの音声認識エンジン

CMU Sphinx

http://cmusphinx.sourceforge.net/ や Wikipedia を参照。

Simon

http://sourceforge.net/projects/speech2text/ - Simon は Julius の Qt インターフェイスで、マウスやキーボードをあなたの声で置き換えます。X11 と Windows で動作。

Speech

Speech はディクテーションを行う Chrome アプリです。Google の音声認識エンジンを使用します。

Julius

Julius は大語彙連続音声認識エンジンです。プロジェクトページは http://julius.sourceforge.jp/ にあります。

XVoice

ViaVoice を使用して X アプリケーションにテキストを渡します。 http://xvoice.sourceforge.net/

ViaVoice

sphinxkeys

http://code.google.com/p/sphinxkeys/ - マイクに話しかけることでキーボードのキーを押したりマウスのクリックができるようになります。

VoxForge

http://www.voxforge.org/ - 音声の録音を収集してオープンソースの音声認識エンジンに役立てるプロジェクト

プロプライエタリの音声認識エンジン

Dragon Naturally Speaking

Nuance の Dragon Naturally Speaking ソフトウェアは音声の聞き取りが上手く行える人気の実装です。Windows 向けに開発されていますが、wine を使うことで linux 環境で動作させることができます。メモ帳などで他の wine プログラムに書きとらせた文章を自由に使ったり、Platypus と組み合わせてネイティブの linux プログラムで使うことも可能です。Platypus はボイスコマンドセクションで説明されているプログラムと同じように、ボイスコマンドによって OS を制御する機能も提供します。

Nuance のソフトウェアはフリーではないため、コピーを購入する必要があります。Dragon は一定の数のマシンにインストールすることができます。wine でのインストールや再インストールの際にはそのライセンスを使用することになります。

Platypus プロジェクト

Wizzscribe SI

Verbio ASR

DynaSpeak from SRI International

LumenVox Speech Engine

VoxSigma

http://www.vocapia.com と Wikipedia

VoxSigma は Vocapia Research によるテキスト読み上げソフトウェアスイートです。放送の監視、視聴覚アーカイブのインデックス作成、電話音声の解析、電話会議の録音、動画の字幕付けなどに向いています。

参照

Synthèse vocale en français sous Linux - KubuntuBlog (french)