音声認識のソースを表示

[[Category:Accessibility]]
[[Category:音声/動画]]
[[en:Speech Recognition]]
音声認識は口に出した言葉を通してコンピュータとやりとりをする手段です。このページでは音声認識を使うためのアプリケーションを紹介し、Arch でそれらソフトウェアをインストールして使用するガイドを提供します。

{{Note|音声認識は今まで Linux でのサポートがあまり存在しなかったものの一つです。興味を覚えたとして軽く掘り下げてみても、コミュニティには十分なドキュメントやヘルプが見つからないことがしばしばあるでしょう。}}

== 音声認識の種類 ==

音声認識が意味するところは複数あります:
* テキスト読み上げ:
*: その名の通り、テキスト読み上げ (Text-To-Speech, TTS) は文章を処理して音声クリップにします。視覚障害者がコンピュータを使うのに役に立ちますが、単純にコンピュータエクスペリエンスを高めるのにも使うことができます。TTS を行うプログラムはいくつか存在し、(スクリプトで簡単に使える) コマンドラインベースのプログラムもあれば便利な GUI が付いているものもあります。
* 音声コントロール/コマンド:
*: 音声からテキストに変換するアプリケーションの最も基本的な形態です。特定の、特に一単語のコマンドを認識して、アクションを実行します。大抵はアプリケーションランチャーの代わりとして使われ、例えばユーザーが “firefox” という単語を発音すれば新しいブラウザウィンドウが開かれます。
* 口述筆記/完全な音声認識:
*: 完全な口述・認識ソフトウェアを使うことで口に出して読んだ文章やパラグラフを即座にデータから文章に変換することができます。これを使えば、手紙の文章を読んでメールクライアントのウィンドウに書き出させるなどが可能です。時として、この種のアプリケーションは声を認識させるのに訓練させる必要があったり、使用すれば使用するほど正確性が向上したりします。

== 開発状況 ==

数年前は Linux で音声認識を実装しようという勢いがありました。あれから、プロジェクトの多くは停滞しています。

== テキスト読み上げアプリケーションの一覧 ==

テキスト読み上げアプリケーションの分野では Festival と eSpeak が有名です。比較が [http://braille.uwo.ca/pipermail/speakup/2008-July/046755.html こちら] にあります。

* {{App|[[Wikipedia:eSpeak|eSpeak]]|英語など50以上の言語に対応する、コンパクトでオープンソースなソフトウェアスピーチシンセサイザー。|http://espeak.sourceforge.net/|{{Pkg|espeak}}}}
* {{App|[[Festival]]|音声合成システムを作成するためのフレームワークで、様々なモジュールのサンプルを含んでいます。完全な音声合成機能を提供します。|http://www.cstr.ed.ac.uk/projects/festival/|{{Pkg|festival}}}}
* {{App|[[mbrola|MBROLA]]|70言語以上をサポートするノンフリーな音素発音プログラム。|http://tcts.fpms.ac.be/synthesis/mbrola.html|{{AUR|mbrola}}}}
* {{App|Speech Dispatcher|音声合成のコモンインターフェイス。eSpeak や Festival など音声合成ソフトのバックエンドを備えています。|http://www.freebsoft.org/speechd|{{Pkg|speech-dispatcher}}}}

== 音声コマンドアプリケーションの一覧 ==

=== Gnome-Voice-Control ===

Gnome-Voice-Control は [[GNOME|GNOME]] デスクトップを操作するための対話システムです。Google Summer of Code 2007 で開発されました。[[AUR|AUR]] からインストールできます。

=== VEDICS ===

VEDICS (Voice Enabled Desktop Interaction and Control System) はボイスコマンドを使って OS を操作できるようにする補助ソフトウェアです。

{{Note|Not yet tested.}}

[http://vedics.sourceforge.net/ サイトリンク]

機能:
#終了・最小化・最大化などの基本的なウィンドウ操作。
#ブラウザやメールクライアントなどデフォルトアプリケーションの呼び出し。
#デスクトップ上のエレメントの名前を呼ぶことでそれにアクセス。
#GNOME3 と GNOME2 をサポート。

===Perlbox-Voice===
Perlbox Voice はデスクトップを音声コマンドで操作できるようにするアプリケーションです。

{{Note|
*最後の更新は2005年。
*AUR にパッケージが存在しますが、festival-don が依存パッケージになっていません。
}}

[http://perlbox.sourceforge.net/pbtk/ サイトリンク]

機能:
#テキストtoスピーチ (Festival の音声合成を利用)
#音声によって指定したアプリケーションを開く。例えば、"Web" と言うと、Perlbox-Voice Control はあなたが選択したブラウザを開きます。
#音声だけで Linux デスクトップを操作するためのデスクトッププラグイン。仮想スクリーンやデスクトップを切り替えたり、実行ダイアログを呼び出したり、画面をロックすることができます。
#カスタムコマンドをサポートしており、自由にコマンドを追加可能。
#擬似コマンドによってコマンドを入力することができます。例えば、"Good morning" と言うと、機械音声がこう返します、"And good morning to you"。

== 音声認識アプリケーションの一覧 ==
===フリーの音声認識エンジン===
====CMU Sphinx====
http://cmusphinx.sourceforge.net/ や [[Wikipedia:CMU_Sphinx|Wikipedia]] を参照。
====Simon====
http://sourceforge.net/projects/speech2text/ - Simon は Julius の [[Qt|Qt]] インターフェイスで、マウスやキーボードをあなたの声で置き換えます。X11 と Windows で動作。

====Speech====
[https://github.com/andre-luiz-dos-santos/speech-app Speech] はディクテーションを行う Chrome アプリです。Google の音声認識エンジンを使用します。
====Julius====
Julius は大語彙連続音声認識エンジンです。プロジェクトページは http://julius.sourceforge.jp/ にあります。

====XVoice====

ViaVoice を使用して X アプリケーションにテキストを渡します。 http://xvoice.sourceforge.net/

====ViaVoice====
====sphinxkeys====
http://code.google.com/p/sphinxkeys/ - マイクに話しかけることでキーボードのキーを押したりマウスのクリックができるようになります。

====VoxForge====
http://www.voxforge.org/ - 音声の録音を収集してオープンソースの音声認識エンジンに役立てるプロジェクト

===プロプライエタリの音声認識エンジン===
====Dragon Naturally Speaking====
Nuance の Dragon Naturally Speaking ソフトウェアは音声の聞き取りが上手く行える人気の実装です。Windows 向けに開発されていますが、wine を使うことで linux 環境で動作させることができます。メモ帳などで他の wine プログラムに書きとらせた文章を自由に使ったり、Platypus と組み合わせてネイティブの linux プログラムで使うことも可能です。Platypus は[[#音声コマンドアプリケーションの一覧|ボイスコマンド]]セクションで説明されているプログラムと同じように、ボイスコマンドによって OS を制御する機能も提供します。

Nuance のソフトウェアはフリーではないため、コピーを購入する必要があります。Dragon は一定の数のマシンにインストールすることができます。wine でのインストールや再インストールの際にはそのライセンスを使用することになります。

[http://thenerdshow.com/platypus.html Platypus プロジェクト]

====Wizzscribe SI====
====Verbio ASR====
====DynaSpeak from SRI International====
====LumenVox Speech Engine====

====VoxSigma====
http://www.vocapia.com と [http://http://en.wikipedia.org/wiki/VoxSigma  Wikipedia]

VoxSigma は Vocapia Research によるテキスト読み上げソフトウェアスイートです。放送の監視、視聴覚アーカイブのインデックス作成、電話音声の解析、電話会議の録音、動画の字幕付けなどに向いています。

== 参照 ==

[http://kubuntu.free.fr/blog/index.php/2006/09/24/121-synthese-vocale-en-francais-sous-linux Synthèse vocale en français sous Linux - KubuntuBlog (french)]