音声認識

音声認識は口に出した言葉を通してコンピュータとやりとりをする手段です。このページでは音声認識を使うためのアプリケーションを紹介し、Arch でそれらソフトウェアをインストールして使用するガイドを提供します。

ノート 音声認識は今まで Linux でのサポートがあまり存在しなかったものの一つです。興味を覚えたとして軽く掘り下げてみても、コミュニティには十分なドキュメントやヘルプが見つからないことがしばしばあるでしょう。

音声認識の種類

音声認識が意味するところは複数あります:

テキスト読み上げ: その名の通り、テキスト読み上げ (Text-To-Speech, TTS) は文章を処理して音声クリップにします。視覚障害者がコンピュータを使うのに役に立ちますが、単純にコンピュータエクスペリエンスを高めるのにも使うことができます。TTS を行うプログラムはいくつか存在し、(スクリプトで簡単に使える) コマンドラインベースのプログラムもあれば便利な GUI が付いているものもあります。
音声コントロール/コマンド: 音声からテキストに変換するアプリケーションの最も基本的な形態です。特定の、特に一単語のコマンドを認識して、アクションを実行します。大抵はアプリケーションランチャーの代わりとして使われ、例えばユーザーが “firefox” という単語を発音すれば新しいブラウザウィンドウが開かれます。
口述筆記/完全な音声認識: 完全な口述・認識ソフトウェアを使うことで口に出して読んだ文章やパラグラフを即座にデータから文章に変換することができます。これを使えば、手紙の文章を読んでメールクライアントのウィンドウに書き出させるなどが可能です。時として、この種のアプリケーションは声を認識させるのに訓練させる必要があったり、使用すれば使用するほど正確性が向上したりします。

テキスト読み上げアプリケーションの一覧

テキスト読み上げアプリケーションの分野では Festival と eSpeak が有名です。比較がこちらにあります。また、様々なエンジンによる試聴比較がこちらに存在します。

エンジン: コマンドラインツールあるいは他のアプリケーションに組み込んで使用する TTS エンジン:

eSpeak — 英語など50以上の言語に対応する、コンパクトでオープンソースなソフトウェアスピーチシンセサイザー。

http://espeak.sourceforge.net/ || espeak

eSpeakNG — オリジナルのメンテナが活動を休止したことによって生まれた eSpeak のフォーク。

https://github.com/espeak-ng/espeak-ng || espeak-ng-git^AUR

Festival — 音声合成システムを作成するためのフレームワークで、様々なモジュールのサンプルを含んでいます。完全な音声合成機能を提供します。

http://www.cstr.ed.ac.uk/projects/festival/ || festival

MBROLA — 70言語以上をサポートするノンフリーな音素発音プログラム。Mbrola のボイスデータは eSpeak でも使えます。

http://tcts.fpms.ac.be/synthesis/mbrola.html || mbrola^AUR

Flite — 軽量な音声合成エンジン。

http://www.festvox.org/flite/ || flite

SVOX Pico — Android スマートフォンで使われている音声合成エンジン (利用可能な言語は en-US, en-GB, de-DE, es-ES, fr-FR, it-IT)。

- || svox-pico-bin^AUR

Mimic — Mycroft プロジェクトによるテキスト読み上げ音声合成 (flite ベース)。

https://mimic.mycroft.ai/ || mimic-git^AUR

Marytts — Java で書かれたオープンソースの多言語対応 TTS プラットフォーム。

http://mary.dfki.de/ || marytts^AUR

特定の言語にのみ対応しているエンジン

Ekho — 広東語・官話方言・客家語・チベット語・古代漢語・韓国語などに対応する中国語の音声合成 (TTS) ソフトウェア。

http://www.eguidedog.net/ekho.php || ekho^AUR

Open-jtalk — 日本語の音声合成システム。

https://sourceforge.net/projects/open-jtalk/ || open-jtalk^AUR

ユーザーアプリケーション: 上記のエンジンのどれかを使用するグラフィカルアプリケーション:

Gnome speech — GNOME のアプリケーションメニューと統合された API。

|| パッケージが存在しないか AUR で検索

Jovie — KDE のテキスト読み上げデーモン。

https://userbase.kde.org/Jovie || kdeaccessibility-jovie^{[リンク切れ: package not found]}

Orca — 視覚に障害を抱えたユーザーのためのスクリーンリーダー。eSpeak を使用。

http://www.gnome.org/projects/orca || orca

Simple Orca Plugin System — Orca スクリーンリーダーのプラグイン拡張。

https://stormdragon.tk/orca-plugins/index.php || simpleorcapluginsystem-git^AUR

Speech Dispatcher — 音声合成のコモンインターフェイス。eSpeak や Festival など音声合成ソフトのバックエンドを備えています。

http://www.freebsoft.org/speechd || speech-dispatcher

Gespeaker — eSpeak の GTK+ フロントエンド。

http://www.muflone.com/gespeaker/ || gespeaker-git^AUR

音声コマンドアプリケーションの一覧

VEDICS

VEDICS (Voice Enabled Desktop Interaction and Control System) はボイスコマンドを使って OS を操作できるようにする補助ソフトウェアです。

ノート 最後の更新は2011年であり、未テストです。

サイトリンク

機能:

終了・最小化・最大化などの基本的なウィンドウ操作。
ブラウザやメールクライアントなどデフォルトアプリケーションの呼び出し。
デスクトップ上のエレメントの名前を呼ぶことでそれにアクセス。
GNOME3 と GNOME2 をサポート。

Perlbox-Voice

Perlbox Voice はデスクトップを音声コマンドで操作できるようにするアプリケーションです。

ノート 最後の更新は2005年。

サイトリンク

機能:

テキストtoスピーチ (Festival の音声合成を利用)
音声によって指定したアプリケーションを開く。例えば、"Web" と言うと、Perlbox-Voice Control はあなたが選択したブラウザを開きます。
音声だけで Linux デスクトップを操作するためのデスクトッププラグイン。仮想スクリーンやデスクトップを切り替えたり、実行ダイアログを呼び出したり、画面をロックすることができます。
カスタムコマンドをサポートしており、自由にコマンドを追加可能。
擬似コマンドによってコマンドを入力することができます。例えば、"Good morning" と言うと、機械音声がこう返します、"And good morning to you"。

音声認識アプリケーションの一覧

フリーの音声認識エンジン

CMU Sphinx: http://cmusphinx.sourceforge.net/ や Wikipedia を参照。
Simon: https://sourceforge.net/projects/speech2text/ - Simon は Julius の Qt インターフェイスで、マウスやキーボードをあなたの声で置き換えます。X11 と Windows で動作。
Speech: Speech はディクテーションを行う Chrome アプリです。Google の音声認識エンジンを使用します。engine.
Julius: Julius は大語彙連続音声認識エンジンです。プロジェクトページは http://julius.sourceforge.jp/ にあります。
XVoice: ViaVoice を使用して X アプリケーションにテキストを渡します。 http://xvoice.sourceforge.net/
ViaVoice: wikipedia:IBM ViaVoice を参照してください。
sphinxkeys: https://code.google.com/p/sphinxkeys/ - マイクに話しかけることでキーボードのキーを押したりマウスのクリックができるようになります。
VoxForge: http://www.voxforge.org/ - 音声の録音を収集してオープンソースの音声認識エンジンに役立てるプロジェクト。

プロプライエタリの音声認識エンジン

Dragon Naturally Speaking in Wine: Nuance の Dragon Naturally Speaking ソフトウェアは音声の聞き取りが上手く行える人気の実装です。Windows 向けに開発されていますが、wine を使うことで linux 環境で動作させることができます。メモ帳などで他の wine プログラムに書きとらせた文章を自由に使ったり、Platypus と組み合わせてネイティブの linux プログラムで使うことも可能です。Platypus はボイスコマンドセクションで説明されているプログラムと同じように、ボイスコマンドによって OS を制御する機能も提供します。; Nuance のソフトウェアはフリーではないため、コピーを購入する必要があります。Dragon は一定の数のマシンにインストールすることができます。wine でのインストールや再インストールの際にはそのライセンスを使用することになります。; Platypus プロジェクト
Wizzscribe SI
Verbio ASR
DynaSpeak from SRI International
LumenVox Speech Engine
VoxSigma: http://www.vocapia.com - VoxSigma は Vocapia Research によるテキスト読み上げソフトウェアスイートです。放送の監視、視聴覚アーカイブのインデックス作成、電話音声の解析、電話会議の録音、動画の字幕付けなどに向いています。

参照