「音声認識」の版間の差分

2017年4月9日 (日) 15:51時点における版

音声認識は口に出した言葉を通してコンピュータとやりとりをする手段です。このページでは音声認識を使うためのアプリケーションを紹介し、Arch でそれらソフトウェアをインストールして使用するガイドを提供します。

ノート: 音声認識は今まで Linux でのサポートがあまり存在しなかったものの一つです。興味を覚えたとして軽く掘り下げてみても、コミュニティには十分なドキュメントやヘルプが見つからないことがしばしばあるでしょう。

1 音声認識の種類
2 テキスト読み上げアプリケーションの一覧
3 音声コマンドアプリケーションの一覧
- 3.1 VEDICS
- 3.2 Perlbox-Voice
4 音声認識アプリケーションの一覧
- 4.1 フリーの音声認識エンジン
- 4.2 プロプライエタリの音声認識エンジン
5 参照

音声認識の種類

音声認識が意味するところは複数あります:

テキスト読み上げ: その名の通り、テキスト読み上げ (Text-To-Speech, TTS) は文章を処理して音声クリップにします。視覚障害者がコンピュータを使うのに役に立ちますが、単純にコンピュータエクスペリエンスを高めるのにも使うことができます。TTS を行うプログラムはいくつか存在し、(スクリプトで簡単に使える) コマンドラインベースのプログラムもあれば便利な GUI が付いているものもあります。
音声コントロール/コマンド: 音声からテキストに変換するアプリケーションの最も基本的な形態です。特定の、特に一単語のコマンドを認識して、アクションを実行します。大抵はアプリケーションランチャーの代わりとして使われ、例えばユーザーが “firefox” という単語を発音すれば新しいブラウザウィンドウが開かれます。
口述筆記/完全な音声認識: 完全な口述・認識ソフトウェアを使うことで口に出して読んだ文章やパラグラフを即座にデータから文章に変換することができます。これを使えば、手紙の文章を読んでメールクライアントのウィンドウに書き出させるなどが可能です。時として、この種のアプリケーションは声を認識させるのに訓練させる必要があったり、使用すれば使用するほど正確性が向上したりします。

テキスト読み上げアプリケーションの一覧

テキスト読み上げアプリケーションの分野では Festival と eSpeak が有名です。比較がこちらにあります。

eSpeak — 英語など50以上の言語に対応する、コンパクトでオープンソースなソフトウェアスピーチシンセサイザー。

http://espeak.sourceforge.net/ || espeak

Festival — 音声合成システムを作成するためのフレームワークで、様々なモジュールのサンプルを含んでいます。完全な音声合成機能を提供します。

http://www.cstr.ed.ac.uk/projects/festival/ || festival

Gnome speech — GNOME のアプリケーションメニューと統合された API。

wikipedia:GNOME Speech || gnome-speech^{[リンク切れ: package not found]}

Jovie — KDE のテキスト読み上げデーモン。

https://userbase.kde.org/Jovie || kdeaccessibility-jovie

MBROLA — 70言語以上をサポートするノンフリーな音素発音プログラム。

http://tcts.fpms.ac.be/synthesis/mbrola.html || mbrola^AUR

Mimic — Mycroft プロジェクトによるテキスト読み上げ音声合成。

https://mimic.mycroft.ai/ || mimic-git^AUR

Orca — 視覚に障害を抱えたユーザーのためのスクリーンリーダー。

http://www.gnome.org/projects/orca || orca

Simple Orca Plugin System — Orca スクリーンリーダーのプラグイン拡張。

https://stormdragon.tk/orca-plugins/index.php || simpleorcapluginsystem-git^AUR

Speech Dispatcher — 音声合成のコモンインターフェイス。eSpeak や Festival など音声合成ソフトのバックエンドを備えています。

http://www.freebsoft.org/speechd || speech-dispatcher

音声コマンドアプリケーションの一覧

VEDICS

VEDICS (Voice Enabled Desktop Interaction and Control System) はボイスコマンドを使って OS を操作できるようにする補助ソフトウェアです。

ノート: 最後の更新は2011年であり、未テストです。

サイトリンク

機能:

終了・最小化・最大化などの基本的なウィンドウ操作。
ブラウザやメールクライアントなどデフォルトアプリケーションの呼び出し。
デスクトップ上のエレメントの名前を呼ぶことでそれにアクセス。
GNOME3 と GNOME2 をサポート。

Perlbox-Voice

Perlbox Voice はデスクトップを音声コマンドで操作できるようにするアプリケーションです。

ノート: 最後の更新は2005年。

サイトリンク

機能:

テキストtoスピーチ (Festival の音声合成を利用)
音声によって指定したアプリケーションを開く。例えば、"Web" と言うと、Perlbox-Voice Control はあなたが選択したブラウザを開きます。
音声だけで Linux デスクトップを操作するためのデスクトッププラグイン。仮想スクリーンやデスクトップを切り替えたり、実行ダイアログを呼び出したり、画面をロックすることができます。
カスタムコマンドをサポートしており、自由にコマンドを追加可能。
擬似コマンドによってコマンドを入力することができます。例えば、"Good morning" と言うと、機械音声がこう返します、"And good morning to you"。

音声認識アプリケーションの一覧

フリーの音声認識エンジン

CMU Sphinx: http://cmusphinx.sourceforge.net/ や Wikipedia を参照。
Simon: http://sourceforge.net/projects/speech2text/ - Simon は Julius の Qt インターフェイスで、マウスやキーボードをあなたの声で置き換えます。X11 と Windows で動作。
Speech: Speech はディクテーションを行う Chrome アプリです。Google の音声認識エンジンを使用します。engine.
Julius: Julius は大語彙連続音声認識エンジンです。プロジェクトページは http://julius.sourceforge.jp/ にあります。
XVoice: ViaVoice を使用して X アプリケーションにテキストを渡します。 http://xvoice.sourceforge.net/
ViaVoice: wikipedia:IBM ViaVoice を参照してください。
sphinxkeys: http://code.google.com/p/sphinxkeys/ - マイクに話しかけることでキーボードのキーを押したりマウスのクリックができるようになります。
VoxForge: http://www.voxforge.org/ - 音声の録音を収集してオープンソースの音声認識エンジンに役立てるプロジェクト。

プロプライエタリの音声認識エンジン

Dragon Naturally Speaking in Wine: Nuance の Dragon Naturally Speaking ソフトウェアは音声の聞き取りが上手く行える人気の実装です。Windows 向けに開発されていますが、wine を使うことで linux 環境で動作させることができます。メモ帳などで他の wine プログラムに書きとらせた文章を自由に使ったり、Platypus と組み合わせてネイティブの linux プログラムで使うことも可能です。Platypus はボイスコマンドセクションで説明されているプログラムと同じように、ボイスコマンドによって OS を制御する機能も提供します。; Nuance のソフトウェアはフリーではないため、コピーを購入する必要があります。Dragon は一定の数のマシンにインストールすることができます。wine でのインストールや再インストールの際にはそのライセンスを使用することになります。; Platypus プロジェクト
Wizzscribe SI
Verbio ASR
DynaSpeak from SRI International
LumenVox Speech Engine
VoxSigma: http://www.vocapia.com - VoxSigma は Vocapia Research によるテキスト読み上げソフトウェアスイートです。放送の監視、視聴覚アーカイブのインデックス作成、電話音声の解析、電話会議の録音、動画の字幕付けなどに向いています。

参照

Synthèse vocale en français sous Linux - KubuntuBlog (french)

@@ 9行目: / 9行目: @@
 音声認識が意味するところは複数あります:
-* テキスト読み上げ:
+;テキスト読み上げ
-*: その名の通り、テキスト読み上げ (Text-To-Speech, TTS) は文章を処理して音声クリップにします。視覚障害者がコンピュータを使うのに役に立ちますが、単純にコンピュータエクスペリエンスを高めるのにも使うことができます。TTS を行うプログラムはいくつか存在し、(スクリプトで簡単に使える) コマンドラインベースのプログラムもあれば便利な GUI が付いているものもあります。
+:その名の通り、テキスト読み上げ (Text-To-Speech, TTS) は文章を処理して音声クリップにします。視覚障害者がコンピュータを使うのに役に立ちますが、単純にコンピュータエクスペリエンスを高めるのにも使うことができます。TTS を行うプログラムはいくつか存在し、(スクリプトで簡単に使える) コマンドラインベースのプログラムもあれば便利な GUI が付いているものもあります。
-* 音声コントロール/コマンド:
+;音声コントロール/コマンド
-*: 音声からテキストに変換するアプリケーションの最も基本的な形態です。特定の、特に一単語のコマンドを認識して、アクションを実行します。大抵はアプリケーションランチャーの代わりとして使われ、例えばユーザーが “firefox” という単語を発音すれば新しいブラウザウィンドウが開かれます。
+:音声からテキストに変換するアプリケーションの最も基本的な形態です。特定の、特に一単語のコマンドを認識して、アクションを実行します。大抵はアプリケーションランチャーの代わりとして使われ、例えばユーザーが “firefox” という単語を発音すれば新しいブラウザウィンドウが開かれます。
-* 口述筆記/完全な音声認識:
+;口述筆記/完全な音声認識
-*: 完全な口述・認識ソフトウェアを使うことで口に出して読んだ文章やパラグラフを即座にデータから文章に変換することができます。これを使えば、手紙の文章を読んでメールクライアントのウィンドウに書き出させるなどが可能です。時として、この種のアプリケーションは声を認識させるのに訓練させる必要があったり、使用すれば使用するほど正確性が向上したりします。
+:完全な口述・認識ソフトウェアを使うことで口に出して読んだ文章やパラグラフを即座にデータから文章に変換することができます。これを使えば、手紙の文章を読んでメールクライアントのウィンドウに書き出させるなどが可能です。時として、この種のアプリケーションは声を認識させるのに訓練させる必要があったり、使用すれば使用するほど正確性が向上したりします。
-== 開発状況 ==
-数年前は Linux で音声認識を実装しようという勢いがありました。あれから、プロジェクトの多くは停滞しています。
 == テキスト読み上げアプリケーションの一覧 ==
-テキスト読み上げアプリケーションの分野では Festival と eSpeak が有名です。比較が [http://braille.uwo.ca/pipermail/speakup/2008-July/046755.html こちら] にあります。
+テキスト読み上げアプリケーションの分野では Festival と eSpeak が有名です。比較が [http://web.archive.org/web/20090924193011/http://braille.uwo.ca/pipermail/speakup/2008-July/046756.html こちら] にあります。
 * {{App|[[Wikipedia:eSpeak|eSpeak]]|英語など50以上の言語に対応する、コンパクトでオープンソースなソフトウェアスピーチシンセサイザー。|http://espeak.sourceforge.net/|{{Pkg|espeak}}}}
 * {{App|[[Festival]]|音声合成システムを作成するためのフレームワークで、様々なモジュールのサンプルを含んでいます。完全な音声合成機能を提供します。|http://www.cstr.ed.ac.uk/projects/festival/|{{Pkg|festival}}}}
+* {{App|Gnome speech|[[GNOME]] のアプリケーションメニューと統合された API。|[[wikipedia:GNOME Speech]]|{{Pkg|gnome-speech}}{{Broken package link|package not found}}}}
+* {{App|Jovie|[[KDE]] のテキスト読み上げデーモン。|https://userbase.kde.org/Jovie|{{Pkg|kdeaccessibility-jovie}}}}
 * {{App|[[mbrola|MBROLA]]|70言語以上をサポートするノンフリーな音素発音プログラム。|http://tcts.fpms.ac.be/synthesis/mbrola.html|{{AUR|mbrola}}}}
+* {{App|Mimic|Mycroft プロジェクトによるテキスト読み上げ音声合成。|https://mimic.mycroft.ai/|{{Aur|mimic-git}}}}
+* {{App|Orca|視覚に障害を抱えたユーザーのためのスクリーンリーダー。|http://www.gnome.org/projects/orca|{{Pkg|orca}}}}
+* {{App|[[Simple Orca Plugin System]]|Orca スクリーンリーダーのプラグイン拡張。|https://stormdragon.tk/orca-plugins/index.php|{{AUR|simpleorcapluginsystem-git}}}}
 * {{App|Speech Dispatcher|音声合成のコモンインターフェイス。eSpeak や Festival など音声合成ソフトのバックエンドを備えています。|http://www.freebsoft.org/speechd|{{Pkg|speech-dispatcher}}}}
 == 音声コマンドアプリケーションの一覧 ==
-=== Gnome-Voice-Control ===
-Gnome-Voice-Control は [[GNOME|GNOME]] デスクトップを操作するための対話システムです。Google Summer of Code 2007 で開発されました。[[AUR|AUR]] からインストールできます。
 === VEDICS ===
@@ 39行目: / 36行目: @@
 VEDICS (Voice Enabled Desktop Interaction and Control System) はボイスコマンドを使って OS を操作できるようにする補助ソフトウェアです。
+{{Note|最後の更新は2011年であり、未テストです。}}
-{{Note|Not yet tested.}}
 [http://vedics.sourceforge.net/ サイトリンク]
 機能:
-#終了・最小化・最大化などの基本的なウィンドウ操作。
+*終了・最小化・最大化などの基本的なウィンドウ操作。
-#ブラウザやメールクライアントなどデフォルトアプリケーションの呼び出し。
+*ブラウザやメールクライアントなどデフォルトアプリケーションの呼び出し。
-#デスクトップ上のエレメントの名前を呼ぶことでそれにアクセス。
+*デスクトップ上のエレメントの名前を呼ぶことでそれにアクセス。
-#GNOME3 と GNOME2 をサポート。
+*GNOME3 と GNOME2 をサポート。
 ===Perlbox-Voice===
 Perlbox Voice はデスクトップを音声コマンドで操作できるようにするアプリケーションです。
+{{Note|最後の更新は2005年。}}
-{{Note|
-*最後の更新は2005年。
-*AUR にパッケージが存在しますが、festival-don が依存パッケージになっていません。
-}}
 [http://perlbox.sourceforge.net/pbtk/ サイトリンク]
 機能:
-#テキストtoスピーチ (Festival の音声合成を利用)
+*テキストtoスピーチ (Festival の音声合成を利用)
-#音声によって指定したアプリケーションを開く。例えば、"Web" と言うと、Perlbox-Voice Control はあなたが選択したブラウザを開きます。
+*音声によって指定したアプリケーションを開く。例えば、"Web" と言うと、Perlbox-Voice Control はあなたが選択したブラウザを開きます。
-#音声だけで Linux デスクトップを操作するためのデスクトッププラグイン。仮想スクリーンやデスクトップを切り替えたり、実行ダイアログを呼び出したり、画面をロックすることができます。
+*音声だけで Linux デスクトップを操作するためのデスクトッププラグイン。仮想スクリーンやデスクトップを切り替えたり、実行ダイアログを呼び出したり、画面をロックすることができます。
-#カスタムコマンドをサポートしており、自由にコマンドを追加可能。
+*カスタムコマンドをサポートしており、自由にコマンドを追加可能。
-#擬似コマンドによってコマンドを入力することができます。例えば、"Good morning" と言うと、機械音声がこう返します、"And good morning to you"。
+*擬似コマンドによってコマンドを入力することができます。例えば、"Good morning" と言うと、機械音声がこう返します、"And good morning to you"。
 == 音声認識アプリケーションの一覧 ==
 ===フリーの音声認識エンジン===
+;CMU Sphinx: http://cmusphinx.sourceforge.net/ や [[Wikipedia:CMU_Sphinx|Wikipedia]] を参照。
-====CMU Sphinx====
+;Simon: http://sourceforge.net/projects/speech2text/ - Simon は Julius の [[Qt]] インターフェイスで、マウスやキーボードをあなたの声で置き換えます。X11 と Windows で動作。
-http://cmusphinx.sourceforge.net/ や [[Wikipedia:CMU_Sphinx|Wikipedia]] を参照。
+;Speech: [https://github.com/andre-luiz-dos-santos/speech-app Speech] はディクテーションを行う Chrome アプリです。Google の音声認識エンジンを使用します。engine.
-====Simon====
+;Julius: Julius は大語彙連続音声認識エンジンです。プロジェクトページは http://julius.sourceforge.jp/ にあります。
-http://sourceforge.net/projects/speech2text/ - Simon は Julius の [[Qt|Qt]] インターフェイスで、マウスやキーボードをあなたの声で置き換えます。X11 と Windows で動作。
+;XVoice: ViaVoice を使用して X アプリケーションにテキストを渡します。 http://xvoice.sourceforge.net/
+;ViaVoice: [[wikipedia:IBM ViaVoice]] を参照してください。
-====Speech====
+;sphinxkeys: http://code.google.com/p/sphinxkeys/ - マイクに話しかけることでキーボードのキーを押したりマウスのクリックができるようになります。
-[https://github.com/andre-luiz-dos-santos/speech-app Speech] はディクテーションを行う Chrome アプリです。Google の音声認識エンジンを使用します。
+;VoxForge: http://www.voxforge.org/ - 音声の録音を収集してオープンソースの音声認識エンジンに役立てるプロジェクト。
-====Julius====
-Julius は大語彙連続音声認識エンジンです。プロジェクトページは http://julius.sourceforge.jp/ にあります。
-====XVoice====
-ViaVoice を使用して X アプリケーションにテキストを渡します。 http://xvoice.sourceforge.net/
-====ViaVoice====
-====sphinxkeys====
-http://code.google.com/p/sphinxkeys/ - マイクに話しかけることでキーボードのキーを押したりマウスのクリックができるようになります。
-====VoxForge====
-http://www.voxforge.org/ - 音声の録音を収集してオープンソースの音声認識エンジンに役立てるプロジェクト
 ===プロプライエタリの音声認識エンジン===
-====Dragon Naturally Speaking====
-Nuance の Dragon Naturally Speaking ソフトウェアは音声の聞き取りが上手く行える人気の実装です。Windows 向けに開発されていますが、wine を使うことで linux 環境で動作させることができます。メモ帳などで他の wine プログラムに書きとらせた文章を自由に使ったり、Platypus と組み合わせてネイティブの linux プログラムで使うことも可能です。Platypus は[[#音声コマンドアプリケーションの一覧|ボイスコマンド]]セクションで説明されているプログラムと同じように、ボイスコマンドによって OS を制御する機能も提供します。
-Nuance のソフトウェアはフリーではないため、コピーを購入する必要があります。Dragon は一定の数のマシンにインストールすることができます。wine でのインストールや再インストールの際にはそのライセンスを使用することになります。
-[http://thenerdshow.com/platypus.html Platypus プロジェクト]
-====Wizzscribe SI====
-====Verbio ASR====
-====DynaSpeak from SRI International====
-====LumenVox Speech Engine====
-====VoxSigma====
-http://www.vocapia.com と [http://http://en.wikipedia.org/wiki/VoxSigma  Wikipedia]
+;Dragon Naturally Speaking in Wine: Nuance の Dragon Naturally Speaking ソフトウェアは音声の聞き取りが上手く行える人気の実装です。Windows 向けに開発されていますが、wine を使うことで linux 環境で動作させることができます。メモ帳などで他の wine プログラムに書きとらせた文章を自由に使ったり、Platypus と組み合わせてネイティブの linux プログラムで使うことも可能です。Platypus は[[#音声コマンドアプリケーションの一覧|ボイスコマンド]]セクションで説明されているプログラムと同じように、ボイスコマンドによって OS を制御する機能も提供します。
-VoxSigma は Vocapia Research によるテキスト読み上げソフトウェアスイートです。放送の監視、視聴覚アーカイブのインデックス作成、電話音声の解析、電話会議の録音、動画の字幕付けなどに向いています。
+:Nuance のソフトウェアはフリーではないため、コピーを購入する必要があります。Dragon は一定の数のマシンにインストールすることができます。wine でのインストールや再インストールの際にはそのライセンスを使用することになります。
+:[http://thenerdshow.com/platypus.html Platypus プロジェクト]
+;Wizzscribe SI
+;Verbio ASR
+;DynaSpeak from SRI International
+;LumenVox Speech Engine
+;VoxSigma: http://www.vocapia.com - VoxSigma は Vocapia Research によるテキスト読み上げソフトウェアスイートです。放送の監視、視聴覚アーカイブのインデックス作成、電話音声の解析、電話会議の録音、動画の字幕付けなどに向いています。
 == 参照 ==
-[http://kubuntu.free.fr/blog/index.php/2006/09/24/121-synthese-vocale-en-francais-sous-linux Synthèse vocale en français sous Linux - KubuntuBlog (french)]
+* [http://kubuntu.free.fr/blog/index.php/2006/09/24/121-synthese-vocale-en-francais-sous-linux Synthèse vocale en français sous Linux - KubuntuBlog (french)]