Skip to main content

異なる音声認識技術は何ですか?

cound音声をキャプチャし、ソフトウェアプログラムで使用できるデータに変換するために、いくつかの音声認識手法が使用されています。何が言われているかを判断するために、スピーチを分析するための3つの広範な方法があります。1つ目は個別の音声と呼ばれます。つまり、一度に一度だけ話されます。2番目は接続されたスピーチとして知られており、理解されるためには特定の方法で言葉を話す必要があります。最後に、ほとんどの人が通常話す方法である連続音声があります。このシステムには、大きなデータツリーの木、または基本的な音と音節が含まれます。これらは、ある音が別の音を追跡する統計的確率で分割します。各音素をサウンドのデータツリー内のノードと比較することにより、実際に完成した単語は、比較的短い期間で高い精度で決定できます。単語が始まり、終了する場所を分離します。このタスクは、部屋のバックグラウンドノイズと、一部の音節には単語間の休憩に似たオーディオ署名があるという事実によって複雑になります。このため、離散的で接続された音声認識手法が最も正確です。スピーチを解釈しているソフトウェアは、高精度で非常に限られた語彙を持つか、特定のユーザーの個々の音声パターンに一致する必要がある大きな語彙を持つことができます。プログラムが単語を組み立てるHMM方法を使用すると、理解される単語の数が少ないほど、プログラムがより正確になります。これは、ほとんどの自動化された電話システムが質問への数値または回答を解読するために使用する方法です。これは、プログラムを話している人の音声パターンを理解するために訓練する必要があるためです。トレーニングには、ソフトウェアにテキストの事前に作られた段落を読むことが含まれます。読まれている単語がわかっているため、プログラムはユーザーに固有の音素の統計モデルを構築できます。これにより、プログラムはユーザーを理解する可能性がはるかに高くなりますが、それが訓練していない人々のプログラムの理解を妨げる可能性もあります。多くの人は、単語を一緒に実行して異なる速度で話す傾向があるため、連続音声を翻訳するプログラムの精度は他の方法よりも低くなります。それでも、このタイプのスピーチを翻訳できるプログラムが存在します。一部のプログラムは、ファジーロジックとニューラルネットワークを使用して、パターンを認識し、単語を分離するのに役立ちます。