Skip to main content

音声認識とは何ですか?

boice音声認識は、2種類のコンピューターサイエンスのいずれかを参照できます。フォレンジック音声識別またはスピーチツーテキスト機能です。この記事では、後者の定義について説明します。

音声認識、またはこの場合の音声認識は、キーボードではなくデータを入力するためにオーディオ入力を利用するコンピューターテクノロジーです。たとえば、マイクに話すと、キーボードで手動で単語を入力するのと同じ結果が得られます。簡単に言えば、音声認識ソフトウェアは、認識可能な単語またはフレーズの内部データベースで設計されています。このプログラムは、スピーチのオーディオ署名とデータベースに対応するエントリと一致します。問題は、単語を一緒に実行する自然な人間の傾向によって悪化した、個々の音声パターンとアクセントの実質的に無限の配列にあります。シャツは読みます、私はアップルが素敵なビーチを破壊するのを手伝いました。声を出して話されたとき、それは、Appleがスピーチを認識するのを助けました。字幕。各モデルの動作は異なり、独自の機能と境界を備えています。inuserユーザーが特定の様式化されたスピーチパターンを認識するためにソフトウェアをトレーニングすることをユーザーに要求する音声認識プログラムは、

話者に依存する

システムと呼ばれます。個人は通常、自宅やオフィスでこれらのタイプのプログラムを使用します。電子メール、メモ、文字、データ、テキストは、マイクに話すことで入力できます。seedute Disclete Speech

システムと呼ばれるいくつかの音声認識システムは、ユーザーが明確かつゆっくりと、単語を分離する必要があります。continuous継続的な音声

システムは、より自然な話すモードを理解するように設計されています。このシステムは、スピーカーに依存しない

ですが、単語やフレーズの小さなプールのみを理解しています。発信者には、通常はYESまたはNOで質問に答えることができます。回答を受け取った後、システムは発信者を次のレベルにエスカレートします。発信者が独自の答えで返信した場合、自動化された応答は通常、申し訳ありませんが、私はあなたを理解していませんでした。質問と利用可能な回答を繰り返して、もう一度やり直してください。このタイプの音声認識は、文法制約付き認識とも呼ばれます。このプログラムは、キーワードやフレーズを選択し、顧客が何を望んでいるかについて統計的な最良の推測をするように設計されています。話すことは、ニーズを特定する際に、声の認識を明白に支援します。このタイプのシステムには、控えめな音声システムよりもはるかに集中的なデータベースがあり、自然言語認識とも呼ばれます。このソフトウェアは、言われていることを理解しようと努力していないという点で、話された言葉を識別するためだけに、以前のモデルとは異なります。英語の多くの言葉は同様に聞こえるので、間違いは簡単に行われます。ただし、Microsoftのような主要企業は音声認識に投資しており、Bill Gates自身の予測は2011年までにASRを継続的なスピーチを理解しています。ASRソフトウェアはデジタル音声レコーダーでしばしば見つかります。、前の会社が後者を獲得しました。小規模なプレイヤーには、Fonix Speech、Aculab、Verbioなどが含まれます。IBMや前述のMicrosoftと同様に、このテクノロジーにも投資しています。多くの人は、単にキーボードを使用するよりも、ソフトウェアをトレーニングして間違いを正しいことをトレーニングするのがもっと問題であると感じていますが、音声認識ソフトウェアがそのギャップを閉じる可能性が高い時期が来ています。スピーチを使用する差別的な能力でキーボードを増強することは、おそらく一般的になるでしょう。

音声認識ソフトウェアは、より洗練されるにつれて人気を博しています。これは、ライブオペレーターを交換して、コールを漏らし、情報を広め、注文し、その他の非常に有用な機能を実行できるビジネスで特に役立ちます。ただし、Scansofts、DragonnatuallySpeaking

、IBMS biavoiceなどの有名なソフトウェアによって支援されたデスクトップアプリケーションとしても好意的です。