音声認識システムと音声対話システムの大きな違い
-音声対話システムというと音声認識システムと間違われる場合がありますが、この
二つには、決定的な違いがあります。
-音声認識とは、音声を分析・テキスト化して認識する入力システムのことです。
-音声対話とは、音声認識を通して認識された話者の発話に対し、意味のある返答を
して双方向の対話に発展させるのが、音声対話システムです。
アプリケーション例

音声認識
飛行機のチケットを電話で予約するシステムでは、音声認識技術が利用されていま
す。
この場合、電話するとコンピュータの声が「出発地はどちらですか」などと質問してき
ます。 これに対して「函館空港です」と答えると、その音声が認識されるという仕組み
です。 音声認識システムは、このような間違いの無い(期待したとおり)の一門一答
に機能を発揮します。
音声対話
しかしこの場合に、出発地を「大阪」と答えると難しくなります。 大阪は、空港の名前
ではありませんし、大阪近辺には複数の空港があるからです。 こんなときに「関西空
港と伊丹空港のどちらがよろしいですか」とコンピュータが聞き返してくれるには、
音声認識システムだけではなく、 話者の発話意味を理解した上で的確な情報を話者か
ら引き出すための質問を返す機能が必要です。 この働きをするのが、音声対話システ
ムです。
音声対話システムならできる。
例えば「早く東京に着くにはどちらの空港がいいかな」と先のコンピュータからの質問
に、話者が別の質問を返しても対話をつづけることができます。 このように自然な双
方向のやりとりをして対話を促すのが音声対話システムの大きな特徴です。
アトムでできること@自然音声言語理解
たとえばショッピングの際、ある品物が欲しい旨を店員に告げるにも人により異なる言い方があります。
「○○を探しているんですが。」
「○○はありますか?」
「○○をください。」
アトムの自然音声言語理解機能は、従来の技術では認識困難だったこのような自由で自然な発話もシステムが理解できるようにしました。
アトムでできることAダイアログマネジャー開発
アトムのダイアログマネジャーは、ユーザの発話に対し適切なタイミングで質問を発し、自発的に対話を促す働きをします。
これにより、従来はユーザが支配的だった対話が双方向となりました。
各アプリケーションごとに最適のタイミングで質問を発するように設定するプログラムもアトムでは高度な専門知識を必要としません。
音声対話と音声認識
音声認識システムは音声をテキスト変換するシステムで、ユーザとのインタラクションを構築する働きはありません。
音声対話システム内のダイアログマネジャーが音声から認識されたテキストをコマンドとしてシステムに送ったり、いつ、どのような質問をユーザに発するかを決定します。
アトム 機能と特徴
CDD : すべての開発サイクルを統括
アトムダイアログSDKの最大の特徴は、業界ではじめてデータ収集からユーザビリティテストまでの すべての開発サイクルを統括的に支援するCDD (Comprehensive Dialogue Development)。
システム開発を一箇所で統括できるので高効率、しかもテスト後にシステム修正することも簡単ですばやくできます。あとは音声認識装置とテキスト合成システムがあれば (Windows XPとVistaにはどちらも標準装備されています)、他のソフトを必要とせず音声インターフェースが開発できるのです。一貫した開発なので他プログラム、データとも簡単に統合します。
カメレオン:修正可能テンプレートでダイアログマネジャー開発を支援
もうひとつの特徴は、各アプリケーション用のダイアログマネジャーを簡単に作成することを可能とした開発支援システム、カメレオンです。これは音声対話システムに性格を持たせる核となる機構、ダイアログマネジャーのアプリケーション開発に再利用可能なフレームワークとATOMオリジナルの修正可能テンプレート、インタラクションパターンを組み合わせたもの。従来は固定されており融通の利かなかったテンプレートですが、カメレオンはその名のように自在に変化させられます。
これにより、専門知識を要した複雑な手順が解消され、各アプリケーション開発担当者様が統括的にシステム開発できるようになり、リスク、コスト、開発時間の大幅な削減となりました。
さらにそれを別のアプリケーションに再利用することも可能です。
主要スタンダードをもれなくサポート
アトムはW3Cの提唱するすべての主要な音声・マルチモデル関連スタンダードをサポート。さらに、既存のスタンダードでは音声ダイアログシステムに対応しきれない部分には専用拡張を組み合わせ、万全のシステムを構築しました。これにより、ウェブスタンダード対応のプログラムはスムーズに組み込みすることが可能、高い実用性を実現しました。
次世代アプリケーションの開発をサポート
アトムは次世代推論ベースの音声ユーザインターフェースの実行を支援します。これは以下の機能に代表されます。
* 情報ベースダイアログ
* 間接的確証
* インタラクティブ補正
>> アトム音声対話SDKをもっと詳しく見る
※アジリングア社のサイトへジャンプします.
|