第22回ロボット聴覚特集 - 奥乃研究室 - 京都大学

More documents

Recommendations

Info

Fig.5 The dialogue system for the humanoid HRP-2システムでは,3 人分の 20 単語を雑音源がある状態で録音したデータを基に音響モデルの適応処理を行ったものを使用している.これらの処理により音声認識システムの性能の向上を図っている.3. HRP-2 における音声対話制御上で述べたロバスト音声インターフェースを用いてヒューマノイドロボット HRP-2 の音声対話制御システムの実装を行った.Fig.5 にロバスト音声インターフェースを含めた HRP-2 の音声対話システム全体の概要を示す. 情報家電コントローラを除いて,ロボット内部に実装した音響処理ハードウェア(RASP-2)および知覚機能処理用 CPU ボード(Vision Processor)上に実装されている. 各モジュールは, 独立した実行モジュールであり,ロバスト音声インターフェース部では RMCP を介して,その他のモジュール間では TCP ソケットを介して接続されている.これによって, 適用するタスクやロボット内の計算資源に応じて, 柔軟に分散処理を行うことが可能になっており, 必要に応じてロボット体外のネットワーク上の計算資源を利用することも可能になっている.また,このような比較的疎なモジュール間の結合を用いることで, 容易にシステムの拡張を行うことができる.現在 , 本システムで実装されている対話制御モジュールでは,ロボットやネットワークに接続された情報家電の制御することを対象としているために, 音声コマンドと制御コマンドの対応付けを基本にしている.また, 音声コマンドとして, 孤立単語や比較的短い単文を想定し, 制御対象機器の拡張などを用意にするために, 音声認識システム Julian のサーバーモードの機能を利用し, 対話制御モジュールから,音声認識用の辞書等を動的にロードし, 動的辞書切換が可能になっている.これによって, 制御対象に応じて認識モードを設定することができ, 認識語彙の限定や辞書の切換による音声認識精度の向上を図ることができる.音声認識結果からロボットや外部情報家電を制御するためのコマンドへの対応づけにおいては, 音声コマンドへの柔軟性を持たせるために, 音声認識結果を正規表現または認識結果の列挙という形で記述することとし, 対話コマンドの記述の大幅な削減と可読性を高めている. Fig.6 に, 対話制御モジュールで用いているコマンド記述フォーマットを示す.この例からわかるように, 対話制御のスクリプトは,XML 形式で記述し,タグの部分が 1 つの音声コマンドのセットとなっており,タグに音声認識された結果およびタグによる対応する制御コマンドセットの形式で記述する.1 つの音声認識結果に対する機器制御コマンドに関しては, 複数記述することが可能になっており, 属性を指定することで TCP ソケットを用いた制御エージェントへのコマンド発行 , 音声認識辞書の切換等の内部関数呼び出しおよびスクリプト言語 Python インタプリタ呼び出しによる動的な制御コマンドの発行を行うことが可能になっている. 音声認識結果 1( 正規表現 ) 音声認識結果 2( 正規表現 )音声認識辞書切替 ( 内部関数呼び出し) 制御コマンドPython スクリプトFig.6A script of the rule on the dialogue system86
4. 音声対話制御実験HRP-2 に実装したロバスト音声インターフェースの有効性を確認するために,Fig.7 に示すように雑音源としてテレビがある状況下でHRP-2 の動作制御 ,テレビのチャンネル等制御および家電コントローラであるPC 上のWindows Media Playerを制御する対話制御実験を行った.Fig.7 に実験を行ったHRP-2, 雑音源であるテレビおよび話者のそれぞれの配置を示す.テレビの雑音は,ロボット頭部のマイクロホンアレイ付近でS/Nが概ね 0dBになるように調整している.音声認識システムで用いる音響モデルとしては, 連続音声認識コンソーシアムソフトウェア 2003 年度版のPTM(Phonetic Tied Mixture) 型 tri-phoneモデル 17) を用い, 前述した事前に教師ありの適応を行っている.Fig.8 に実験で使用した発話シナリオを示す.HRP-2の動作実験中もテレビの雑音がある状態で行ったが,ほぼ 9 割近くの認識率で音声による対話制御を行うことができた. 本実験中で音声認識が失敗に終わるもののほとんどは,「音量を上げて」と「音量を下げて」など 1 語しか違いがないものや数字を含んだ文のときであった.これに対しては, 言い方を変更や音声認識用の辞書の変更等で,より認識率を向上させることが期待できる.1. こんにちは2. 1 歩前進3. テレビの操作4. 電源を入れて5. 音量を上げて6. 音量を下げて7. NHK 教育8. 日本テレビ9. NHK10. テレビ朝日11. ビデオの操作12. 2 番目を再生13. 早送り14. 停止15. 巻き戻し16. 再生17. ロボットの操作18. 右手を上げて19. 左手を上げて20. 左手を下げて21. 右を見て22. こっちを向いて23. 比留川さんにこれを届けて24. ありがとう25. さようならFig.8 A list of speeches on the experiment5. おわりにFig.7 The arrangement on the experiment本稿では,マイクロホンアレイを用いたロバスト音声インターフェースをヒューマノイド HRP-2 に実装を行い,ロボット本体の動作制御 , 外部の情報家電機器制御を行う音声対話システムの実装を行った.ロボット本体という限られたスペース内で音声対話機能を実現するために, 実時間音響処理用ハードウェア RASP-2 を開発し, 音響センシング, 画像センシングおよび対話機能をモジュール化し,それらを分散配置することで,ロボット内の計算資源でほぼ対話システムを実装することができた. 情報統合による発話検出 , 適応ビームフォーマによる音源分離および音響モデル適応の 3 つのロバスト化技術を融合させることで,S/N がほぼ 0dB のような高雑音化の環境においても, 安定した音声によるロボット制御や情報家電制御のタスクが実行することができた.これによって,これらのロバスト化技術がロボットの実世界音声インターフェースとして有効であることが確認された.しかしながら, 今回実現したロボットの対話機能は,87
Page 4:
SCOT(Smoothed Coherence Transform)P
Page 8 and 9:
Particle (a)(b)φ12(τ )[14]x ( t )
Page 10 and 11:
- 8 -
Page 12 and 13:
1 () 2 SIMO-ICA 3 SIMO-ICA tele
Page 14:
ICAy FCy FCy SIMO-ICAs 1(t)x 1(t)1(
Page 17 and 18:
[15] Y. Mori, H. Saruwatari, T. Tak
Page 19 and 20:
社団法人人工知能学
Page 21 and 22:
• 音源位置マイク配置
Page 23 and 24:
Table 1: 6 : SIR (dB)SIR 1 SIR 2 S
Page 25 and 26:
Page 27 and 28:
SIMO-ICA SIMO Figure 2(a)SIMO-ICA
Page 29 and 30:
Binary maskConventional ICAConventi
Page 31 and 32:
Page 33 and 34:
k lo (l), k c (l), k hi (l) l k c
Page 35 and 36:
5.75 m4.33 mNoise1.15 mUser 40°2.1
Page 38 and 39: おける方法論に関し
Page 40 and 41: Fig.6 は幼児の ABR (Auditory
Page 42 and 43: ンターフェースはスパイ
Page 44 and 45: マイクロホン[ 正面 ][ 左
Page 46 and 47: s(k)Crosstalkn(k)R S(k)X P(k)X R(k)
Page 48 and 49: する隠れマルコフモデル
Page 50 and 51: 123ÙÖ ½ ¾º¾ ´º ½µ ´º
Page 52 and 53: ÌÐ ½ ¿º¾ ÅÎÆÇÂ
Page 54 and 55: ÁÒØÖÒØÓÒÐ ÓÒÖÒ ÓÒ Á
Page 56 and 57: 例えば、同一時間差
Page 58 and 59: いて、θの絶対値が大
Page 60 and 61: Fig.11 にこのシステムの処
Page 62 and 63: 5 , 2 EMIEWFig.1 EMIEW EMIEW 6 ,
Page 64: 0 P th , (14) 4.4 3 4 4 1 , 3
Page 67 and 68: 社団法人人工知能学
Page 69 and 70: 3.1. 3.2. Fig. 3. The
Page 71 and 72: 4.1. Fig. 5. The time co
Page 75 and 76: modal (m, ), whispery (w, ), aspir
Page 77 and 78: Aperiodicity rate (APR)TLR (Time-La
Page 81 and 82: , À, WDS-BF Ñ À℄·
Page 83 and 84: Table 1: Localization Error of A Si
Page 87: を行い, 閾値処理を
Page 93 and 94: 3 HLDAMLLR [3] (Useful Information
Page 95 and 96: Class 10degClass 20degClass 10degCl
Page 99 and 100: 赤い長方形内 ). 以下
Page 101 and 102: 5.2 音場計測結果(dB SPL)
Page 105 and 106: a) 90 b) 90 MFMc) d) MFMe) 9
Page 107 and 108: (3) MFT Julius 7.1 Figure 4: SIG2
show all

第22回 ロボット聴覚特集 - 奥乃研究室 - 京都大学

Create successful ePaper yourself

Delete template?

Save as template?

第22回ロボット聴覚特集 - 奥乃研究室 - 京都大学