第22回ロボット聴覚特集 - 奥乃研究室 - 京都大学

More documents

Recommendations

Info

Fig.11 にこのシステムの処理の流れを示す。音声は入力されると FFT 処理を施される。入力音声からレベルによって音声区間の始端が検出されると終端検出までの間が音声区間とされ、ハフ変換からストリーム追跡までの処理が進められる。終端が確定すると、ストリーム照合以降の処理が実行されて、認識結果が出力される。Mic5-6、Mic3-5、Mic4-6 の 4 組を使用した。実験の結果、ロボットは発話開始順に話者方向を向き、その前まで移動して、発話内容に応じた応答音声を出力した。Fig.12 Demonstration of four sequential speakersFig.11 Flow diagram3.3. マイク対選択・同相化・適応アレイ処理・音声語彙認識音源が検出されると、音源推定プロセスがその音源方向に対して他の音源方向とかぶらないユニークなマイク対を選択し、音声認識プロセスがこのマイク対からの入力音声を認識する。音声認識プロセス内では、選択されたマイク対からの 2ch 音響信号を同相化することで、音源があたかもマイク対の正面にあるかのような信号を生成する。このように正面向きに補正された音響信号を同じく正面向きに狭追従範囲を与えられた適応アレイで処理することで、適応アレイの設定限界に制約されることなく、どの方向からの音声も処理できるようにする。適応アレイ通過後の音響信号は認識エンジンで処理され、得られた認識結果は共有メモリ上に格納されて利用される。3.4. 4 話者順次発話時の全方位性の確認以上の処理を実装して、4 人の話者が順に発話したときの音源定位・音声認識実験を行った。Fig.12 に実験の様子を示す。発話内容は 4 種類で、適応アレイの追従範囲を±15 度とし、マイクは Mic3~6 の 4 個、マイク対は Mic3-4、Mic5-6、Mic3-5、Mic4-6 の 4 組を使用した。実験の結果、ロボットは発話順に話者方向を向き、その前まで移動して、発話内容に応じた応答音声を出力した。3.5. 2 話者同時発話時の全方位性の確認2 人の話者がほぼ同時に発話したときの音源定位・音声認識実験を行った。Fig.13 に実験の様子を示す。発話内容は 2 種類で、適応アレイの追従範囲を±15度とし、マイクは Mic3~6 の 4 個、マイク対は Mic3-4、Fig.13 Demonstration of two simultaneous speakers4. おわりに本稿では、家庭内で運用されるロボットにとって不可欠と思われる全方位聴覚の 1 方式を報告した。今回は 4 話者順次発話時と 2 話者同時発話時の音源定位と音声語彙認識における全方位性を実験によって確認するに留まったが、提案方式が機能し得ることを検証することができた。なお、本開発は NEDO( 新エネルギー・産業技術総合開発機構 ) 次世代ロボット実用化プロジェクト(プロトタイプ開発支援事業 )に採択され実施したものであり、2005 年愛地球博 NEDO プロトタイプロボット展 (6/9~6/19、モリゾー・キッコロメッセ)、および常設展 (8/23~9/4、ロボットステーション)で展示実演を行った。そこで、本システムの複数話者順次発話対応機能を実演したところ、80dB 程度の周囲雑音まで動作可能であることを確認している。参考文献[1] 浅野太 ,“ 音を分ける”, 計測と制御 , 第 43 巻 ,第 4 号 ,pp.325-330,Apr.2004[2] 中臺一博他 ,“ 視聴覚情報の階層的統合による実時間アクティブ人物追跡 ”, 工知能学会 AI チャレンジ研究会 ,SIG-Challenge-0113-5,pp.35-42,Jun.2001[3] 岡崎彰夫 ,“はじめての画像処理 ”, 工業調査会刊 ,Oct.200058
社団法人人工知能学会Japanese Society forArtificial Intelligence人工知能学会JSAI Technical ReportSIG-CHallege-0522-10 (10/14)”EMIEW”Auditory Ability of Human-Symbiotic robots ”EMIEW” (() ) (() )Masahito TOGAMI,Akio AMANO,Hiroshi SHINJO,Ryota KAMOSHIDA(Hitachi, Ltd., Central Research Laboratory),Junichi TAMAMOTO,Saku Egawa(Hitachi, Ltd., Mechanical Engineering Research Laboratory){mtogami,amano,shinjo,ryota-k}@crl.hitachi.co.jp,{saku.egawa.kv,junichi.tamamoto.xs}@hitachi.comAbstractSound source localization and distanttalk recognition are essential functionsfor human-symbiotic robots. We describemethodology of sound source localizationbased on sound sources overlapjudge and adaptation method for minimumvariance beam-former based on frequencysegregation in this paper. Theseauditory functions are implemented in”EMIEW”(Excellent Mobility and InteractiveExistence as Workmate).1 , , , , , , , , , , , , , , , , , ,EMIEW(Excellent Mobility and InteractiveExistence as Workmate) , EMIEW , [1]• • , • [2]• ,EMIEW , , [3] , , , , , , , , ,2 ,EMIEW 3 , ,4 59
Page 4:
SCOT(Smoothed Coherence Transform)P
Page 8 and 9:
Particle (a)(b)φ12(τ )[14]x ( t )
Page 10 and 11: - 8 -
Page 12 and 13: 1 () 2 SIMO-ICA 3 SIMO-ICA tele
Page 14: ICAy FCy FCy SIMO-ICAs 1(t)x 1(t)1(
Page 17 and 18: [15] Y. Mori, H. Saruwatari, T. Tak
Page 19 and 20: 社団法人人工知能学
Page 21 and 22: • 音源位置マイク配置
Page 23 and 24: Table 1: 6 : SIR (dB)SIR 1 SIR 2 S
Page 27 and 28: SIMO-ICA SIMO Figure 2(a)SIMO-ICA
Page 29 and 30: Binary maskConventional ICAConventi
Page 33 and 34: k lo (l), k c (l), k hi (l) l k c
Page 35 and 36: 5.75 m4.33 mNoise1.15 mUser 40°2.1
Page 38 and 39: おける方法論に関し
Page 40 and 41: Fig.6 は幼児の ABR (Auditory
Page 42 and 43: ンターフェースはスパイ
Page 44 and 45: マイクロホン[ 正面 ][ 左
Page 46 and 47: s(k)Crosstalkn(k)R S(k)X P(k)X R(k)
Page 48 and 49: する隠れマルコフモデル
Page 50 and 51: 123ÙÖ ½ ¾º¾ ´º ½µ ´º
Page 52 and 53: ÌÐ ½ ¿º¾ ÅÎÆÇÂ
Page 54 and 55: ÁÒØÖÒØÓÒÐ ÓÒÖÒ ÓÒ Á
Page 56 and 57: 例えば、同一時間差
Page 58 and 59: いて、θの絶対値が大
Page 62 and 63: 5 , 2 EMIEWFig.1 EMIEW EMIEW 6 ,
Page 64: 0 P th , (14) 4.4 3 4 4 1 , 3
Page 69 and 70: 3.1. 3.2. Fig. 3. The
Page 71 and 72: 4.1. Fig. 5. The time co
Page 75 and 76: modal (m, ), whispery (w, ), aspir
Page 77 and 78: Aperiodicity rate (APR)TLR (Time-La
Page 81 and 82: , À, WDS-BF Ñ À℄·
Page 83 and 84: Table 1: Localization Error of A Si
Page 87 and 88: を行い, 閾値処理を
Page 89 and 90: 4. 音声対話制御実験H
Page 93 and 94: 3 HLDAMLLR [3] (Useful Information
Page 95 and 96: Class 10degClass 20degClass 10degCl
Page 99 and 100: 赤い長方形内 ). 以下
Page 101 and 102: 5.2 音場計測結果(dB SPL)
Page 105 and 106: a) 90 b) 90 MFMc) d) MFMe) 9
Page 107 and 108: (3) MFT Julius 7.1 Figure 4: SIG2
show all

第22回 ロボット聴覚特集 - 奥乃研究室 - 京都大学

Create successful ePaper yourself

Delete template?

Save as template?

第22回ロボット聴覚特集 - 奥乃研究室 - 京都大学