ロボットと 一 人 の 話 者 との 対 話 を 前 提 としたものであり, 対 話 制 御 の 対 象 としたものは,ロボット 本 体の 簡 単 な 動 作 と 情 報 家 電 の 制 御 であった.しかしながら, 我 々の 日 常 生 活 環 境 では, 複 数 のユーザとロボットとの 対 話 のような 場 面 が 用 意 に 考 えられ,そのような 場 面 では,ユーザ 同 士 の 会 話 にロボットが反 応 し, 誤 動 作 を 起 こす 可 能 性 がある. 今 後 は, 現在 使 用 している 画 像 処 理 部 分 に,ユーザの 視 線 や 顔の 方 向 検 出 を 導 入 し,より 詳 細 な 対 話 制 御 を 行 うように,ロボット 内 の 計 算 資 源 の 拡 張 を 含 めたシステムの 拡 張 をおこなう.また, 音 声 認 識 の 失 敗 による誤 動 作 を 修 正 するために, 緊 急 時 対 応 の 音 声 コマンドの 導 入 を 進 めていく 予 定 である.参 考 文 献1) http://www.nedo.go.jp/roadmap/index.html2) K.Nakadai,K.Hidai,H.Mizoguchi, H.G.Okuno andH.Kitano, “Real-Time Auditory and Visual Mutiple-ObjectTracking for Humanoid”, Proc of IJCAI2001, pp1424-1432,2001.3) http://www.incx.nec.co.jp/robot/4) 松 日 楽 信 人 , 小 川 英 樹 , 吉 見 卓 ,” 人 と 共 存 する 生 活 ロボット”, 東 芝 レビュー, Vol.60,No.7, pp112-115,20055) http://www.hqrt.hitachi.co.jp/merl/robot/6) F. Asano, K. Yamamoto, I. Hara, J. Ogata, T. Yoshimura,Y. Motomura, N. Ichimura and H. Asoh,: “Detection andSeparation of Speech EventUsing Audio and Video InformationFusion and Its Application to Robust Speech Interface",Eurasip Journal on Applied Signal Processing, 2004,11, pp.1727-1738 ,2004.7) I. Hara, F. Asano, H. Asoh, J. Ogata, N. Ichimura, Y.Kawai, F. Kanehiro, H. Hirukawa and K. Yamamoto:“Robust Speech Interface Based on Audioand Video InformationFusion for Humanoid HRP-2",Proc. of IROS2004, pp. 2404-2410. 2004.8) K. Yamamoto, F. Asano, I. Hara, J. Ogata, M. Goto, H.Furukawa, T. Kamashima and N. Kitawaki,: “Real-timeImplementation and Evaluation of Speech Event Detectionand SeparationBased on the Fusion of Audio and VideoInformation", Proc.s of GSPx 2004 , 2004.9) M. Goto, R. Neyama and Y. Muraoka,: “RMCP:RemoteMusic Control Protocol | Design and Applications |", Proc.of the 1997 Int. Computer Music Conference, pp.446-449 ,1997.10) F. Asano, Y. Motomura, H. Asoh, T. Yoshimura,N. Ichimuraand S. Nakamura: “Fusion of Audio and Video Informationfor Detecting Speech Event", Proce. of Fusion2003, pp. 386-393, 2003.11) D. Comaniciu, V. Ramesh and P. Meer: “Kernel-based objecttracking", IEEE Trans. on Pattern Analysis MachineIntelligence, 25, 5, pp. 564-575,2003.12) D. H. Johnson and D. E. Dudgeon,: Array Signal Processing,Prentice Hall, 1993.13) 河 原 達 也 , 李 晃 伸 :” 連 続 音 声 認 識 ソフトウエア Julius”,人 工 知 能 学 会 誌 , Vol.20, No.1, pp.41-49, 2005.14) C.J. Leggetter and P. C. Woodland, “Maximum likelihoodlinear regression for speaker adaptation of continuous densityhidden Markov models", Computer Speech and Language,9, 2, pp. 171-185 ,1995.15) J. L. Gauvain and C. H. Lee, “Maximum a posteriori estimationfor multivariate Gaussian mixture observations ofMarkov chains", IEEE Transactions on Speech and AudioProcessing, 2, 2, pp. 291-298.1994.16) E. Thelen, X. Aubert and P. Beyerlein: “SpeakerAdaptationin the Philips System for Large Vocabulary ContinuousSpeech Recognition", Proc. of ICASSP '97, pp.1035-1038 ,1997.17) 河 原 達 也 , 武 田 一 哉 , 伊 藤 克 亘 , 李 晃 伸 , 鹿 野 清 宏 , 山田 篤 :” 連 続 音 声 認 識 コンソーシアムの 活 動 報 告 及 び 最終 版 ソフトウェアの 概 要 ", SP2003-169, NLC2003-106(SLP-49-57), 電 子 情 報 通 信 学 会 技 術 研 究 報 告 , 2003.88
社 団 法 人 人 工 知 能 学 会Japanese Society forArtificial Intelligence人 工 知 能 学 会JSAI Technical ReportSIG-CHallege-0522-15 (10/15)Sound Source Localization robust to variations of environmentsusing microphones mounted to head of robot , , , Toshiaki Kubo Naoya Mochiki Tetsuji Ogawa Tetsunori Kobayashi Department of Computer Science, Waseda UniversityAbstractA sound source localization method using statisticalpattern recognition is extended so thatit works robustly in various environmentsIn our previous work, we proposed new types ofsound source localization methods using robotmounting microphones, which are free fromHRTF (Head Related Transfer Function) estimation.This method is performed with statisticalpattern recognition which employs theratio of spectra amplitude obtained for pairs ofmicrophones as feature parameters. It workswell whatever the sound source is, because thefeature is completely sound-source-invariant.However, it is slightly sensitive to the variationsof environmentsIn order to solove this problem, HLDA (HeteroscedasticLinear Discriminant Analysis) isapplied to extract environment-invariant featuresExperimentalresults show perfect performanceof the proposed method with HLDAfeature extraction.1 4 [1][2][3] [3] MLLR HLDA (Heteroscedastic Linear DiscriminantAnalysis) [5] 23 HLDA 452 2.1 2 4 Figure 1 RF-Mic(Right-Front-Microphone)LF-Mic(Left-Front-Microphone) RR-Mic(Right-Right-Microphone)LL-Mic(Left-Left-Microphone) Audiotechnica ATM15a 89
- Page 4:
SCOT(Smoothed Coherence Transform)P
- Page 8 and 9:
Particle (a)(b)φ12(τ )[14]x ( t )
- Page 10 and 11:
- 8 -
- Page 12 and 13:
1 () 2 SIMO-ICA 3 SIMO-ICA tele
- Page 14:
ICAy FCy FCy SIMO-ICAs 1(t)x 1(t)1(
- Page 17 and 18:
[15] Y. Mori, H. Saruwatari, T. Tak
- Page 19 and 20:
社 団 法 人 人 工 知 能 学
- Page 21 and 22:
• 音 源 位 置マイク配 置
- Page 23 and 24:
Table 1: 6 : SIR (dB)SIR 1 SIR 2 S
- Page 25 and 26:
社 団 法 人 人 工 知 能 学
- Page 27 and 28:
SIMO-ICA SIMO Figure 2(a)SIMO-ICA
- Page 29 and 30:
Binary maskConventional ICAConventi
- Page 31 and 32:
社 団 法 人 人 工 知 能 学
- Page 33 and 34:
k lo (l), k c (l), k hi (l) l k c
- Page 35 and 36:
5.75 m4.33 mNoise1.15 mUser 40°2.1
- Page 38 and 39:
おける 方 法 論 に 関 し
- Page 40 and 41: Fig.6 は 幼 児 の ABR (Auditory
- Page 42 and 43: ンターフェースはスパイ
- Page 44 and 45: マイクロホン[ 正 面 ][ 左
- Page 46 and 47: s(k)Crosstalkn(k)R S(k)X P(k)X R(k)
- Page 48 and 49: する 隠 れマルコフモデル
- Page 50 and 51: 123ÙÖ ½ ¾º¾ ´º ½µ ´º
- Page 52 and 53: ÌÐ ½ ¿º¾ ÅÎÆÇÂ
- Page 54 and 55: ÁÒØÖÒØÓÒÐ ÓÒÖÒ ÓÒ Á
- Page 56 and 57: 例 えば、 同 一 時 間 差
- Page 58 and 59: いて、θの 絶 対 値 が 大
- Page 60 and 61: Fig.11 にこのシステムの 処
- Page 62 and 63: 5 , 2 EMIEWFig.1 EMIEW EMIEW 6 ,
- Page 64: 0 P th , (14) 4.4 3 4 4 1 , 3
- Page 67 and 68: 社 団 法 人 人 工 知 能 学
- Page 69 and 70: 3.1. 3.2. Fig. 3. The
- Page 71 and 72: 4.1. Fig. 5. The time co
- Page 73 and 74: 社 団 法 人 人 工 知 能 学
- Page 75 and 76: modal (m, ), whispery (w, ), aspir
- Page 77 and 78: Aperiodicity rate (APR)TLR (Time-La
- Page 79 and 80: 社 団 法 人 人 工 知 能 学
- Page 81 and 82: , À, WDS-BF Ñ À℄·
- Page 83 and 84: Table 1: Localization Error of A Si
- Page 85 and 86: 社 団 法 人 人 工 知 能 学
- Page 87 and 88: を 行 い, 閾 値 処 理 を
- Page 89: 4. 音 声 対 話 制 御 実 験H
- Page 93 and 94: 3 HLDAMLLR [3] (Useful Information
- Page 95 and 96: Class 10degClass 20degClass 10degCl
- Page 97 and 98: 社 団 法 人 人 工 知 能 学
- Page 99 and 100: 赤 い 長 方 形 内 ). 以 下
- Page 101 and 102: 5.2 音 場 計 測 結 果(dB SPL)
- Page 103 and 104: 社 団 法 人 人 工 知 能 学
- Page 105 and 106: a) 90 b) 90 MFMc) d) MFMe) 9
- Page 107 and 108: (3) MFT Julius 7.1 Figure 4: SIG2