Fig.11 にこのシステムの 処 理 の 流 れを 示 す。 音 声 は入 力 されると FFT 処 理 を 施 される。 入 力 音 声 からレベルによって 音 声 区 間 の 始 端 が 検 出 されると 終 端 検出 までの 間 が 音 声 区 間 とされ、ハフ 変 換 からストリーム 追 跡 までの 処 理 が 進 められる。 終 端 が 確 定 すると、ストリーム 照 合 以 降 の 処 理 が 実 行 されて、 認 識結 果 が 出 力 される。Mic5-6、Mic3-5、Mic4-6 の 4 組 を 使 用 した。 実 験 の結 果 、ロボットは 発 話 開 始 順 に 話 者 方 向 を 向 き、その 前 まで 移 動 して、 発 話 内 容 に 応 じた 応 答 音 声 を 出力 した。Fig.12 Demonstration of four sequential speakersFig.11 Flow diagram3.3. マイク 対 選 択 ・ 同 相 化 ・ 適 応 アレイ 処 理 ・ 音 声語 彙 認 識音 源 が 検 出 されると、 音 源 推 定 プロセスがその 音源 方 向 に 対 して 他 の 音 源 方 向 とかぶらないユニークなマイク 対 を 選 択 し、 音 声 認 識 プロセスがこのマイク 対 からの 入 力 音 声 を 認 識 する。 音 声 認 識 プロセス内 では、 選 択 されたマイク 対 からの 2ch 音 響 信 号 を同 相 化 することで、 音 源 があたかもマイク 対 の 正 面にあるかのような 信 号 を 生 成 する。このように 正 面向 きに 補 正 された 音 響 信 号 を 同 じく 正 面 向 きに 狭 追従 範 囲 を 与 えられた 適 応 アレイで 処 理 することで、適 応 アレイの 設 定 限 界 に 制 約 されることなく、どの方 向 からの 音 声 も 処 理 できるようにする。 適 応 アレイ 通 過 後 の 音 響 信 号 は 認 識 エンジンで 処 理 され、 得られた 認 識 結 果 は 共 有 メモリ 上 に 格 納 されて 利 用 される。3.4. 4 話 者 順 次 発 話 時 の 全 方 位 性 の 確 認以 上 の 処 理 を 実 装 して、4 人 の 話 者 が 順 に 発 話 したときの 音 源 定 位 ・ 音 声 認 識 実 験 を 行 った。Fig.12 に 実験 の 様 子 を 示 す。 発 話 内 容 は 4 種 類 で、 適 応 アレイの 追 従 範 囲 を±15 度 とし、マイクは Mic3~6 の 4 個 、マイク 対 は Mic3-4、Mic5-6、Mic3-5、Mic4-6 の 4 組を 使 用 した。 実 験 の 結 果 、ロボットは 発 話 順 に 話 者方 向 を 向 き、その 前 まで 移 動 して、 発 話 内 容 に 応 じた 応 答 音 声 を 出 力 した。3.5. 2 話 者 同 時 発 話 時 の 全 方 位 性 の 確 認2 人 の 話 者 がほぼ 同 時 に 発 話 したときの 音 源 定 位 ・音 声 認 識 実 験 を 行 った。Fig.13 に 実 験 の 様 子 を 示 す。発 話 内 容 は 2 種 類 で、 適 応 アレイの 追 従 範 囲 を±15度 とし、マイクは Mic3~6 の 4 個 、マイク 対 は Mic3-4、Fig.13 Demonstration of two simultaneous speakers4. おわりに本 稿 では、 家 庭 内 で 運 用 されるロボットにとって不 可 欠 と 思 われる 全 方 位 聴 覚 の 1 方 式 を 報 告 した。今 回 は 4 話 者 順 次 発 話 時 と 2 話 者 同 時 発 話 時 の 音源 定 位 と 音 声 語 彙 認 識 における 全 方 位 性 を 実 験 によって 確 認 するに 留 まったが、 提 案 方 式 が 機 能 し 得 ることを 検 証 することができた。なお、 本 開 発 は NEDO( 新 エネルギー・ 産 業 技 術 総合 開 発 機 構 ) 次 世 代 ロボット 実 用 化 プロジェクト(プロトタイプ 開 発 支 援 事 業 )に 採 択 され 実 施 したものであり、2005 年 愛 地 球 博 NEDO プロトタイプロボット 展 (6/9~6/19、モリゾー・キッコロメッセ)、および 常 設 展 (8/23~9/4、ロボットステーション)で 展示 実 演 を 行 った。そこで、 本 システムの 複 数 話 者 順次 発 話 対 応 機 能 を 実 演 したところ、80dB 程 度 の 周 囲雑 音 まで 動 作 可 能 であることを 確 認 している。参 考 文 献[1] 浅 野 太 ,“ 音 を 分 ける”, 計 測 と 制 御 , 第 43 巻 ,第 4 号 ,pp.325-330,Apr.2004[2] 中 臺 一 博 他 ,“ 視 聴 覚 情 報 の 階 層 的 統 合 による実 時 間 アクティブ 人 物 追 跡 ”, 工 知 能 学 会 AI チャレンジ 研 究 会 ,SIG-Challenge-0113-5,pp.35-42,Jun.2001[3] 岡 崎 彰 夫 ,“はじめての 画 像 処 理 ”, 工 業 調 査会 刊 ,Oct.200058
社 団 法 人 人 工 知 能 学 会Japanese Society forArtificial Intelligence人 工 知 能 学 会JSAI Technical ReportSIG-CHallege-0522-10 (10/14)”EMIEW”Auditory Ability of Human-Symbiotic robots ”EMIEW” (() ) (() )Masahito TOGAMI,Akio AMANO,Hiroshi SHINJO,Ryota KAMOSHIDA(Hitachi, Ltd., Central Research Laboratory),Junichi TAMAMOTO,Saku Egawa(Hitachi, Ltd., Mechanical Engineering Research Laboratory){mtogami,amano,shinjo,ryota-k}@crl.hitachi.co.jp,{saku.egawa.kv,junichi.tamamoto.xs}@hitachi.comAbstractSound source localization and distanttalk recognition are essential functionsfor human-symbiotic robots. We describemethodology of sound source localizationbased on sound sources overlapjudge and adaptation method for minimumvariance beam-former based on frequencysegregation in this paper. Theseauditory functions are implemented in”EMIEW”(Excellent Mobility and InteractiveExistence as Workmate).1 , , , , , , , , , , , , , , , , , ,EMIEW(Excellent Mobility and InteractiveExistence as Workmate) , EMIEW , [1]• • , • [2]• ,EMIEW , , [3] , , , , , , , , ,2 ,EMIEW 3 , ,4 59
- Page 4:
SCOT(Smoothed Coherence Transform)P
- Page 8 and 9:
Particle (a)(b)φ12(τ )[14]x ( t )
- Page 10 and 11: - 8 -
- Page 12 and 13: 1 () 2 SIMO-ICA 3 SIMO-ICA tele
- Page 14: ICAy FCy FCy SIMO-ICAs 1(t)x 1(t)1(
- Page 17 and 18: [15] Y. Mori, H. Saruwatari, T. Tak
- Page 19 and 20: 社 団 法 人 人 工 知 能 学
- Page 21 and 22: • 音 源 位 置マイク配 置
- Page 23 and 24: Table 1: 6 : SIR (dB)SIR 1 SIR 2 S
- Page 25 and 26: 社 団 法 人 人 工 知 能 学
- Page 27 and 28: SIMO-ICA SIMO Figure 2(a)SIMO-ICA
- Page 29 and 30: Binary maskConventional ICAConventi
- Page 31 and 32: 社 団 法 人 人 工 知 能 学
- Page 33 and 34: k lo (l), k c (l), k hi (l) l k c
- Page 35 and 36: 5.75 m4.33 mNoise1.15 mUser 40°2.1
- Page 38 and 39: おける 方 法 論 に 関 し
- Page 40 and 41: Fig.6 は 幼 児 の ABR (Auditory
- Page 42 and 43: ンターフェースはスパイ
- Page 44 and 45: マイクロホン[ 正 面 ][ 左
- Page 46 and 47: s(k)Crosstalkn(k)R S(k)X P(k)X R(k)
- Page 48 and 49: する 隠 れマルコフモデル
- Page 50 and 51: 123ÙÖ ½ ¾º¾ ´º ½µ ´º
- Page 52 and 53: ÌÐ ½ ¿º¾ ÅÎÆÇÂ
- Page 54 and 55: ÁÒØÖÒØÓÒÐ ÓÒÖÒ ÓÒ Á
- Page 56 and 57: 例 えば、 同 一 時 間 差
- Page 58 and 59: いて、θの 絶 対 値 が 大
- Page 62 and 63: 5 , 2 EMIEWFig.1 EMIEW EMIEW 6 ,
- Page 64: 0 P th , (14) 4.4 3 4 4 1 , 3
- Page 67 and 68: 社 団 法 人 人 工 知 能 学
- Page 69 and 70: 3.1. 3.2. Fig. 3. The
- Page 71 and 72: 4.1. Fig. 5. The time co
- Page 73 and 74: 社 団 法 人 人 工 知 能 学
- Page 75 and 76: modal (m, ), whispery (w, ), aspir
- Page 77 and 78: Aperiodicity rate (APR)TLR (Time-La
- Page 79 and 80: 社 団 法 人 人 工 知 能 学
- Page 81 and 82: , À, WDS-BF Ñ À℄·
- Page 83 and 84: Table 1: Localization Error of A Si
- Page 85 and 86: 社 団 法 人 人 工 知 能 学
- Page 87 and 88: を 行 い, 閾 値 処 理 を
- Page 89 and 90: 4. 音 声 対 話 制 御 実 験H
- Page 91 and 92: 社 団 法 人 人 工 知 能 学
- Page 93 and 94: 3 HLDAMLLR [3] (Useful Information
- Page 95 and 96: Class 10degClass 20degClass 10degCl
- Page 97 and 98: 社 団 法 人 人 工 知 能 学
- Page 99 and 100: 赤 い 長 方 形 内 ). 以 下
- Page 101 and 102: 5.2 音 場 計 測 結 果(dB SPL)
- Page 103 and 104: 社 団 法 人 人 工 知 能 学
- Page 105 and 106: a) 90 b) 90 MFMc) d) MFMe) 9
- Page 107 and 108: (3) MFT Julius 7.1 Figure 4: SIG2