ンターフェースはスパイクイベントと 決 まっており、その 時 間 情 報 に 位 相 、 強 度 、 周 波 数 など 必 要 な 情 報が 準 備 されているので、 受 け 側 で 選 択 し 利 用 すればいい。また、 個 々の 処 理 が 単 純 なため、 冗 長 ではあるが 多 数 のニューロンを 用 意 し 関 係 付 けることで、時 間 的 にも 空 間 的 にも 補 完 的 な 処 理 が 可 能 になる。このモデルは 学 習 発 達 型 でも 利 用 可 能 である。 発達 型 にするのであれば、2.2.1 などを 参 考 に、 低 周 波選 択 で 位 相 発 火 型 の 聴 神 経 をベースに 内 側 上 オリーブ- 下 丘 間 の 結 合 を 学 習 し、 下 丘 に 方 向 マップを 概ね 作 成 した 後 に 外 側 オリーブや 外 側 毛 帯 を 導 入 し、上 下 で 挟 むことで 学 習 を 進 めればいい。また、このモデルにおいてマスクを 形 成 する 外 側毛 帯 の 活 動 は、 一 時 の 入 力 に 対 し 20 ミリ 秒 ほどの 継続 的 発 火 を 伴 うものなのだが、そのような 特 性 も 細胞 特 性 に 組 み 込 むだけでよい。IID などは、 計 算 方 式はアルゴリズムで 記 述 するものと 異 なるが 内 容 に 大きな 差 はないが、 同 じ 計 算 原 理 で Fig.7 のモデルをすべて 動 かせることが 何 よりも 重 要 である。しかし、3.1 で 述 べたように 原 理 は 実 時 間 向 きでも、 処 理 が 実時 間 でないことは 大 きな 課 題 であり、ロボット 応 用に 向 けてはさらなる 技 術 蓄 積 が 必 要 である。。4. おわりに脳 型 情 報 処 理 の 立 場 から、ロボット 聴 覚 を 考 察 した。 本 稿 ではスパイキングニューロンの 処 理 に 関 してのみ 述 べたが、3 節 冒 頭 で 述 べたように、 脳 型 情 報処 理 はシステム、 回 路 、 素 子 の 3 要 素 からなり、それらの 相 乗 効 果 が 大 きい。 三 位 一 体 の 研 究 展 開 が 重要 である。ロボット 聴 覚 は 情 報 処 理 として 求 められる 動 的 特 性 、 学 習 能 力 の 観 点 から、 脳 型 情 報 処 理 の研 究 において 最 適 な 課 題 といえる。 今 後 、 両 研 究 領域 の 相 互 発 展 を 期 待 したい。参 考 文 献1) Berg, BO., Principles of Child Neurology, McGraw-Hill,New York NY, 1995.2) Brooks, RA. : A Robust Layered Control System for aMobile Robot, IEEE Journal of Robotics and Automation 2(1), 14–2, 1986.3) Clifton RK., The development of spatial hearing in humaninfants, in Werner LA, Rubel EW (eds): Developmental Psycholoacoutics.,American psychological Association, Washington,DC, 135-157, 1992.4) Damasio, H., Tranel, D., Grabowski, T., Adolphs, R.,Damasio, A., Neural systems behind word and concept re-trieval, Cognition, 92, 179-229, 2004.5) Dayan, P., Abbott, LF., Theoretical Neuroscience: Computationaland Mathematical Modeling of Neural Systems,MIT Press, Cambridge MA, 2001.6) Dominey PF.,Hoen M.,Blanc JM.,Lelekov-Boissard T.,7)Neurological basis of language and sequential cognition:evidence from simulation, aphasia, and ERP studies., Brainand Language, 86(2),207-25, 2003.D’Esposito M, Alexander MP., Subcortical aphasia: distinctprofiles following left putaminal hemorrhage. Neuorol-ogy, 45, 38–41, 1995.8) Ewert, J.-P. and Arbib, M.A., Eds., Visuomotor Coordina-Amphibians, Comparisons, Models and Robots, Newtion:York: Plenum Press, 1989.9) Jordan, MI. (Ed.), Learning in graphical models., MITPress, Cambridge MA, 1999.10) Koch, C. (ed.), Biophysics of Computation, Oxford UniversityPress, New York, 1999.11) Koerner, E., Gewaltig, M-O., Koerner, U., Richter, A. andRodemann, T., A model of computation in neocorticalarchitecture., Neural Networks, 12:989–1006, 1999.12) Koerner, E., Tsujino, H. and Masutani, T.: A Cortical-typeModular Neural Network for Hypothetical Reasoning,Neural Networks 10, 791-814, 1997.13) Lieberman, P., On the nature and evolution of the neuralbases of human language, Yearbook of physical anthropology,45, 36-62, 2002.14) Litovsky RY, Colburn HS, Yost WA, Guzman SJ., Theprecedence effect, J Acoust Soc Am.,106(4 Pt 1),1633-54,1999.15) Litovsky RY, Shinn-Cunningham BG., Investigation of therelationship among three common measures of precedence:fusion, localization dominance, and discrimination suppression,J Acoust Soc Am., 109(1),346-58, 2001.16) Maas W., Bishop, CM. (eds), Pulsed neural networks, MITPress, Cambridge MA, 1998.17) McCarthy, J., Minsky ML., Rochester, N., Shannon CE., Aproposal for the Dartmouth summer research project on artificialintelligence”, 1955.18) McCulloch, W.S. and Pitts, W.H., A logical calculus of theideas immanent in neural nets, Bulletin of MathematicalBiophysics, 5 : 115-133, 1943.19) Nilsson, NJ. : Shakey The Robot, Technical Note 323. AICenter, SRI International, 1984.20) Poeppel, D., Hickok, G., Towards a new functional anatomyof language, Cognition, 92(1-2), 1-12, 2004.21) Pollak GD, Burger RM, Klug A., Dissecting the circuitryof the auditory system, Trends Neuroscience, 26(1),33-9,2003.22) Tsujino, H., Output-driven operation and memory-basedarchitecture principles embedded in a real-world device,Journal of Integrative Neuroscience, 3(2), 133-42, 2004.23) Ullman, MT., Contribution of memory circuits to language:the declarative/procedural model, Cognition, 92, 231-270,2004.24) Watkins KE, Vargha-Khadem F, Ashburner J, PassinghamRE, Connelly A, Friston KJ, Frackowiak RS, Mishkin M,Gadian DG., MRI analysis of an inherited speech and languagedisorder: structural brain abnormalities., Brain, 125( Pt3), 465-78, 2002.25) Werner LA., Gillenwater JM., Pure-tone sensitivity of 2-to5-week-old infants, Infant Behavior and Development,13(355), 355-375, 1990.26 ) Wolpert D, Kawato M: Multiple paired forward and inversemodels for motor control. Neural Networks11,1317-1329, 1998.27) Yang X, Grantham DW., Echo suppression and discriminationsuppression aspects of the precedence effect, PerceptPsychophys, 59(7),1108-17, 1997.28) 井 上 博 充 : 人 間 型 ロボットが 拓 く 未 来 社 会 と 新 産 業の 創 成 , 日 本 ロボット 学 会 誌 , 22 (1), 2-5 , 2004.29) 奥 乃 博 , 中 臺 一 博 , ロボット 聴 覚 の 課 題 と 現 状 , 情 報処 理 , 44(11), 104-113, Nov. 2003.30) 松 本 元 、 辻 野 広 司 : 脳 のこころ、「 情 と 意 の 脳 科 学 」、松 本 元 ・ 小 野 武 年 共 編 、 培 風 館 , 2002.40
社 団 法 人 人 工 知 能 学 会Japanese Society forArtificial Intelligence人 工 知 能 学 会JSAI Technical ReportSIG-CHallege-0522-7 (10/14)パーソナルロボット PaPeRo における 近 接 話 者 方 向 推 定 と 2 マイク 音 声 強 調Near-Field Sound-Source Localization and Adaptive Noise Cancellationin a Personal Robot, PaPeRoAbstract—This paper presents implementation andevaluation of speech interface for a personal robot,PaPeRo, based on sound-source localization and noisecancellation. Sound-source localization incorporates anew formula taking near-field conditions into account foroffsetting errors caused by the relative altitude of thespeech source to the microphones. In noise cancellation,a novel stepsize control assuming a wide range of signal-to-noiseratios of the input signal helps achieve bothsmall residual noise and distortion in the noise-cancelledsignal. Evaluation results with recorded signals in thereal environment demonstrates 40% highersource-localization performance and as much as 65%higher speech recognition rates in noisy environment.1. はじめに〇 佐 藤 幹 (NEC メディア 情 報 研 究 所 )杉 山 昭 彦 (NEC メディア 情 報 研 究 所 )大 中 慎 一 (NEC メディア 情 報 研 究 所 )* Miki SATO(NEC.), Akihiko SUGIYAMA(NEC.), Shin’ichi Ohnaka(NEC.)m-sato@dh.jp.nec.com, aks@ak.jp.nec.com, s-ohnaka@cp.jp.nec.com近 年 、 人 間 と 共 生 することを 目 的 としたパートナー 型 ロボットの 研 究 が 盛 んに 行 われている [1]。これらのロボットは、 通 常 、 音 声 コマンドによって、離 れた 位 置 から 制 御 される。 背 景 雑 音 や 妨 害 信 号 の影 響 を 低 減 して、 正 確 に 音 声 コマンドを 認 識 するために、 指 向 性 マイクロホンが 広 く 使 われている。このため、 音 声 の 到 来 する 方 向 を 推 定 し、 推 定 方 向 にマイクロホンの 指 向 性 を 一 致 させることが 重 要 となる。遠 隔 会 議 などの 通 信 応 用 と 異 なり、 人 間 とロボットの 対 話 では、 話 者 の 口 、すなわち 音 源 とマイクロホンは、 同 一 平 面 上 にあると 見 なすことはできない。しかし、ロボットにおける 話 者 方 向 推 定 では、 暗 黙のうちに 音 源 とマイクロホンが 同 一 平 面 上 にあると仮 定 してきた。この 仮 定 が 話 者 方 向 推 定 結 果 に 与 える 影 響 は、 人 間 とロボットとの 距 離 が 近 くなるほど大 きくなる。すなわち、 近 接 音 場 を 想 定 した 方 向 推定 が 重 要 となるのである。一 方 、マイクロホンの 指 向 性 だけで 抑 圧 できない雑 音 や 妨 害 信 号 は、 音 声 強 調 処 理 によって、その 影響 を 軽 減 する。 応 用 毎 に 異 なる 要 求 条 件 に 応 じて、1つ 又 は 多 数 のマイクロホンを 用 いた 雑 音 及 び 妨 害 信号 の 抑 圧 が、 広 く 行 われている [2]。 人 間 とロボットの 対 話 においては、2 つのマイクロホンを 用 いた適 応 ノイズキャンセラが、マイクロホン 数 、 雑 音 除去 性 能 、 及 び 歪 の 観 点 から 見 て、 良 い 妥 協 策 である。適 応 ノイズキャンセラは、 音 声 用 と 雑 音 用 の 2 つFigure. 1: PaPeRo の 外 観のマイクロホンを 用 いて、 雑 音 の 消 去 を 行 う。 符 号化 や 音 声 認 識 の 前 処 理 に 用 いるために、 係 数 更 新 ステップサイズを 音 声 対 雑 音 比 (SN 比 )に 応 じて 制 御することで、 高 い 雑 音 消 去 性 能 と 小 さな 音 声 歪 を 両立 することができるノイズキャンセラ [3] が 提 案されている。このノイズキャンセラは、ヘッドセットなどのように、 音 声 用 マイクロホンが 話 者 の 口 元にあることを 想 定 しているため、 様 々な 距 離 から 話しかけられるロボットに 適 用 することはできない。音 声 用 マイクロホンと 口 との 距 離 に 応 じて、SN 比 が広 範 囲 に 変 化 するためである。本 稿 では、 音 声 対 話 機 能 をもつ 自 律 移 動 型 パーソナルロボット PaPeRo[4]における、 近 接 音 場 を 想 定した 話 者 方 向 推 定 と、 広 範 囲 な SN 比 に 対 応 できるノイズキャンセラについて 紹 介 する。2 節 で、PaPeRoの 構 成 と 音 声 インタフェースについて 説 明 する。3節 では 近 接 話 者 方 向 推 定 、4 節 ではノイズキャンセラをとりあげる。5 節 では 評 価 結 果 を 用 いて 性 能 を明 らかにし、6 節 で 今 後 の 課 題 について 述 べる。2. パーソナルロボット PaPeRo2.1. ハードウェアパーソナルロボットPaPeRoの 外 観 を、Fig. 1に 示 す。PaPeRoは、 高 さ385mm、 幅 248mm、 奥 行 245mm、重 量 5.0kgの 自 律 移 動 型 ロボットである。 胴 体 正 面 に4 個 、 左 右 にそれぞれ1 個 、 背 面 に1 個 の 無 指 向 性41
- Page 4: SCOT(Smoothed Coherence Transform)P
- Page 8 and 9: Particle (a)(b)φ12(τ )[14]x ( t )
- Page 10 and 11: - 8 -
- Page 12 and 13: 1 () 2 SIMO-ICA 3 SIMO-ICA tele
- Page 14: ICAy FCy FCy SIMO-ICAs 1(t)x 1(t)1(
- Page 17 and 18: [15] Y. Mori, H. Saruwatari, T. Tak
- Page 19 and 20: 社 団 法 人 人 工 知 能 学
- Page 21 and 22: • 音 源 位 置マイク配 置
- Page 23 and 24: Table 1: 6 : SIR (dB)SIR 1 SIR 2 S
- Page 25 and 26: 社 団 法 人 人 工 知 能 学
- Page 27 and 28: SIMO-ICA SIMO Figure 2(a)SIMO-ICA
- Page 29 and 30: Binary maskConventional ICAConventi
- Page 31 and 32: 社 団 法 人 人 工 知 能 学
- Page 33 and 34: k lo (l), k c (l), k hi (l) l k c
- Page 35 and 36: 5.75 m4.33 mNoise1.15 mUser 40°2.1
- Page 38 and 39: おける 方 法 論 に 関 し
- Page 40 and 41: Fig.6 は 幼 児 の ABR (Auditory
- Page 44 and 45: マイクロホン[ 正 面 ][ 左
- Page 46 and 47: s(k)Crosstalkn(k)R S(k)X P(k)X R(k)
- Page 48 and 49: する 隠 れマルコフモデル
- Page 50 and 51: 123ÙÖ ½ ¾º¾ ´º ½µ ´º
- Page 52 and 53: ÌÐ ½ ¿º¾ ÅÎÆÇÂ
- Page 54 and 55: ÁÒØÖÒØÓÒÐ ÓÒÖÒ ÓÒ Á
- Page 56 and 57: 例 えば、 同 一 時 間 差
- Page 58 and 59: いて、θの 絶 対 値 が 大
- Page 60 and 61: Fig.11 にこのシステムの 処
- Page 62 and 63: 5 , 2 EMIEWFig.1 EMIEW EMIEW 6 ,
- Page 64: 0 P th , (14) 4.4 3 4 4 1 , 3
- Page 67 and 68: 社 団 法 人 人 工 知 能 学
- Page 69 and 70: 3.1. 3.2. Fig. 3. The
- Page 71 and 72: 4.1. Fig. 5. The time co
- Page 73 and 74: 社 団 法 人 人 工 知 能 学
- Page 75 and 76: modal (m, ), whispery (w, ), aspir
- Page 77 and 78: Aperiodicity rate (APR)TLR (Time-La
- Page 79 and 80: 社 団 法 人 人 工 知 能 学
- Page 81 and 82: , À, WDS-BF Ñ À℄·
- Page 83 and 84: Table 1: Localization Error of A Si
- Page 85 and 86: 社 団 法 人 人 工 知 能 学
- Page 87 and 88: を 行 い, 閾 値 処 理 を
- Page 89 and 90: 4. 音 声 対 話 制 御 実 験H
- Page 91 and 92: 社 団 法 人 人 工 知 能 学
- Page 93 and 94:
3 HLDAMLLR [3] (Useful Information
- Page 95 and 96:
Class 10degClass 20degClass 10degCl
- Page 97 and 98:
社 団 法 人 人 工 知 能 学
- Page 99 and 100:
赤 い 長 方 形 内 ). 以 下
- Page 101 and 102:
5.2 音 場 計 測 結 果(dB SPL)
- Page 103 and 104:
社 団 法 人 人 工 知 能 学
- Page 105 and 106:
a) 90 b) 90 MFMc) d) MFMe) 9
- Page 107 and 108:
(3) MFT Julius 7.1 Figure 4: SIG2