Fig.5 The dialogue system for the humanoid HRP-2システムでは,3 人 分 の 20 単 語 を 雑 音 源 がある 状 態で 録 音 したデータを 基 に 音 響 モデルの 適 応 処 理 を 行ったものを 使 用 している.これらの 処 理 により 音 声認 識 システムの 性 能 の 向 上 を 図 っている.3. HRP-2 における 音 声 対 話 制 御上 で 述 べたロバスト 音 声 インターフェースを 用 いてヒューマノイドロボット HRP-2 の 音 声 対 話 制 御 システムの 実 装 を 行 った.Fig.5 にロバスト 音 声 インターフェースを 含 めた HRP-2 の 音 声 対 話 システム 全 体 の概 要 を 示 す. 情 報 家 電 コントローラを 除 いて,ロボット 内 部 に 実 装 した 音 響 処 理 ハードウェア(RASP-2)および 知 覚 機 能 処 理 用 CPU ボード(Vision Processor)上 に 実 装 されている. 各 モジュールは, 独 立 した 実行 モジュールであり,ロバスト 音 声 インターフェース 部 では RMCP を 介 して,その 他 のモジュール 間 では TCP ソケットを 介 して 接 続 されている.これによって, 適 用 するタスクやロボット 内 の 計 算 資 源 に 応じて, 柔 軟 に 分 散 処 理 を 行 うことが 可 能 になっており, 必 要 に 応 じてロボット 体 外 のネットワーク 上 の計 算 資 源 を 利 用 することも 可 能 になっている.また,このような 比 較 的 疎 なモジュール 間 の 結 合 を 用 いることで, 容 易 にシステムの 拡 張 を 行 うことができる.現 在 , 本 システムで 実 装 されている 対 話 制 御 モジュールでは,ロボットやネットワークに 接 続 された 情報 家 電 の 制 御 することを 対 象 としているために, 音声 コマンドと 制 御 コマンドの 対 応 付 けを 基 本 にしている.また, 音 声 コマンドとして, 孤 立 単 語 や 比 較的 短 い 単 文 を 想 定 し, 制 御 対 象 機 器 の 拡 張 などを 用意 にするために, 音 声 認 識 システム Julian のサーバーモードの 機 能 を 利 用 し, 対 話 制 御 モジュールから,音 声 認 識 用 の 辞 書 等 を 動 的 にロードし, 動 的 辞 書 切換 が 可 能 になっている.これによって, 制 御 対 象 に応 じて 認 識 モードを 設 定 することができ, 認 識 語 彙の 限 定 や 辞 書 の 切 換 による 音 声 認 識 精 度 の 向 上 を 図ることができる.音 声 認 識 結 果 からロボットや 外 部 情 報 家 電 を 制 御 するためのコマンドへの 対 応 づけにおいては, 音 声 コマンドへの 柔 軟 性 を 持 たせるために, 音 声 認 識 結 果を 正 規 表 現 または 認 識 結 果 の 列 挙 という 形 で 記 述 することとし, 対 話 コマンドの 記 述 の 大 幅 な 削 減 と 可読 性 を 高 めている. Fig.6 に, 対 話 制 御 モジュールで 用 いているコマンド 記 述 フォーマットを 示 す.この 例 からわかるように, 対 話 制 御 のスクリプトは,XML 形 式 で 記 述 し,タグの 部 分 が 1 つの 音 声コマンドのセットとなっており,タグに 音 声 認識 された 結 果 およびタグによる 対 応 する 制 御 コマンドセットの 形 式 で 記 述 する.1 つの 音 声認 識 結 果 に 対 する 機 器 制 御 コマンドに 関 しては, 複数 記 述 することが 可 能 になっており, 属 性 を 指 定 することで TCP ソケットを 用 いた 制 御 エージェントへのコマンド 発 行 , 音 声 認 識 辞 書 の 切 換 等 の 内 部 関 数呼 び 出 しおよびスクリプト 言 語 Python インタプリタ呼 び 出 しによる 動 的 な 制 御 コマンドの 発 行 を 行 うことが 可 能 になっている. 音 声 認 識 結 果 1( 正 規 表 現 ) 音 声 認 識 結 果 2( 正 規 表 現 )音 声 認 識 辞 書 切 替 ( 内 部 関 数 呼 び 出 し) 制 御 コマンドPython スクリプトFig.6A script of the rule on the dialogue system86
4. 音 声 対 話 制 御 実 験HRP-2 に 実 装 したロバスト 音 声 インターフェースの有 効 性 を 確 認 するために,Fig.7 に 示 すように 雑 音 源としてテレビがある 状 況 下 でHRP-2 の 動 作 制 御 ,テレビのチャンネル 等 制 御 および 家 電 コントローラであるPC 上 のWindows Media Playerを 制 御 する 対 話 制御 実 験 を 行 った.Fig.7 に 実 験 を 行 ったHRP-2, 雑 音 源であるテレビおよび 話 者 のそれぞれの 配 置 を 示 す.テレビの 雑 音 は,ロボット 頭 部 のマイクロホンアレイ 付 近 でS/Nが 概 ね 0dBになるように 調 整 している.音 声 認 識 システムで 用 いる 音 響 モデルとしては, 連続 音 声 認 識 コンソーシアムソフトウェア 2003 年 度 版のPTM(Phonetic Tied Mixture) 型 tri-phoneモデル 17) を用 い, 前 述 した 事 前 に 教 師 ありの 適 応 を 行 っている.Fig.8 に 実 験 で 使 用 した 発 話 シナリオを 示 す.HRP-2の 動 作 実 験 中 もテレビの 雑 音 がある 状 態 で 行 ったが,ほぼ 9 割 近 くの 認 識 率 で 音 声 による 対 話 制 御 を 行 うことができた. 本 実 験 中 で 音 声 認 識 が 失 敗 に 終 わるもののほとんどは,「 音 量 を 上 げて」と「 音 量 を 下げて」など 1 語 しか 違 いがないものや 数 字 を 含 んだ文 のときであった.これに 対 しては, 言 い 方 を 変 更や 音 声 認 識 用 の 辞 書 の 変 更 等 で,より 認 識 率 を 向 上させることが 期 待 できる.1. こんにちは2. 1 歩 前 進3. テレビの 操 作4. 電 源 を 入 れて5. 音 量 を 上 げて6. 音 量 を 下 げて7. NHK 教 育8. 日 本 テレビ9. NHK10. テレビ 朝 日11. ビデオの 操 作12. 2 番 目 を 再 生13. 早 送 り14. 停 止15. 巻 き 戻 し16. 再 生17. ロボットの 操 作18. 右 手 を 上 げて19. 左 手 を 上 げて20. 左 手 を 下 げて21. 右 を 見 て22. こっちを 向 いて23. 比 留 川 さんにこれを 届 けて24. ありがとう25. さようならFig.8 A list of speeches on the experiment5. おわりにFig.7 The arrangement on the experiment本 稿 では,マイクロホンアレイを 用 いたロバスト 音声 インターフェースをヒューマノイド HRP-2 に 実 装を 行 い,ロボット 本 体 の 動 作 制 御 , 外 部 の 情 報 家 電機 器 制 御 を 行 う 音 声 対 話 システムの 実 装 を 行 った.ロボット 本 体 という 限 られたスペース 内 で 音 声 対 話機 能 を 実 現 するために, 実 時 間 音 響 処 理 用 ハードウェア RASP-2 を 開 発 し, 音 響 センシング, 画 像 センシングおよび 対 話 機 能 をモジュール 化 し,それらを分 散 配 置 することで,ロボット 内 の 計 算 資 源 でほぼ対 話 システムを 実 装 することができた. 情 報 統 合 による 発 話 検 出 , 適 応 ビームフォーマによる 音 源 分 離および 音 響 モデル 適 応 の 3 つのロバスト 化 技 術 を 融合 させることで,S/N がほぼ 0dB のような 高 雑 音 化の 環 境 においても, 安 定 した 音 声 によるロボット 制御 や 情 報 家 電 制 御 のタスクが 実 行 することができた.これによって,これらのロバスト 化 技 術 がロボットの 実 世 界 音 声 インターフェースとして 有 効 であることが 確 認 された.しかしながら, 今 回 実 現 したロボットの 対 話 機 能 は,87
- Page 4:
SCOT(Smoothed Coherence Transform)P
- Page 8 and 9:
Particle (a)(b)φ12(τ )[14]x ( t )
- Page 10 and 11:
- 8 -
- Page 12 and 13:
1 () 2 SIMO-ICA 3 SIMO-ICA tele
- Page 14:
ICAy FCy FCy SIMO-ICAs 1(t)x 1(t)1(
- Page 17 and 18:
[15] Y. Mori, H. Saruwatari, T. Tak
- Page 19 and 20:
社 団 法 人 人 工 知 能 学
- Page 21 and 22:
• 音 源 位 置マイク配 置
- Page 23 and 24:
Table 1: 6 : SIR (dB)SIR 1 SIR 2 S
- Page 25 and 26:
社 団 法 人 人 工 知 能 学
- Page 27 and 28:
SIMO-ICA SIMO Figure 2(a)SIMO-ICA
- Page 29 and 30:
Binary maskConventional ICAConventi
- Page 31 and 32:
社 団 法 人 人 工 知 能 学
- Page 33 and 34:
k lo (l), k c (l), k hi (l) l k c
- Page 35 and 36:
5.75 m4.33 mNoise1.15 mUser 40°2.1
- Page 38 and 39: おける 方 法 論 に 関 し
- Page 40 and 41: Fig.6 は 幼 児 の ABR (Auditory
- Page 42 and 43: ンターフェースはスパイ
- Page 44 and 45: マイクロホン[ 正 面 ][ 左
- Page 46 and 47: s(k)Crosstalkn(k)R S(k)X P(k)X R(k)
- Page 48 and 49: する 隠 れマルコフモデル
- Page 50 and 51: 123ÙÖ ½ ¾º¾ ´º ½µ ´º
- Page 52 and 53: ÌÐ ½ ¿º¾ ÅÎÆÇÂ
- Page 54 and 55: ÁÒØÖÒØÓÒÐ ÓÒÖÒ ÓÒ Á
- Page 56 and 57: 例 えば、 同 一 時 間 差
- Page 58 and 59: いて、θの 絶 対 値 が 大
- Page 60 and 61: Fig.11 にこのシステムの 処
- Page 62 and 63: 5 , 2 EMIEWFig.1 EMIEW EMIEW 6 ,
- Page 64: 0 P th , (14) 4.4 3 4 4 1 , 3
- Page 67 and 68: 社 団 法 人 人 工 知 能 学
- Page 69 and 70: 3.1. 3.2. Fig. 3. The
- Page 71 and 72: 4.1. Fig. 5. The time co
- Page 73 and 74: 社 団 法 人 人 工 知 能 学
- Page 75 and 76: modal (m, ), whispery (w, ), aspir
- Page 77 and 78: Aperiodicity rate (APR)TLR (Time-La
- Page 79 and 80: 社 団 法 人 人 工 知 能 学
- Page 81 and 82: , À, WDS-BF Ñ À℄·
- Page 83 and 84: Table 1: Localization Error of A Si
- Page 85 and 86: 社 団 法 人 人 工 知 能 学
- Page 87: を 行 い, 閾 値 処 理 を
- Page 91 and 92: 社 団 法 人 人 工 知 能 学
- Page 93 and 94: 3 HLDAMLLR [3] (Useful Information
- Page 95 and 96: Class 10degClass 20degClass 10degCl
- Page 97 and 98: 社 団 法 人 人 工 知 能 学
- Page 99 and 100: 赤 い 長 方 形 内 ). 以 下
- Page 101 and 102: 5.2 音 場 計 測 結 果(dB SPL)
- Page 103 and 104: 社 団 法 人 人 工 知 能 学
- Page 105 and 106: a) 90 b) 90 MFMc) d) MFMe) 9
- Page 107 and 108: (3) MFT Julius 7.1 Figure 4: SIG2