間 と 非 発 話 区 間 との 識 別 を 行 う. 次 に,(b)の 音 源 分離 では,(a)の 発 話 区 間 検 出 で 用 いた 話 者 の 位 置 方 向に 対 して 適 応 ビームフォーマを 用 いることで, 他 の方 向 から 発 生 した 雑 音 等 の 除 去 を 行 い, 混 合 音 から音 声 のみを 抽 出 している.この(a)および(b)の2つの処 理 により 時 間 領 域 および 空 間 領 域 での 雑 音 除 去 が行 われるが, 処 理 後 の 音 響 情 報 には, 発 話 区 間 の 推定 誤 差 や 残 響 成 分 などの 消 し 残 しなどから 残 留 する雑 音 が 存 在 する.このために, 音 声 認 識 プロセスにおいて,(c)の 音 響 モデルの 適 応 処 理 を 施 すことで,残 留 雑 音 に 対 する 適 応 を 行 う.これにより, 安 定 した 実 環 境 音 声 認 識 を 可 能 にしている.この 一 連 の 処 理 において,マイクロホンアレイおよびカメラからの 大 量 の 情 報 を 実 時 間 で 処 理 しなければならず, 当 初 , 知 覚 機 能 処 理 用 に 実 装 されていた計 算 資 源 (Pentium III-S 1.4GHz)では 不 十 分 であった.そこで, 多 チャンネルのマイクロホンからの 音 響 信号 処 理 を 効 率 的 に 処 理 することが 可 能 なハードウェア RASP-2(Fig.2 参 照 )を 開 発 し,ヒューマノイドロボット HRP-2 の 体 内 への 実 装 を 行 った.RASP-2は,PCI ハーフサイズの 基 盤 上 に 実 装 され,2 スロット 分 のスペースに 収 まるように 設 計 されており,(i)16 チャンネルの A/D コンバータおよび 2 チャンネル D/A コンバータからなるアナログボード,(ii)PowerPC 450MHz を 搭 載 した PrPMC タイプの 汎 用CPU ボード,(iii) 信 号 処 理 用 FPGA,IEEE1394,USB2,LAN 等 のインターフェースを 実 装 した 信 号 処 理 ボードから 構 成 されている.ロバスト 音 声 インターフェースにおける 発 話 区 間 検出 および 音 源 分 離 の 処 理 は, 知 覚 機 能 処 理 用 CPUボード( 人 物 検 出 等 の 画 像 処 理 )とRASP-2(マイクロホンアレイ 信 号 処 理 ) 上 に 分 散 して 実 装 され,RMCPプロトコル 9) を 介 して 実 時 間 の 分 散 処 理 を 行 っている.次 に,ロバスト 音 声 インターフェースの 3 つのロバスト 化 技 術 の 詳 細 について 述 べる.Fig,2 The real-time signal processing board, RASP-2Fig.3 Microphone array and a camera on HRP-22.1 視 覚 情 報 と 音 響 情 報 を用いた 発 話 区 間 検 出生 活 環 境 内 で 得 られる 様 々な 雑 音 や 反 射 音 を 含 んだ音 響 信 号 から,それのみを 用 いてユーザが 発 話 した部 分 を 正 確 に 切 り 出 すことは 非 常 に 困 難 である.そのため, 広 視 野 カメラからの 画 像 からユーザの 位 置情 報 推 定 し,マイクロホンアレイを 用 いた 音 源 位 置推 定 結 果 と 統 合 することでユーザの 発 話 区 間 の 検 出を 行 う.Fig.3 に HRP-2 に 実 装 したマイクロホンアレイと 広 視 野 カメラを 示 す.また,Fig,4 に,ロバスト音 声 インターフェースで 用 いている 画 像 情 報 , 音 響情 報 および 発 話 検 出 用 状 態 表 示 モニタを 示 す.音 源 位 置 の 推 定 には,サブスペース 法 (MUSIC:Multiple Signal Classification) 10) を 空 間 相 関 行 列 の 固有 値 を 用 いた 重 みつき 平 均 により 広 帯 域 に 拡 張 した方 法 を 用 いている. Fig.4(A)は,この 手 法 を 用 いて得 られた 空 間 スペクトルである,この 空 間 スペクトルのピークを 検 出 することで 音 源 位 置 を 推 定 することができる.Fig.4 の 図 では, 正 面 (0 度 ) 付 近 に 音源 があることを 示 している.広 視 野 カメラを 用 いた 画 像 処 理 によるユーザの 位 置推 定 では, 肌 色 情 報 と 正 面 の 顔 のテンプレートマッチングによる 人 物 発 見 とカーネル 法 を 用 いた 追 跡 処11)理 を 組 み 合 わせた 方 法 を 用 いている. 人 物 発 見 のプロセスでは,まず, 画 像 中 の 肌 色 矩 形 領 域 を 検 出し, 正 面 顔 の 平 均 画 像 とのテンプレートマッチング84
を 行 い, 閾 値 処 理 を 行 うことで 顔 領 域 を 検 出 する.Fig.4(B) 中 の 赤 い 矩 形 領 域 は, 検 出 された 顔 領 域 である.この 領 域 に 対 し,カーネル 追 跡 アルゴリズムを適 用 し,ユーザが 移 動 した 場 合 にも, 高 速 に 追 従 することができる.この 人 物 発 見 と 追 跡 に 関 しては,現 在 , 同 時 に 3 人 まで 検 出 するように 設 定 している.画 像 上 で 検 出 された 顔 領 域 の 中 心 位 置 をユーザの 位置 としている.この 処 理 モジュールは, 知 覚 機 能 処理 用 CPUボード 上 に 実 装 されており, 約 15fpsの 実 時間 処 理 を 実 現 している.上 記 の 方 法 で 得 られた 音 源 位 置 とユーザ 位 置 を 比 較し, 両 者 の 中 で 物 理 的 に 同 じ 位 置 ( 方 向 )に 存 在 する 場合 ,この 方 向 音 源 からの 音 を 発 話 として 検 出 する.実 際 に 得 られる 音 源 位 置 と 人 物 位 置 の 情 報 は 推 定 誤差 を 含 んでいるばかりか 推 定 精 度 も 異 なっており,それぞれの 位 置 情 報 が 正 確 に 重 なることはほとんどない.そのため, 両 者 の 情 報 を 柔 軟 かつ 妥 当 に 比 較し, 一 致 状 態 を 推 定 するために, 確 率 ネットワークであるベイジアンネットワークを 用 いている.Fig.4(C)は, 発 話 区 間 検 出 に 用 いたベイジアンネットワークである. 上 部 ( 親 ノード)のノードは, 発 話 状 態か 否 かを 示 すノードであり, 下 部 ( 子 ノード)の 左 側 の19 個 のノードは, 離 散 化 された 音 源 位 置 ( 角 度 )を 示している.また, 下 部 の 左 側 の 10 個 のノードは, 画像 上 の 人 物 位 置 を 離 散 化 したものである. 下 部 の 赤く 表 示 されたノードは,それぞれ, 音 源 の 位 置 , 人物 の 位 置 を 表 しており, 上 部 ノードが 赤 い 場 合 には,発 話 があったことを 示 している.親 ノードと 子 ノード 間 のそれぞれの条 件 付 確 率 は,あらかじめ 同 システムを 用 いて,ユーザが 単 独 で 発話 した 場 合 の 計 測 データにから 学 習 したものを 用 いている.これによって, 音 響 座 標 系 と 画 像 座 標 系 との 対 応 関 係 は, 陽 にキャリブレーションを 行 わずに異 なるセンサ 情 報 を 統 合 することができる.Fig.4 GUI for the robust speech interface(A) Spatial spectrum of acoustic information(B) View of a human tracking process(C) Bayesian Network to detect speech events2.2 適 応 ビー ムフォーマによる 音 源 分 離前 述 の 発 話 区 間 の 検 出 では, 連 続 した 音 響 情 報 から発 話 部 分 に 相 当 する 区 間 の 検 出 を 行 うことができた.しかしながら,テレビなどの 大 きな 雑 音 源 がある 生活 環 境 で 得 られた 音 響 情 報 は, 依 然 として 音 声 とその 背 景 にある 雑 音 との 混 合 音 であり,このままでは十 分 な 音 声 認 識 結 果 を 得 ることができない.そのために,マイクロホンアレイ 処 理 によって 得 られた 雑音 源 と 話 者 の 方 向 を 用 いることで 音 響 信 号 から 雑 音の 除 去 を 行 う.この 雑 音 の 音 源 分 離 には, 適 応 ビームフォーマによる 分 離 フィルタ 12) を 用 いた.この 分 離 フィルタ 係 数Wは,− 1K gg−K gW =H 1で 表 されたものを 用 いている.K は 非 発 話 区 間 における 雑 音 の 空 間 相 関 行 列 であり,gは 話 者 の 伝 達 特性 を 含 む 位 置 ベクトルである. 生 活 環 境 のような 動的 な 環 境 下 で 音 源 分 離 を 行 うためには, 上 記 のフィルタ 係 数 は, 話 者 の 発 話 がないときに K を, 話 者 が発 話 しているときにはその 音 源 位 置 をもとにgを 更新 する 必 要 がある. 本 システムでは, 前 述 の 発 話 区間 の 推 定 で 得 られた 時 間 空 間 上 の 情 報 を 用 いて, 分離 フィルタ 係 数 を 更 新 し 続 けるようにしている.式 (1)の 分 離 フィルタを 用 いて 処 理 された 分 離 音 声 は,連 続 した 発 話 ごとに 区 切 られ,それぞれ 1 発 話 の 音声 信 号 として 音 声 認 識 システムへ 送 られる.2.3 音 声 認 識 におけるモデル 適 応前 述 の 発 話 区 間 検 出 処 理 と 音 源 分 離 処 理 による 時 間的 ・ 空 間 的 な 雑 音 除 去 した 音 声 信 号 であっても, 完全 にすべての 雑 音 除 去 をすることができず, 反 射 などの 影 響 による 残 留 雑 音 が 存 在 することが 多 い. 現在 ,われわれが 用 いている 音 声 認 識 システムJulian 13)では, 通 常 , 雑 音 のない 音 声 情 報 によって 音 響 モデルを 構 築 し, 音 声 認 識 処 理 を 行 っている.そのため,残 留 雑 音 の 影 響 によって 音 声 認 識 システムで 用 いる音 響 モデルと 入 力 音 声 との 間 でミスマッチが 発 生 し,音 声 認 識 の 性 能 が 著 しく 低 下 する.そこで, 事 前 に,音 声 認 識 システムで 使 用 する 音 響 モデルに 対 し, 適応 処 理 を 施 す. 一 般 に, 音 響 モデルの 適 応 におけるパラメータ 推 定 方 法 は,MLLR 14) などのようにモデルパラメータ 間 での 情 報 の 共 有 化 を 利 用 した 線 形 変 換15)に 基 づく 方 法 や,MAP 推 定 などのように 適 応 学 習における 事 前 知 識 を 効 率 的 に 利 用 した 方 法 が 用 いられることが 多 い. 本 システムでは,MLLR-MAP 16) による 音 響 モデル 適 応 を 行 った.これは,MLLRによりモデルパラメータの 変 換 を 行 った 後 に,それを 事 前情 報 としてMAP 推 定 を 行 ったものである. 現 在 の 本(1)85
- Page 4:
SCOT(Smoothed Coherence Transform)P
- Page 8 and 9:
Particle (a)(b)φ12(τ )[14]x ( t )
- Page 10 and 11:
- 8 -
- Page 12 and 13:
1 () 2 SIMO-ICA 3 SIMO-ICA tele
- Page 14:
ICAy FCy FCy SIMO-ICAs 1(t)x 1(t)1(
- Page 17 and 18:
[15] Y. Mori, H. Saruwatari, T. Tak
- Page 19 and 20:
社 団 法 人 人 工 知 能 学
- Page 21 and 22:
• 音 源 位 置マイク配 置
- Page 23 and 24:
Table 1: 6 : SIR (dB)SIR 1 SIR 2 S
- Page 25 and 26:
社 団 法 人 人 工 知 能 学
- Page 27 and 28:
SIMO-ICA SIMO Figure 2(a)SIMO-ICA
- Page 29 and 30:
Binary maskConventional ICAConventi
- Page 31 and 32:
社 団 法 人 人 工 知 能 学
- Page 33 and 34:
k lo (l), k c (l), k hi (l) l k c
- Page 35 and 36: 5.75 m4.33 mNoise1.15 mUser 40°2.1
- Page 38 and 39: おける 方 法 論 に 関 し
- Page 40 and 41: Fig.6 は 幼 児 の ABR (Auditory
- Page 42 and 43: ンターフェースはスパイ
- Page 44 and 45: マイクロホン[ 正 面 ][ 左
- Page 46 and 47: s(k)Crosstalkn(k)R S(k)X P(k)X R(k)
- Page 48 and 49: する 隠 れマルコフモデル
- Page 50 and 51: 123ÙÖ ½ ¾º¾ ´º ½µ ´º
- Page 52 and 53: ÌÐ ½ ¿º¾ ÅÎÆÇÂ
- Page 54 and 55: ÁÒØÖÒØÓÒÐ ÓÒÖÒ ÓÒ Á
- Page 56 and 57: 例 えば、 同 一 時 間 差
- Page 58 and 59: いて、θの 絶 対 値 が 大
- Page 60 and 61: Fig.11 にこのシステムの 処
- Page 62 and 63: 5 , 2 EMIEWFig.1 EMIEW EMIEW 6 ,
- Page 64: 0 P th , (14) 4.4 3 4 4 1 , 3
- Page 67 and 68: 社 団 法 人 人 工 知 能 学
- Page 69 and 70: 3.1. 3.2. Fig. 3. The
- Page 71 and 72: 4.1. Fig. 5. The time co
- Page 73 and 74: 社 団 法 人 人 工 知 能 学
- Page 75 and 76: modal (m, ), whispery (w, ), aspir
- Page 77 and 78: Aperiodicity rate (APR)TLR (Time-La
- Page 79 and 80: 社 団 法 人 人 工 知 能 学
- Page 81 and 82: , À, WDS-BF Ñ À℄·
- Page 83 and 84: Table 1: Localization Error of A Si
- Page 85: 社 団 法 人 人 工 知 能 学
- Page 89 and 90: 4. 音 声 対 話 制 御 実 験H
- Page 91 and 92: 社 団 法 人 人 工 知 能 学
- Page 93 and 94: 3 HLDAMLLR [3] (Useful Information
- Page 95 and 96: Class 10degClass 20degClass 10degCl
- Page 97 and 98: 社 団 法 人 人 工 知 能 学
- Page 99 and 100: 赤 い 長 方 形 内 ). 以 下
- Page 101 and 102: 5.2 音 場 計 測 結 果(dB SPL)
- Page 103 and 104: 社 団 法 人 人 工 知 能 学
- Page 105 and 106: a) 90 b) 90 MFMc) d) MFMe) 9
- Page 107 and 108: (3) MFT Julius 7.1 Figure 4: SIG2