10.07.2015 Views

第22回 ロボット聴覚特集 - 奥乃研究室 - 京都大学

第22回 ロボット聴覚特集 - 奥乃研究室 - 京都大学

第22回 ロボット聴覚特集 - 奥乃研究室 - 京都大学

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

を 行 い, 閾 値 処 理 を 行 うことで 顔 領 域 を 検 出 する.Fig.4(B) 中 の 赤 い 矩 形 領 域 は, 検 出 された 顔 領 域 である.この 領 域 に 対 し,カーネル 追 跡 アルゴリズムを適 用 し,ユーザが 移 動 した 場 合 にも, 高 速 に 追 従 することができる.この 人 物 発 見 と 追 跡 に 関 しては,現 在 , 同 時 に 3 人 まで 検 出 するように 設 定 している.画 像 上 で 検 出 された 顔 領 域 の 中 心 位 置 をユーザの 位置 としている.この 処 理 モジュールは, 知 覚 機 能 処理 用 CPUボード 上 に 実 装 されており, 約 15fpsの 実 時間 処 理 を 実 現 している.上 記 の 方 法 で 得 られた 音 源 位 置 とユーザ 位 置 を 比 較し, 両 者 の 中 で 物 理 的 に 同 じ 位 置 ( 方 向 )に 存 在 する 場合 ,この 方 向 音 源 からの 音 を 発 話 として 検 出 する.実 際 に 得 られる 音 源 位 置 と 人 物 位 置 の 情 報 は 推 定 誤差 を 含 んでいるばかりか 推 定 精 度 も 異 なっており,それぞれの 位 置 情 報 が 正 確 に 重 なることはほとんどない.そのため, 両 者 の 情 報 を 柔 軟 かつ 妥 当 に 比 較し, 一 致 状 態 を 推 定 するために, 確 率 ネットワークであるベイジアンネットワークを 用 いている.Fig.4(C)は, 発 話 区 間 検 出 に 用 いたベイジアンネットワークである. 上 部 ( 親 ノード)のノードは, 発 話 状 態か 否 かを 示 すノードであり, 下 部 ( 子 ノード)の 左 側 の19 個 のノードは, 離 散 化 された 音 源 位 置 ( 角 度 )を 示している.また, 下 部 の 左 側 の 10 個 のノードは, 画像 上 の 人 物 位 置 を 離 散 化 したものである. 下 部 の 赤く 表 示 されたノードは,それぞれ, 音 源 の 位 置 , 人物 の 位 置 を 表 しており, 上 部 ノードが 赤 い 場 合 には,発 話 があったことを 示 している.親 ノードと 子 ノード 間 のそれぞれの条 件 付 確 率 は,あらかじめ 同 システムを 用 いて,ユーザが 単 独 で 発話 した 場 合 の 計 測 データにから 学 習 したものを 用 いている.これによって, 音 響 座 標 系 と 画 像 座 標 系 との 対 応 関 係 は, 陽 にキャリブレーションを 行 わずに異 なるセンサ 情 報 を 統 合 することができる.Fig.4 GUI for the robust speech interface(A) Spatial spectrum of acoustic information(B) View of a human tracking process(C) Bayesian Network to detect speech events2.2 適 応 ビー ムフォーマによる 音 源 分 離前 述 の 発 話 区 間 の 検 出 では, 連 続 した 音 響 情 報 から発 話 部 分 に 相 当 する 区 間 の 検 出 を 行 うことができた.しかしながら,テレビなどの 大 きな 雑 音 源 がある 生活 環 境 で 得 られた 音 響 情 報 は, 依 然 として 音 声 とその 背 景 にある 雑 音 との 混 合 音 であり,このままでは十 分 な 音 声 認 識 結 果 を 得 ることができない.そのために,マイクロホンアレイ 処 理 によって 得 られた 雑音 源 と 話 者 の 方 向 を 用 いることで 音 響 信 号 から 雑 音の 除 去 を 行 う.この 雑 音 の 音 源 分 離 には, 適 応 ビームフォーマによる 分 離 フィルタ 12) を 用 いた.この 分 離 フィルタ 係 数Wは,− 1K gg−K gW =H 1で 表 されたものを 用 いている.K は 非 発 話 区 間 における 雑 音 の 空 間 相 関 行 列 であり,gは 話 者 の 伝 達 特性 を 含 む 位 置 ベクトルである. 生 活 環 境 のような 動的 な 環 境 下 で 音 源 分 離 を 行 うためには, 上 記 のフィルタ 係 数 は, 話 者 の 発 話 がないときに K を, 話 者 が発 話 しているときにはその 音 源 位 置 をもとにgを 更新 する 必 要 がある. 本 システムでは, 前 述 の 発 話 区間 の 推 定 で 得 られた 時 間 空 間 上 の 情 報 を 用 いて, 分離 フィルタ 係 数 を 更 新 し 続 けるようにしている.式 (1)の 分 離 フィルタを 用 いて 処 理 された 分 離 音 声 は,連 続 した 発 話 ごとに 区 切 られ,それぞれ 1 発 話 の 音声 信 号 として 音 声 認 識 システムへ 送 られる.2.3 音 声 認 識 におけるモデル 適 応前 述 の 発 話 区 間 検 出 処 理 と 音 源 分 離 処 理 による 時 間的 ・ 空 間 的 な 雑 音 除 去 した 音 声 信 号 であっても, 完全 にすべての 雑 音 除 去 をすることができず, 反 射 などの 影 響 による 残 留 雑 音 が 存 在 することが 多 い. 現在 ,われわれが 用 いている 音 声 認 識 システムJulian 13)では, 通 常 , 雑 音 のない 音 声 情 報 によって 音 響 モデルを 構 築 し, 音 声 認 識 処 理 を 行 っている.そのため,残 留 雑 音 の 影 響 によって 音 声 認 識 システムで 用 いる音 響 モデルと 入 力 音 声 との 間 でミスマッチが 発 生 し,音 声 認 識 の 性 能 が 著 しく 低 下 する.そこで, 事 前 に,音 声 認 識 システムで 使 用 する 音 響 モデルに 対 し, 適応 処 理 を 施 す. 一 般 に, 音 響 モデルの 適 応 におけるパラメータ 推 定 方 法 は,MLLR 14) などのようにモデルパラメータ 間 での 情 報 の 共 有 化 を 利 用 した 線 形 変 換15)に 基 づく 方 法 や,MAP 推 定 などのように 適 応 学 習における 事 前 知 識 を 効 率 的 に 利 用 した 方 法 が 用 いられることが 多 い. 本 システムでは,MLLR-MAP 16) による 音 響 モデル 適 応 を 行 った.これは,MLLRによりモデルパラメータの 変 換 を 行 った 後 に,それを 事 前情 報 としてMAP 推 定 を 行 ったものである. 現 在 の 本(1)85

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!