10.07.2015 Views

第22回 ロボット聴覚特集 - 奥乃研究室 - 京都大学

第22回 ロボット聴覚特集 - 奥乃研究室 - 京都大学

第22回 ロボット聴覚特集 - 奥乃研究室 - 京都大学

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

間 と 非 発 話 区 間 との 識 別 を 行 う. 次 に,(b)の 音 源 分離 では,(a)の 発 話 区 間 検 出 で 用 いた 話 者 の 位 置 方 向に 対 して 適 応 ビームフォーマを 用 いることで, 他 の方 向 から 発 生 した 雑 音 等 の 除 去 を 行 い, 混 合 音 から音 声 のみを 抽 出 している.この(a)および(b)の2つの処 理 により 時 間 領 域 および 空 間 領 域 での 雑 音 除 去 が行 われるが, 処 理 後 の 音 響 情 報 には, 発 話 区 間 の 推定 誤 差 や 残 響 成 分 などの 消 し 残 しなどから 残 留 する雑 音 が 存 在 する.このために, 音 声 認 識 プロセスにおいて,(c)の 音 響 モデルの 適 応 処 理 を 施 すことで,残 留 雑 音 に 対 する 適 応 を 行 う.これにより, 安 定 した 実 環 境 音 声 認 識 を 可 能 にしている.この 一 連 の 処 理 において,マイクロホンアレイおよびカメラからの 大 量 の 情 報 を 実 時 間 で 処 理 しなければならず, 当 初 , 知 覚 機 能 処 理 用 に 実 装 されていた計 算 資 源 (Pentium III-S 1.4GHz)では 不 十 分 であった.そこで, 多 チャンネルのマイクロホンからの 音 響 信号 処 理 を 効 率 的 に 処 理 することが 可 能 なハードウェア RASP-2(Fig.2 参 照 )を 開 発 し,ヒューマノイドロボット HRP-2 の 体 内 への 実 装 を 行 った.RASP-2は,PCI ハーフサイズの 基 盤 上 に 実 装 され,2 スロット 分 のスペースに 収 まるように 設 計 されており,(i)16 チャンネルの A/D コンバータおよび 2 チャンネル D/A コンバータからなるアナログボード,(ii)PowerPC 450MHz を 搭 載 した PrPMC タイプの 汎 用CPU ボード,(iii) 信 号 処 理 用 FPGA,IEEE1394,USB2,LAN 等 のインターフェースを 実 装 した 信 号 処 理 ボードから 構 成 されている.ロバスト 音 声 インターフェースにおける 発 話 区 間 検出 および 音 源 分 離 の 処 理 は, 知 覚 機 能 処 理 用 CPUボード( 人 物 検 出 等 の 画 像 処 理 )とRASP-2(マイクロホンアレイ 信 号 処 理 ) 上 に 分 散 して 実 装 され,RMCPプロトコル 9) を 介 して 実 時 間 の 分 散 処 理 を 行 っている.次 に,ロバスト 音 声 インターフェースの 3 つのロバスト 化 技 術 の 詳 細 について 述 べる.Fig,2 The real-time signal processing board, RASP-2Fig.3 Microphone array and a camera on HRP-22.1 視 覚 情 報 と 音 響 情 報 を用いた 発 話 区 間 検 出生 活 環 境 内 で 得 られる 様 々な 雑 音 や 反 射 音 を 含 んだ音 響 信 号 から,それのみを 用 いてユーザが 発 話 した部 分 を 正 確 に 切 り 出 すことは 非 常 に 困 難 である.そのため, 広 視 野 カメラからの 画 像 からユーザの 位 置情 報 推 定 し,マイクロホンアレイを 用 いた 音 源 位 置推 定 結 果 と 統 合 することでユーザの 発 話 区 間 の 検 出を 行 う.Fig.3 に HRP-2 に 実 装 したマイクロホンアレイと 広 視 野 カメラを 示 す.また,Fig,4 に,ロバスト音 声 インターフェースで 用 いている 画 像 情 報 , 音 響情 報 および 発 話 検 出 用 状 態 表 示 モニタを 示 す.音 源 位 置 の 推 定 には,サブスペース 法 (MUSIC:Multiple Signal Classification) 10) を 空 間 相 関 行 列 の 固有 値 を 用 いた 重 みつき 平 均 により 広 帯 域 に 拡 張 した方 法 を 用 いている. Fig.4(A)は,この 手 法 を 用 いて得 られた 空 間 スペクトルである,この 空 間 スペクトルのピークを 検 出 することで 音 源 位 置 を 推 定 することができる.Fig.4 の 図 では, 正 面 (0 度 ) 付 近 に 音源 があることを 示 している.広 視 野 カメラを 用 いた 画 像 処 理 によるユーザの 位 置推 定 では, 肌 色 情 報 と 正 面 の 顔 のテンプレートマッチングによる 人 物 発 見 とカーネル 法 を 用 いた 追 跡 処11)理 を 組 み 合 わせた 方 法 を 用 いている. 人 物 発 見 のプロセスでは,まず, 画 像 中 の 肌 色 矩 形 領 域 を 検 出し, 正 面 顔 の 平 均 画 像 とのテンプレートマッチング84

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!