11.07.2015 Views

声道物理モデルの母音列繰り返し模倣による 音素獲得シミュレーション

声道物理モデルの母音列繰り返し模倣による 音素獲得シミュレーション

声道物理モデルの母音列繰り返し模倣による 音素獲得シミュレーション

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

RJ20020 基 講 声 道 物 理 モデルの 母 音 列 繰 り 返 し 模 倣 による音 素 獲 得 シミュレーション○ 尾 形 哲 也 神 田 尚 高 橋 徹 駒 谷 和 範 奥 乃 博京 都 大 学 大 学 院 情 報 学 研 究 科Phoneme Acquisition by Iterative Imitations of Vowel Sequences using Vocal Tract ModelTetsuya Ogata, Hisashi Kanda, Toru Takahashi, Kazunori Komatani, and Hiroshi G. OkunoGraduate School of Informatics, Kyoto UniversityAbstract - We hypothesized that infants use self-vocalization babbling to explore imitatable andunimitatable elements in their mothers’ voices. We constructed a phoneme acquisition model usingcontinuous sound imitation between a human and an infant model. We applied Recurrent Neural Networkwith Parametric Bias (RNNPB) to learn the experience of self-vocalization, to recognize the human voice,and to produce the sound imitated by the infant model. The experimental results revealed that as imitationinteractions were repeated, the formants of sounds of our system moved closer to those of human voices, andour system could self-organize the same vowels in different continuous sounds.Key Words: Imitation, Forward model, and Recurrent Neural Network with Parametric Bias1. はじめに乳 児 は 言 語 獲 得 の 基 礎 として, 初 語 を 発 する 以 前から 発 声 活 動 (バブリング)を 行 っている. 乳 児 のバブリングは 音 素 で 表 現 できないが, 音 素 獲 得 を 経て 初 語 発 声 に 至 る 過 程 で 必 ず 観 測 される 活 動 である.乳 児 は 親 の 声 の 模 倣 を 通 して 音 声 言 語 を 獲 得 すると 言 われている[1, 2]. 乳 児 はその 成 長 過 程 で 模 倣 を試 行 錯 誤 することで, 音 素 単 位 の 発 見 が 可 能 になると 考 えられる.ここで,「 乳 児 が 音 素 の 事 前 知 識 を持 たない 状 態 から 如 何 にして 母 国 語 の 音 素 体 系 を 獲得 するか」という 課 題 がある.この 問 題 に 対 して,音 声 模 倣 を 通 じた 乳 児 の 構 音 発 達 過 程 モデルを 提 案する. 本 研 究 で 対 象 とする 乳 児 の 発 達 時 期 は, 人 間の 大 人 と 同 程 度 の 母 音 生 成 が 可 能 となる3ヶ 月 頃 から, 母 音 模 倣 を 通 じて 母 国 語 特 有 の 母 音 知 覚 が 始 まる6ヶ 月 の 約 3ヶ 月 である.本 モデルは 次 の4つのフェーズからなる.(1) 乳 児の 自 己 発 声 音 とその 構 音 動 作 の 学 習 ,(2) 乳 児 による親 から 発 せられた 音 声 の 認 識 ,(3) 認 識 音 声 に 対 する乳 児 の 模 倣 音 声 生 成 ,(4) 模 倣 精 度 の 高 い 音 声 を 自 己選 択 . 以 上 の 音 素 獲 得 モデルに 対 し, 親 を 人 間 , 子を 乳 児 モデルとして 音 素 獲 得 シミュレーションの 実現 を 行 う.2. 本 研 究 における 音 素 獲 得 と 課 題発 声 は 声 道 という 身 体 により 生 成 される 行 為 であり, この 身 体 拘 束 が 連 続 音 声 の 構 造 に 影 響 していると 考 えられる. 本 研 究 では, 音 素 獲 得 を「 自 分 の 身 体( 構 音 動 作 ) により 親 の 音 声 が 模 倣 可 能 となること」と 定 義 する.ここで 具 体 的 な 課 題 は 以 下 の 3 点 である.課 題 1: 音 声 生 成 過 程 における 身 体 拘 束 利 用音 声 の 発 達 には,その 生 成 機 構 である 声 道 発 達 の拘 束 が 有 効 に 働 いていると 考 えられ,モデルに 声 道( 身 体 )を 組 み 込 むことは 本 質 であると 考 えられる.課 題 2: 音 声 構 音 動 作 の 時 系 列 ダイナミクス 処 理乳 児 は 音 素 に 関 する 事 前 知 識 を 持 たない. 音 素 の種 類 ,クラス 数 が 未 知 の 場 合 , 隠 れマルコフモデル(HMM) などの 統 計 的 確 率 モデルを 用 いた 音 響 信 号処 理 は 必 ずしも 効 率 的 ではない. また 大 量 学 習 データを 必 要 とする 手 法 は, 乳 児 の 発 達 過 程 のモデルには 適 切 でないといえる.課 題 3: 自 己 組 織 的 な 母 音 構 造 抽 出従 来 , 音 声 模 倣 インタラクションによる 母 音 獲 得研 究 が 行 われている[3, 4, 5].これらの 研 究 では 課 題1 を 考 慮 した 音 素 獲 得 を 実 現 しているが,インタラクションにおける 発 話 は 1 母 音 と 定 義 されていた. つまり, 音 響 信 号 が 離 散 的 な 音 素 列 であることを 前 提としている.しかし, 親 の 子 供 への 語 りかけを 考 えた 場 合 , 一 母 音 であるケースは 稀 である. より 自 然 な発 達 過 程 のモデル 化 のためには, 特 に「 離 散 から 連続 へ 問 題 の 拡 張 」が 必 要 といえる.3. 音 声 模 倣 による 母 音 獲 得 手 法3.1 提 案 する 母 音 獲 得 プロセス本 モデルは, 既 に 提 案 した 音 声 模 倣 モデル[6]を 基に, 声 道 モデルによる 構 音 動 作 と 音 声 データをRNNPB で 学 習 させると 共 に 時 系 列 ダイナミクス 分節 化 手 法 を 適 用 し, 各 分 節 区 間 での 力 学 構 造 を 抽 出する.さらに, 抽 出 した 力 学 構 造 を 利 用 することで,既 知 ・ 未 知 の 聴 取 音 声 が 認 識 し, 連 続 音 声 の 模 倣 を行 う. 提 案 する 模 倣 プロセスを 図 1に 示 す. 学 習 ・ 認識 ・ 生 成 の4フェーズがある.1. 学 習 ( 音 声 バブリング)模 倣 システムに 構 音 動 作 を 入 力 し, 複 数 母 音 を 含む 音 声 を 生 成 させ, 構 音 動 作 と 生 成 音 声 を 関 連 付 ける.このフェーズは, 乳 児 であるシステムが「どのよ2 日 本 ロッ 術 講 (200 年 日 〜 日


RJ20020 基 講 うに 声 道 を 動 かせばいかなる 音 声 が 生 成 されるか」を 学 習 する” 音 声 バブリング”に 相 当 する.2. 認 識 ( 親 の 発 声 音 を 聴 取 )本 システムに 人 間 が 発 話 した 音 声 を 入 力 し, 入 力音 声 に 近 い 構 音 動 作 をRNNPBで 計 算 する.3. 生 成 ( 聴 取 音 に 対 する 音 声 模 倣 )本 システムは 認 識 フェーズで 計 算 した 構 音 動 作 を用 いて 模 倣 音 声 を 生 成 する.4. 選 択 ( 学 習 音 声 の 選 択 )模 倣 音 声 のうち, 入 力 音 声 に 近 いものを 選 択 し,これを 新 たな 学 習 データとする.その 後 ,1に 戻 る.このプロセスを 繰 り 返 すことで 模 倣 可 能 な 音 声 種類 が 広 がっていく.また 上 記 の 各 フェーズにおいて,時 系 列 ダイナミクス 分 節 化 手 法 [10]を 適 用 する.Figure 1Proposed phoneme acquisition process.3.2 音 声 合 成 器 : 声 道 物 理 モデルまず2 章 で 示 した 課 題 1に 対 応 するため,Maeda により 開 発 された 声 道 物 理 モデルを 利 用 する[7].このモデルでは, 構 音 パラメータを 設 定 することで 声 道形 状 を 決 定 し,それに 対 応 する 音 声 を 生 成 することができる. 各 パラメータは,JP: 顎 位 置 の 上 下 ,TDP:舌 背 位 置 の 前 後 ,TDS: 舌 背 位 置 の 上 下 ,TTP: 舌 尖の 上 下 ,LO: 唇 の 開 閉 ,LPR: 唇 位 置 の 前 後 ,LP: 喉頭 位 置 の 上 下 ,に 対 応 する.音 声 合 成 器 としての 声 道 モデルには, 他 にもPARCOR [8]や 極 めて 高 精 度 の 音 響 再 現 機 能 を 持 つSTRAIGHT [9]などがある.しかし, 本 研 究 では, 人間 の 認 知 発 達 過 程 をシミュレートするため, 解 剖 学的 知 見 に 基 づくMaeda モデルを 採 用 した.3.3 RNNPBモデルの 学 習 と 時 系 列 データの 分 節 化課 題 2に 対 応 するため,RNNPBを 利 用 した. 本 モデルは 現 状 態 ベクトルを 入 力 とし, 次 状 態 ベクトルを 出 力 とする 予 測 器 である[11].Jordan 型 RNN[12]と同 様 にRNNPB モデルはBack Propagation ThroughTime (BPTT) 学 習 法 [13]を 用 いる.RNNPBモデルの大 きな 特 徴 は,きわめて 少 数 の 学 習 時 系 列 データから, 大 域 的 な 汎 化 構 造 を 自 己 組 織 化 する 点 になる.つまり, RNNPBは,PB 値 と 時 系 列 パターンの 汎 化写 像 を 自 己 組 織 化 する.Figure 2 RNNPBRNNPBは 学 習 ・ 認 識 ・ 生 成 の3つの 動 作 モードを持 つ. 学 習 モードでは,RNNPBはセンサーやモータ出 力 の 予 測 誤 差 からBPTT 法 を 使 用 して, 結 合 重 みとPB 値 を 更 新 する.シーケンスのステップ 長 をlとしたときPB 値 p i の 更 新 式 は 以 下 のようになる.δρOutput S(t+1)Input S(t)Lsbpt= kbp ⋅∑δt0X(t+1)PB Context loopX(t)pt= sigmoid( ρt/ ζ). (2)(1) 式 のδ bp t は 各 時 刻 のデルター 誤 差 で,これを T ステップで 移 動 平 均 をとる. 内 部 値 ρ t をシグモイド 関数 で[1, 0]に 正 規 化 して PB 値 としている.認 識 モードでは, 入 力 シーケンスに 対 応 する PB 値を 求 める. 具 体 的 には 入 力 シーケンスを RNNPB に予 測 させ,その 予 測 誤 差 からネットワーク 重 みの 更新 はせずに,PB 値 のみを 式 (1)(2)で 求 める. 生 成 モードでは, 出 力 希 望 のシーケンスに 対 応 する PB 値 をPB ノードにセットし,RNN の 閉 ループモード( 出力 S(t+1)を 再 度 入 力 する)で 計 算 を 行 い,シーケンスを 生 成 する.RNNPBはその 入 力 時 系 列 データの 予 測 状 態 に 基づいて 分 節 化 する. 具 体 的 には, 単 一 のダイナミクスから 生 成 されたシーケンスは 安 定 した 予 測 が 可 能であるという「 予 測 可 能 性 」を 利 用 する.RNNPBは,ある 一 定 のPB 値 が 与 えられている 際 のダイナミクス 特 性 は 同 一 である. 単 一 のPB 値 で 予 測 可 能 なシーケンス, すなわち 単 一 のダイナミクスから 生 成 されたシーケンスでは, 予 測 が 成 功 するためエラーは 小なくなる. 一 方 , 複 数 のダイナミクスから 生 成 されたシーケンスでは, ダイナミクスが 切 り 替 わる 際 に予 測 エラーが 大 きくなる.この 予 測 エラーを 分 節 化に 利 用 する. 概 念 図 を 図 2に 示 す.長 さTの 時 系 列 データX(t)をN 個 のセクションS 0 , S 1 ,…, S N-1 に 分 割 する 問 題 を 考 える.S i-1 とS i の 間 の 境 界時 間 をt = s i によって 表 す. S i は[s i , s i+1 ]と 定 義 される.Step 1: 初 期 化入 力 時 系 列 データを 同 じ 長 さのN 個 のセクションに 分 割 する.si ← T ⋅ i / N (i = 0, ..., N) (3)Step 2: RNNPB 学 習各 セクションS i 内 でPB 値 は 固 定 し,RNNPBの 重 みを 学 習 する.Step 3: 予 測 誤 差 の 計 算各 セクションでの 予 測 誤 差 P(t)を 計 算 しその 最 大値 E i を 求 める.(1)2 日 本 ロッ 術 講 (200 年 日 〜 日


RJ20020 基 講 E ← max X ( t) − P( t)it∈S i(i = 0, ..., N) (4)Step 4: セクション 長 の 調 整各 セクションの 境 界 s i を 以 下 の 式 により 更 新 する.⎧si+ 1− ds if Ei≥ Ei+1si+ 1← ⎨(5)⎩si+ 1+ ds if Ei< Ei+1Step 5: 最 大 予 測 誤 差 E i が 閾 値 以 下 になるまで,Step 1~4を 繰 り 返 す.S(t)PBTarget DataPredictionError: LargeBoundaryS(t)Move theboundary tothe area withlarge errortimeError: SmalltimeFigure 3 Articulating into multiple sequences提 案 手 法 は, 境 界 位 置 を 調 整 して, 全 体 の 予 測 誤差 最 小 となる 境 界 位 置 を 自 動 的 に 求 める.4. システム 実 装本 章 では, 本 音 素 獲 得 モデルのシステム 設 計 について 述 べる. 音 素 獲 得 システムの 概 観 を 図 4に 示 す.4.1 音 素 獲 得 システムの 概 要本 システムにおける 音 素 獲 得 の 手 順 は 以 下 の 通 りに 行 う.PBBoundarytimetimeフェーズ2: 認 識 人 間 の 発 する 音 声 をSTRAIGHT 分 析によりMFCC 特 徴 量 に 変 換 する.これをRNNPBの 結合 重 みを 固 定 した 状 態 で 予 測 エラーを 求 め,PB 値 と分 節 境 界 を 求 める.フェーズ3: 生 成 フェーズ2で 求 めたPB 値 と 分 節 境界 位 置 を 利 用 し,RNNPBのフィードフォワード 計 算により 構 音 パラメータを 求 める. 求 めた 構 音 パラメータをMaedaモデルに 入 力 し, 模 倣 音 声 を 生 成 する.フェーズ4: フェーズ3で 生 成 したすべての 模 倣 音 声と 人 間 が 発 した 音 声 から, 模 倣 音 声 のMFCCs 特 徴 量の2 乗 誤 差 を 計 算 する. 全 体 の 平 均 予 測 誤 差 以 下 となる 模 倣 音 声 を,フェーズ1の 追 加 学 習 データとして 選択 する.5. 実 験5.1 実 験 条 件提 案 音 素 獲 得 プロセスの 検 証 実 験 結 果 を 示 す. 各実 験 の 条 件 として,システムには 音 素 数 や 音 素 クラスについての 事 前 知 識 は 与 えていない.提 案 プロセスのフェーズ1~3を 用 いて, 乳 児 モデルがフェーズ1でランダムな 発 声 を 行 うバブリング学 習 により, 人 間 の 音 声 に 対 して 模 倣 可 能 かを 検 証することである.フェーズ1において, 構 音 特 徴 量 をランダムに 変 化させたものの 中 から 構 音 可 能 な5 種 類 の 単 音 を 選 び学 習 データを 作 成 した. 選 出 した 各 単 音 をv i (i = 1 …5) で 表 現 する. 学 習 音 素 列 パターンを 以 下 に 示 す.( 各 1350-msec, 30-msec/step)/v 1 v 2 v 3 /,/v 2 v 3 v 4 /,/v 3 v 4 v 5 /,/v 4 v 5 v 1 /,/v 5 v 1 v 2 /,/v 2 v 1 v 5 /,/v 1 v 5 v 4 /,/v 5 v 4 v 3 /,/v 4 v 3 v 2 /,/v 3 v 2 v 1 /,一 単 音 の 発 音 時 間 は 約 400-msecであり, 合 計 発 音時 間 が1350-msec となるよう 単 音 間 の 遷 移 時 間 を 決定 した.フェーズ1において 学 習 パターンをRNNPBに 学 習 させた.RNNPBの 構 成 は, 入 出 力 層 5 次 元 ,中 間 層 40 次 元 , 文 脈 層 5 次 元 ,PB 層 2 次 元 である.5.2 実 験 結 果図 5にフェーズ2における 話 者 2 名 の 認 識 音 声 に 対するバブリング 直 後 (1 st ), 追 加 学 習 一 回 目 (2 nd ),追 加 学 習 二 回 目 (3 rd ) 模 倣 平 均 誤 差 を 示 す. 各 話 者を 認 識 するRNNPBが 追 加 学 習 を 行 うたびに, 誤 差 が減 少 することが 確 認 できる.Figure 4 Diagram of developed system.フェーズ1: 学 習 Maeda モデルに 時 系 列 構 音 パラメータを 入 力 する. 初 回 のフェーズ1では,ランダムバブリングによる 構 音 パラメータを 入 力 する.そのほかの 場 合 は,フェーズ4で 選 択 した 学 習 音 声 の 構 音 パラメータを 入 力 する.Maedaモデルから 生 成 された 音響 信 号 をSTRAIGHT 分 析 し,MFCC 特 徴 量 に 変 換 ,これと 構 音 パラメータを1 組 として 正 規 化 する.これを 用 いてRNNPBの 重 み 学 習 を 行 い, 各 入 力 データに対 するPB 値 と 分 節 境 界 を 求 める.Figure 5 Average imitation error in1st, 2nd, and 3rd generation phases.2 日 本 ロッ 術 講 (200 年 日 〜 日


RJ20020 基 講 図 6は,バブリング 学 習 直 後 のRNNPBにより 自 己組 織 化 したPB 空 間 とフォルマント 空 間 の 解 析 結 果 である.PB 空 間 の 解 析 手 順 は 次 のとおりである.Figure 6PB space and Formant space after babbling learning1. PB 空 間 を10 10 の 格 子 に 分 割 .2. 分 節 数 N = 1 として, 各 格 子 の PB 値 から300-msecの 音 声 を 生 成 .3. 生 成 音 の 第 1,2フォルマントの 平 均 値 を 計 算 .4. Maedaモデル 母 音 と 生 成 音 のフォルマント 二 乗誤 差 を 算 出 .5. 二 乗 誤 差 最 小 となるMaedaモデル 母 音 を 各 格 子点 の 代 表 母 音 に 設 定 .各 音 素 の 境 界 は 二 乗 誤 差 に 応 じて 曖 昧 となるが,ここでは 便 宜 上 明 確 な 境 界 を 点 線 であえて 示 した.この 図 から/a/,/e/が 空 間 に 広 く 形 成 されていることが 確 認 できる.これは 実 際 の 幼 児 が 生 後 一 年 間 において 発 話 回 数 の 多 い 母 音 と 対 応 している[14].図 7,8に 一 回 目 , 二 回 目 の 追 加 学 習 後 のPB 空 間 解析 結 果 ,フォルマント 空 間 を 示 す.RNNPBの 追 加 学習 一 回 目 では, 母 音 /a/, /e/が 広 く,バブリング 直 後 より 単 純 な 空 間 が 構 成 される. 追 加 学 習 二 回 目 で, 母音 /o/の 面 積 が 広 がり, 母 音 /u/も 新 たに 出 現 する.PB2PB2Figure 7/u/Figure 8/a//a//o//e/F2 (Hz)F2 (Hz)/i//u//i/PB1F1 (Hz)PB space and Formant space after 1 st incremental learning/e//o//u/F2 (Hz)/i/PB1F1 (Hz)PB space and Formant space after 2 nd incremental learning/i//i//o//u//u//o//i//u//u//e//e/F1 (Hz)/u//o//e//o//e//e//e//a//a//o//o//a//a//a//a/回 目 後 では, 母 音 /i/,/u/,/e/,/o/のフォルマント 分布 が, 認 識 音 声 に 近 付 いていることが 確 認 できる.さらに 追 加 学 習 二 回 目 においては, 母 音 /u/と/o/の 模 倣音 声 に 対 してF1-F2 空 間 上 での 改 善 が 大 きいことが確 認 できる.6. まとめ本 稿 では, バブリング 学 習 に 基 づく 追 加 学 習 母 音獲 得 モデルを 構 築 し, シミュレーションによる 母 音カテゴリ 自 己 組 織 化 の 検 証 を 行 った. 本 実 験 では, 1回 の 追 加 学 習 についての 検 証 のみにとどまっている.今 後 の 課 題 として, 追 加 学 習 の 反 復 による 母 音 カテゴリ 収 束 の 可 能 性 を 示 し, 音 声 模 倣 能 力 の 発 達 過 程の 再 現 を 目 指 す.謝 辞 本 研 究 は, 学 術 創 成 研 究 , 科 研 費 基 盤 B, 科研 費 基 盤 S の 支 援 を 受 けた.参 考 文 献[1] N. Masataka and K. Bloom, “Acoustic properties that determineadult's preference for 3-month-old infant vocalization,” Infant behaviorand development, vol. 17, pp. 461-464, 1994.[2] M. Pel´aez-Nogueras, J. L. Gewirtz, and M. M. Markham, “Infantvocalizations are conditioned both by maternal imitation and motheresespeech, Infant behavior and development,” vol. 19, p. 670,1996.[3] B. de Boer, “Self-organization in vowel systems,” J. Phonetics, vol.28, no. 4, pp. 441-465, 2000.[4] P. Y. Oudeyer, “The self-organization of speech sounds,” J. TheoreticalBiology, vol. 233, no. 3, pp. 435-449, 2005.[5] K. Miura and et al., “Vowel acquisition based on visual and auditorymutual imitation in mother-infant interaction,” in proc. ofICDL2006, 2006.[6] H. Kanda, T. Ogata, K. Komatani, and H. G. Okuno, “Segmentingacousitic signal with articulatory movement using recurrent neuralnetwork for phoneme acquisition,” in IEEE/RSJ IROS 2008, 2008.[7] S. Maeda, “Compensatory articulation during speech: Evidencefrom the analysis and synthesis of vocal tract shapes using an articulatorymodel,” Speech production and speech modeling, pp.131-149, 1990.[8] N. Kitawaki, F. Itakura, and S. Saito, “Optimum coding of transmissionparameters in PARCOR speech analysis synthesis system,”Trans. IEICE Japan, vol. J61-A, no. 2, pp. 119-126, 1978.[9] H. Kawahara, K. Masuda, and A. de Cheveigne, “Restructuringspeech representations using a pitch-adaptive time-frequencysmoothing and an instantaneous-frequency-based f0 extraction,”Speech Communication, vol. 27, pp. 187-207, 1999.[10]T. Ogata, M. Murase, J. Tani, K. Komatani, and H. G. Okuno, “Twoway translation of compound sentences and arm motions by recurrentneural networks,” in IEEE/RSJ IROS-2007, 2007.[11]J. Tani and M. Ito, “Self-organization of behavioral primitives asmultiple attractor dynamics: A robot experiment,” IEEE Trans. OnSMC Part A, vol. 33, no. 4, pp. 481-488, 2003.[12]M. Jordan, “Attractor dynamics and parallelism in a connectionistsequential machine,” in Annu. Conf. Cog. Sci. Soc., 1986, pp.513-546.[13]D. Rumelhart, G. Hinton, and R. Williams, “Learning internal representationby error propagation.” MIT Press, 1986.[14]K. Ishizuka and et al., “Longitudinal developmental changes inspectral peaks of vowels produced by Japanese infants,” J. Acoust.Soc. Am., vol. 121, no. 4, pp. 2272-2282, 2007.また 各 フォルマント 空 間 から,ランダムバブリング 直 後 の 模 倣 音 声 は,/a/ 以 外 の 母 音 について 認 識 音声 のフォルマント 分 布 との 差 が 大 きい. 追 加 学 習 一2 日 本 ロッ 術 講 (200 年 日 〜 日

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!