13.07.2015 Views

树到串统计翻译模型研究

树到串统计翻译模型研究

树到串统计翻译模型研究

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

博 士 论 文 答 辩 报 告树 到 串 统 计 翻 译 模 型 研 究答 辩 人 : 刘 洋指 导 教 师 : 林 守 勋 研 究 员时 间 :2007 年 6 月 16 日


提 纲• 引 言• 词 语 对 齐 的 对 数 线 性 模 型• 树 到 串 统 计 翻 译 模 型– 模 型 1– 模 型 2– 模 型 3– 实 验• 总 结


MT Strategies (1954-2004)KnowledgeAcquisitionStrategyAll manualElectronicdictionariesHand-built byexpertsOriginal directapproachClassicinterlingualsystemHand-built bynon-expertsTypical transfersystemShallow/ SimpleWord-basedonlyDeep/ ComplexPhrase tablesSyntacticConstituentStructureSemanticanalysisInterlinguaLearn fromannotated dataOriginal statisticalMTExample-basedMTLearn from unannotateddataFully automatedNew ResearchGoes Here!Slide courtesy ofLaurie Gerber


统 计 机 器 翻 译中 间 语 言源 语 言 语 义目 标 语 言 语 义源 语 言 句 法目 标 语 言 句 法源 语 言 形 式 语 法目 标 语 言 形 式 语 法源 语 言 短 语目 标 语 言 短 语源 语 言 词目 标 语 言 词


统 计 机 器 翻 译中 间 语 言Brown 1993源 语 言 语 义目 标 语 言 语 义源 语 言 句 法目 标 语 言 句 法源 语 言 形 式 语 法目 标 语 言 形 式 语 法源 语 言 短 语目 标 语 言 短 语源 语 言 词目 标 语 言 词


统 计 机 器 翻 译中 间 语 言Och 1999; Koehn 2003源 语 言 语 义目 标 语 言 语 义源 语 言 句 法目 标 语 言 句 法源 语 言 形 式 语 法目 标 语 言 形 式 语 法源 语 言 短 语目 标 语 言 短 语源 语 言 词目 标 语 言 词


统 计 机 器 翻 译中 间 语 言Wu 1997; Chiang 2005源 语 言 语 义目 标 语 言 语 义源 语 言 句 法目 标 语 言 句 法源 语 言 形 式 语 法目 标 语 言 形 式 语 法源 语 言 短 语目 标 语 言 短 语源 语 言 词目 标 语 言 词


统 计 机 器 翻 译中 间 语 言Yamada 2001; Galley 2006源 语 言 语 义目 标 语 言 语 义源 语 言 句 法目 标 语 言 句 法源 语 言 形 式 语 法目 标 语 言 形 式 语 法源 语 言 短 语目 标 语 言 短 语源 语 言 词目 标 语 言 词


统 计 机 器 翻 译中 间 语 言Ding 2005; Quirk 2005源 语 言 语 义目 标 语 言 语 义源 语 言 句 法目 标 语 言 句 法源 语 言 形 式 语 法目 标 语 言 形 式 语 法源 语 言 短 语目 标 语 言 短 语源 语 言 词目 标 语 言 词


统 计 机 器 翻 译中 间 语 言Liu 2006; Liu 2007源 语 言 语 义目 标 语 言 语 义源 语 言 句 法目 标 语 言 句 法源 语 言 形 式 语 法目 标 语 言 形 式 语 法源 语 言 短 语目 标 语 言 短 语源 语 言 词目 标 语 言 词


词 语 对 齐中 国 的 经 济 发 展economic development of China• 词 语 对 齐 是 统 计 机 器 翻 译 中 最 重 要 的 一种 语 料 库 标 注


研 究 内 容• 词 语 对 齐 的 对 数 线 性 模 型• 树 到 串 统 计 翻 译 模 型– 嵌 入 句 法 树 的 基 于 短 语 的 翻 译 模 型 ( 模 型1)– 基 于 树 到 串 对 齐 模 板 的 翻 译 模 型 ( 模 型 2)– 融 入 森 林 到 串 规 则 的 树 到 串 翻 译 模 型 ( 模 型3)


提 纲• 引 言• 词 语 对 齐 的 对 数 线 性 模 型• 树 到 串 统 计 翻 译 模 型– 模 型 1– 模 型 2– 模 型 3– 实 验• 总 结


词 语 对 齐 主 要 方 法Blunsom 2006Och 2003Liu 2005Fraser 2006Brown 1993 Vogel 1996Cherry 2003Moore 2005Liang 2006Ker 1997 Melamed 2000Tiedemann 2003Taskar 2005Lacoste-Julien 2006


IBM 模 型 的 特 点• 优 点– 语 言 无 关 性– 能 够 处 理 大 规 模 数 据• 缺 点– 难 以 扩 展– 无 法 充 分 利 用 具 体 语 言 特 性– 需 要 启 发 式 策 略 简 化 搜 索 算 法– 需 要 手 工 调 参 数


我 的 工 作• 提 出 了 一 种 词 语 对 齐 的 对 数 线 性 模 型 。该 模 型 首 次 将 判 别 方 法 引 入 词 语 对 齐 ,具 有 良 好 的 可 扩 展 性 。


词 语 对 齐 的 对 数 线 性 模 型模 型 公 式( )Pr a|e,f=∑⎡exp ⎢⎣⎡exp ⎢⎣M∑m=1M∑λa' m=1mλhmmh( a,e,f)m⎤⎥⎦( a',e,f)⎤⎥⎦搜 索 公 式M⎧⎫â = argmaxa ⎨∑λmhm( a,e,f)⎬⎩ m=1⎭


特 征 函 数• IBM 模 型• 词 性 标 记 转 换 模 型• 双 语 词 典• 连 线 计 数• 交 叉 计 数• 词 根 还 原 的 IBM 模 型• 完 全 匹 配


训 练• 目 标 : 在 开 发 集 上 自 动 学 习 特 征 权 重• 方 法– 通 用 迭 代 算 法– 最 小 错 误 率 训 练


搜 索


我 是 一 个 学 生I am a student


我 是 一 个 学 生我 是 一 个 学 生I am a studentI am a student....我 是 一 个 学 生20 条 可 能 的 连 线 !I am a student


我 是 一 个 学 生我 是 一 个 学 生I am a studentI am a student....我 是 一 个 学 生20 条 可 能 的 连 线 !I am a student


我 是 一 个 学 生我 是 一 个 学 生I am a student我 是 一 个 学 生I am a studentI am a student....我 是 一 个 学 生19 条 可 能 的 连 线 !I am a student


我 是 一 个 学 生我 是 一 个 学 生I am a student我 是 一 个 学 生I am a studentI am a student....我 是 一 个 学 生19 条 可 能 的 连 线 !I am a student


我 是 一 个 学 生我 是 一 个 学 生我 是 一 个 学 生…I am a studentI am a studentI am a student


实 验 结 果


对 比特 性可 扩 展 性语 言 无 关 性利 用 具 体 语 言 特 性需 要 手 工 优 化 参 数广 泛 应 用 于 处 理大 规 模 数 据IBM 模 型差支 持不 支 持是是对 数 线 性 模 型好支 持支 持否否


小 结• 论 文 提 出 了 一 种 词 语 对 齐 的 对 数 线 性 模型 。 该 模 型 首 次 将 判 别 方 法 引 入 词 语 对齐 , 具 有 良 好 的 可 扩 展 性 。 实 验 结 果 表明 , 对 数 线 性 模 型 在 对 齐 质 量 上 优 于 其它 模 型 。


提 纲• 引 言• 词 语 对 齐 的 对 数 线 性 模 型• 树 到 串 统 计 翻 译 模 型– 模 型 1– 模 型 2– 模 型 3– 实 验• 总 结


基 于 短 语 的 模 型• 基 于 短 语 的 模 型 是 目 前 统 计 机 器 翻 译 的主 流• 基 本 问 题– 短 语 划 分– 短 语 重 排 序– 短 语 翻 译• 短 语 重 排 序 是 基 于 短 语 的 模 型 中 最 关 键的 部 分


短 语 重 排 序中 国 的 经 济 发 展economic development of China


短 语 重 排 序 方 法• 利 用 句 法 信 息– Xia2004– Collins 2005• 不 利 用 句 法 信 息– Och 2002– Zens 2004– Tillmann 2005– Xiong 2006– Al-Onaizan 2006


我 的 工 作• 提 出 了 嵌 入 句 法 树 的 基 于 短 语 的 翻 译 模型 , 该 模 型 首 次 建 模 上 利 用 句 法 信 息 指导 短 语 重 排 序 。


模 型 1• 嵌 入 句 法 树 的 基 于 短 语 的 翻 译 模 型• 只 使 用 句 法 双 语 短 语 , 利 用 树 节 点 重 排序 ( 简 称 TNR) 执 行 短 语 重 排 序• 从 经 过 词 语 对 齐 和 源 语 言 句 法 分 析 的 双语 语 料 库 上 自 底 向 上 自 动 抽 取 TNR• 自 底 向 上 的 柱 搜 索 算 法


句 法 双 语 短 语NPDNPNPNR DEG NN NN中 国 的 经 济 发 展economicdevelopment of China


TNRNPDNPNPNRDEG


抽 取 TNRNPDNPNPDNPNR DEG NN NN中 国 的 经 济 发 展NRDEGeconomicdevelopment of China


抽 取 TNRNPDNPNPNPNR DEG NN NN中 国 的 经 济 发 展NNNNeconomicdevelopment of China


抽 取 TNRNPDNPNPNPNR DEG NN NN中 国 的 经 济 发 展DNPNPeconomicdevelopment of China


DNP31 2NPNPNR DEG NN NN中 国 的 经 济 发 展764 5搜 索BP中 国China1译 文China


DNP31 2NPNPNR DEG NN NN中 国 的 经 济 发 展764 5搜 索BP的of译 文of12


搜 索DNP3NP7NP6TNRDNP1 24 5NR DEG NN NN中 国 的 经 济 发 展NRDEG译 文of China1 2 3


DNP31 2NPNPNR DEG NN NN中 国 的 经 济 发 展764 5搜 索BP经 济economy1 2 3 4译 文economy


DNP31 2NPNPNR DEG NN NN中 国 的 经 济 发 展764 5搜 索BP发 展development译 文development1 2 3 45


DNP31 2NPNP4 5NR DEG NN NN中 国 的 经 济 发 展76搜 索BP经 济 发 展economic development译 文economic development1 2 3 45 6


搜 索DNP3NP7NP6TNRNP1 24 5NR DEG NN NN中 国 的 经 济 发 展DNPNP译 文economic development of China1 2 3 4 5 6 7


小 结• 论 文 提 出 了 嵌 入 句 法 树 的 基 于 短 语 的 翻译 模 型 , 该 模 型 首 次 建 模 上 利 用 句 法 信息 指 导 短 语 重 排 序 。


提 纲• 引 言• 词 语 对 齐 的 对 数 线 性 模 型• 树 到 串 统 计 翻 译 模 型– 模 型 1– 模 型 2– 模 型 3– 实 验• 总 结


基 于 句 法 的 方 法• 基 于 句 法 的 方 法– 形 式 化 基 于 句 法• SITG– [Wu 1997]• SCFG– [Chiang 2005]– 语 言 学 基 于 句 法• 串 到 树– [Yamada 2001]• 树 到 树– [Ding 2005]• 目 前 大 多 数 基 于 句 法 的 方 法 没 有 在 实 际 评 测 中 明 显 超 过 基 于 短 语的 方 法 , 原 因 可 能 在 于 :– 复 杂 度 过 高– 难 以 处 理 非 同 构 性 问 题


我 的 工 作• 提 出 了 基 于 树 到 串 对 齐 模 板 的 翻 译 模型 。 该 模 型 复 杂 度 低 , 具 备 很 强 的 重 排序 能 力 。


模 型 2• 基 于 树 到 串 对 齐 模 板 的 翻 译 模 型• 树 到 串 对 齐 模 板 ( 简 称 TAT) 既 可 以 生成 终 结 符 也 可 以 生 成 非 终 结 符 , 既 可 以执 行 局 部 重 排 序 也 可 以 执 行 全 局 重 排 序• 从 经 过 词 语 对 齐 和 源 语 言 句 法 分 析 的 双语 语 料 库 上 自 底 向 上 自 动 抽 取 TAT• 自 底 向 上 的 柱 搜 索 算 法


树 到 串 对 齐 模 板NPLCPNPNRNNNPLCDNPNP布 什总 统NR CC NR 间NPDEG美 国和PresidentBushbetween UnitedStates and


抽 TATNPDNP NPNR DEG NN NN中 国 的 经 济 发 展NR中 国Chinaeconomicdevelopment of China


抽 TATNPDNP NPNR DEG NN NN中 国 的 经 济 发 展DEG的ofeconomicdevelopment of China


抽 TATNPDNP NPNR DEG NN NN中 国 的 经 济 发 展NN经 济economiceconomicdevelopment of China


抽 TATNPDNP NPNR DEG NN NN中 国 的 经 济 发 展NN发 展developmenteconomicdevelopment of China


抽 TATNPDNP NPNR DEG NN NN中 国 的 经 济 发 展DNPNR DEG中 国 的of ChinaDNPNR DEGDNPNR DEG的ofDNPNR DEGeconomicdevelopment of China中 国China


抽 TATDNPNPNPNN经 济NPNN发 展NNNPNN发 展NR DEG NN NN中 国 的 经 济 发 展economic developmentNPdevelopmentNPNNNNNNNNeconomicdevelopment of China经 济economic


抽 TATNPDNP NPNR DEG NN NN中 国 的 经 济 发 展DNPNPNPeconomicdevelopment of Chinah=2, c=2


DNP31 2NPNPNR DEG NN NN中 国 的 经 济 发 展764 5搜 索TATNR中 国China1译 文China


DNP31 2NPNPNR DEG NN NN中 国 的 经 济 发 展764 5搜 索TATDEG的of译 文of12


搜 索DNP3NP7NP6TATDNP1 24 5NR DEG NN NN中 国 的 经 济 发 展NRofDEG的译 文of China1 2 3


DNP31 2NPNPNR DEG NN NN中 国 的 经 济 发 展764 5搜 索TATNN经 济economy1 2 3 4译 文economy


DNP31 2NPNPNR DEG NN NN中 国 的 经 济 发 展764 5搜 索TATNN发 展development1 2 3 4 5译 文development


DNP31 2NPNP4 5NR DEG NN NN中 国 的 经 济 发 展76搜 索TATNPNN NN经 济 发 展economicdevelopment译 文economic development1 2 3 45 6


搜 索DNP3NP7NP6TATNP1 24 5NR DEG NN NN中 国 的 经 济 发 展DNPNP译 文economic development of China1 2 3 4 5 6 7


小 结• 论 文 提 出 了 基 于 树 到 串 对 齐 模 板 的 翻 译模 型 。 该 模 型 复 杂 度 低 , 具 备 很 强 的 重排 序 能 力 。


提 纲• 引 言• 词 语 对 齐 的 对 数 线 性 模 型• 树 到 串 统 计 翻 译 模 型– 模 型 1– 模 型 2– 模 型 3– 实 验• 总 结


非 句 法 双 语 短 语NPDNPNPNR DEG NN NN中 国 的 经 济 发 展economicdevelopment of China


Galley 2004NPDNPNPNR DEG NN NN中 国 的 经 济 发 展economicdevelopment of China


Marcu 2006*NPB_*NNNPBDT JJ NNDTthe这JJmutual相 互themutual understandingNPB这 相 互 理 解*NPB*_NNNN


我 的 工 作• 提 出 了 融 入 森 林 到 串 规 则 的 树 到 串 翻 译模 型 , 该 模 型 为 短 语 兼 容 性 问 题 提 供 了良 好 的 解 决 方 案 , 极 大 提 高 了 树 到 串 翻译 模 型 的 表 达 能 力 。


模 型 3• 融 入 森 林 到 串 规 则 的 树 到 串 翻 译 模 型• 在 模 型 2 的 基 础 上 , 模 型 3 引 入 两 类 新 规 则 :– 森 林 到 串 规 则 : 表 达 和 泛 化 非 句 法 双 语 短 语– 辅 助 规 则 : 将 森 林 到 串 规 则 融 入 到 树 到 串 模 型• 从 经 过 词 语 对 齐 和 源 语 言 句 法 分 析 的 双 语 语 料库 上 自 底 向 上 自 动 抽 取 树 到 串 规 则 和 森 林 到 串规 则• 解 码 时 动 态 构 造 辅 助 规 则• 自 底 向 上 的 柱 搜 索 算 法


森 林 规 则 和 辅 助 规 则NPNPDNPNPDEG NN NN的 经 济 发 展NR中 国DEGeconomicdevelopment ofChina


抽 取 算 法


为 什 么 不 抽 取 辅 助 规 则 ?


解 码NPDNPNPNR DEG NN NN中 国 的 经 济 发 展


解 码NPDNPNPNR DEG NN NN中 国 的 经 济 发 展


解 码NPDNPNPNR DEG NN NN中 国 的 经 济 发 展


解 码NPDNPNPNR DEG NN NN中 国 的 经 济 发 展


解 码NPDNPNPNR DEG NN NN中 国 的 经 济 发 展


解 码NPDNPNPNR DEG NN NN中 国 的 经 济 发 展


解 码NPDNPNPNR DEG NN NN中 国 的 经 济 发 展


解 码NPDNPNPNR DEG NN NN中 国 的 经 济 发 展


解 码NPDNPNPNR DEG NN NN中 国 的 经 济 发 展


解 码NPDNPNPNR DEG NN NN中 国 的 经 济 发 展


解 码 算 法


子 跨 度 分 割NPDNP NPNR DEG NN NN中 国 的 经 济 发 展1:41:1 2:41:2 3:41:3 4:41:1 2:2 3:41:1 2:3 4:41:2 3:3 4:41:1 2:2 3:3 4:4


子 跨 度 分 割 搜 索 算 法


构 造 辅 助 规 则NPDNP NPNR DEG NN NN中 国 的 经 济 发 展NPDNP NPNR DEG NN NN


小 结• 提 出 了 融 入 森 林 到 串 规 则 的 树 到 串 翻 译模 型 , 该 模 型 为 短 语 兼 容 性 问 题 提 供 了良 好 的 解 决 方 案 , 极 大 提 高 了 树 到 串 翻译 模 型 的 表 达 能 力 。


提 纲• 引 言• 词 语 对 齐 的 对 数 线 性 模 型• 树 到 串 统 计 翻 译 模 型– 模 型 1– 模 型 2– 模 型 3– 实 验• 总 结


理 论 上 的 对 比特 性模 型 1模 型 2模 型 3规 则TNRTRTR+FR+AR词 汇 化NL+P+NL+P+N短 语 兼 容 性SSS+N复 杂 度低中高


对 比 实 验


模 型 2 在 NIST 评 测 中 的 成 绩


提 纲• 引 言• 词 语 对 齐 的 对 数 线 性 模 型• 树 到 串 统 计 翻 译 模 型– 模 型 1– 模 型 2– 模 型 3– 实 验• 总 结


论 文 的 研 究 成 果 (1)• 论 文 提 出 了 一 种 词 语 对 齐 的 对 数 线 性 模型 。 该 模 型 首 次 将 判 别 方 法 引 入 词 语 对齐 , 具 有 良 好 的 可 扩 展 性 。 实 验 结 果 表明 , 对 数 线 性 模 型 在 对 齐 质 量 上 优 于 其它 模 型 。


论 文 的 研 究 成 果 (2)• 论 文 提 出 了 嵌 入 句 法 树 的 基 于 短 语 的 翻译 模 型 , 该 模 型 首 次 建 模 上 利 用 句 法 信息 指 导 短 语 重 排 序 , 在 翻 译 性 能 上 接 近国 际 上 主 流 的 基 于 短 语 的 翻 译 系 统Pharaoh。


论 文 的 研 究 成 果 (3)• 论 文 提 出 了 基 于 树 到 串 对 齐 模 板 的 翻 译模 型 , 该 模 型 复 杂 性 低 , 具 备 很 强 的 重排 序 能 力 , 在 翻 译 性 能 上 明 显 超 过Pharaoh。


论 文 的 研 究 成 果 (4)• 论 文 提 出 了 融 入 森 林 到 串 规 则 的 树 到 串翻 译 模 型 , 该 模 型 为 短 语 兼 容 性 问 题 提供 了 良 好 的 解 决 方 案 , 极 大 提 高 了 树 到串 翻 译 模 型 的 表 达 能 力 。


下 一 步 工 作• 将 词 语 对 齐 对 数 线 性 模 型 应 用 到 大 规 模数 据 处 理 上 。• 研 究 支 持 多 对 多 对 应 关 系 的 词 语 对 齐 模型 。• 在 大 规 模 数 据 上 考 察 模 型 3 的 翻 译 性 能 。


谢 谢 !

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!