æ å°ä¸²ç»è®¡ç¿»è¯æ¨¡åç 究
æ å°ä¸²ç»è®¡ç¿»è¯æ¨¡åç 究
æ å°ä¸²ç»è®¡ç¿»è¯æ¨¡åç 究
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
博 士 论 文 答 辩 报 告树 到 串 统 计 翻 译 模 型 研 究答 辩 人 : 刘 洋指 导 教 师 : 林 守 勋 研 究 员时 间 :2007 年 6 月 16 日
提 纲• 引 言• 词 语 对 齐 的 对 数 线 性 模 型• 树 到 串 统 计 翻 译 模 型– 模 型 1– 模 型 2– 模 型 3– 实 验• 总 结
MT Strategies (1954-2004)KnowledgeAcquisitionStrategyAll manualElectronicdictionariesHand-built byexpertsOriginal directapproachClassicinterlingualsystemHand-built bynon-expertsTypical transfersystemShallow/ SimpleWord-basedonlyDeep/ ComplexPhrase tablesSyntacticConstituentStructureSemanticanalysisInterlinguaLearn fromannotated dataOriginal statisticalMTExample-basedMTLearn from unannotateddataFully automatedNew ResearchGoes Here!Slide courtesy ofLaurie Gerber
统 计 机 器 翻 译中 间 语 言源 语 言 语 义目 标 语 言 语 义源 语 言 句 法目 标 语 言 句 法源 语 言 形 式 语 法目 标 语 言 形 式 语 法源 语 言 短 语目 标 语 言 短 语源 语 言 词目 标 语 言 词
统 计 机 器 翻 译中 间 语 言Brown 1993源 语 言 语 义目 标 语 言 语 义源 语 言 句 法目 标 语 言 句 法源 语 言 形 式 语 法目 标 语 言 形 式 语 法源 语 言 短 语目 标 语 言 短 语源 语 言 词目 标 语 言 词
统 计 机 器 翻 译中 间 语 言Och 1999; Koehn 2003源 语 言 语 义目 标 语 言 语 义源 语 言 句 法目 标 语 言 句 法源 语 言 形 式 语 法目 标 语 言 形 式 语 法源 语 言 短 语目 标 语 言 短 语源 语 言 词目 标 语 言 词
统 计 机 器 翻 译中 间 语 言Wu 1997; Chiang 2005源 语 言 语 义目 标 语 言 语 义源 语 言 句 法目 标 语 言 句 法源 语 言 形 式 语 法目 标 语 言 形 式 语 法源 语 言 短 语目 标 语 言 短 语源 语 言 词目 标 语 言 词
统 计 机 器 翻 译中 间 语 言Yamada 2001; Galley 2006源 语 言 语 义目 标 语 言 语 义源 语 言 句 法目 标 语 言 句 法源 语 言 形 式 语 法目 标 语 言 形 式 语 法源 语 言 短 语目 标 语 言 短 语源 语 言 词目 标 语 言 词
统 计 机 器 翻 译中 间 语 言Ding 2005; Quirk 2005源 语 言 语 义目 标 语 言 语 义源 语 言 句 法目 标 语 言 句 法源 语 言 形 式 语 法目 标 语 言 形 式 语 法源 语 言 短 语目 标 语 言 短 语源 语 言 词目 标 语 言 词
统 计 机 器 翻 译中 间 语 言Liu 2006; Liu 2007源 语 言 语 义目 标 语 言 语 义源 语 言 句 法目 标 语 言 句 法源 语 言 形 式 语 法目 标 语 言 形 式 语 法源 语 言 短 语目 标 语 言 短 语源 语 言 词目 标 语 言 词
词 语 对 齐中 国 的 经 济 发 展economic development of China• 词 语 对 齐 是 统 计 机 器 翻 译 中 最 重 要 的 一种 语 料 库 标 注
研 究 内 容• 词 语 对 齐 的 对 数 线 性 模 型• 树 到 串 统 计 翻 译 模 型– 嵌 入 句 法 树 的 基 于 短 语 的 翻 译 模 型 ( 模 型1)– 基 于 树 到 串 对 齐 模 板 的 翻 译 模 型 ( 模 型 2)– 融 入 森 林 到 串 规 则 的 树 到 串 翻 译 模 型 ( 模 型3)
提 纲• 引 言• 词 语 对 齐 的 对 数 线 性 模 型• 树 到 串 统 计 翻 译 模 型– 模 型 1– 模 型 2– 模 型 3– 实 验• 总 结
词 语 对 齐 主 要 方 法Blunsom 2006Och 2003Liu 2005Fraser 2006Brown 1993 Vogel 1996Cherry 2003Moore 2005Liang 2006Ker 1997 Melamed 2000Tiedemann 2003Taskar 2005Lacoste-Julien 2006
IBM 模 型 的 特 点• 优 点– 语 言 无 关 性– 能 够 处 理 大 规 模 数 据• 缺 点– 难 以 扩 展– 无 法 充 分 利 用 具 体 语 言 特 性– 需 要 启 发 式 策 略 简 化 搜 索 算 法– 需 要 手 工 调 参 数
我 的 工 作• 提 出 了 一 种 词 语 对 齐 的 对 数 线 性 模 型 。该 模 型 首 次 将 判 别 方 法 引 入 词 语 对 齐 ,具 有 良 好 的 可 扩 展 性 。
词 语 对 齐 的 对 数 线 性 模 型模 型 公 式( )Pr a|e,f=∑⎡exp ⎢⎣⎡exp ⎢⎣M∑m=1M∑λa' m=1mλhmmh( a,e,f)m⎤⎥⎦( a',e,f)⎤⎥⎦搜 索 公 式M⎧⎫â = argmaxa ⎨∑λmhm( a,e,f)⎬⎩ m=1⎭
特 征 函 数• IBM 模 型• 词 性 标 记 转 换 模 型• 双 语 词 典• 连 线 计 数• 交 叉 计 数• 词 根 还 原 的 IBM 模 型• 完 全 匹 配
训 练• 目 标 : 在 开 发 集 上 自 动 学 习 特 征 权 重• 方 法– 通 用 迭 代 算 法– 最 小 错 误 率 训 练
搜 索
我 是 一 个 学 生I am a student
我 是 一 个 学 生我 是 一 个 学 生I am a studentI am a student....我 是 一 个 学 生20 条 可 能 的 连 线 !I am a student
我 是 一 个 学 生我 是 一 个 学 生I am a studentI am a student....我 是 一 个 学 生20 条 可 能 的 连 线 !I am a student
我 是 一 个 学 生我 是 一 个 学 生I am a student我 是 一 个 学 生I am a studentI am a student....我 是 一 个 学 生19 条 可 能 的 连 线 !I am a student
我 是 一 个 学 生我 是 一 个 学 生I am a student我 是 一 个 学 生I am a studentI am a student....我 是 一 个 学 生19 条 可 能 的 连 线 !I am a student
我 是 一 个 学 生我 是 一 个 学 生我 是 一 个 学 生…I am a studentI am a studentI am a student
实 验 结 果
对 比特 性可 扩 展 性语 言 无 关 性利 用 具 体 语 言 特 性需 要 手 工 优 化 参 数广 泛 应 用 于 处 理大 规 模 数 据IBM 模 型差支 持不 支 持是是对 数 线 性 模 型好支 持支 持否否
小 结• 论 文 提 出 了 一 种 词 语 对 齐 的 对 数 线 性 模型 。 该 模 型 首 次 将 判 别 方 法 引 入 词 语 对齐 , 具 有 良 好 的 可 扩 展 性 。 实 验 结 果 表明 , 对 数 线 性 模 型 在 对 齐 质 量 上 优 于 其它 模 型 。
提 纲• 引 言• 词 语 对 齐 的 对 数 线 性 模 型• 树 到 串 统 计 翻 译 模 型– 模 型 1– 模 型 2– 模 型 3– 实 验• 总 结
基 于 短 语 的 模 型• 基 于 短 语 的 模 型 是 目 前 统 计 机 器 翻 译 的主 流• 基 本 问 题– 短 语 划 分– 短 语 重 排 序– 短 语 翻 译• 短 语 重 排 序 是 基 于 短 语 的 模 型 中 最 关 键的 部 分
短 语 重 排 序中 国 的 经 济 发 展economic development of China
短 语 重 排 序 方 法• 利 用 句 法 信 息– Xia2004– Collins 2005• 不 利 用 句 法 信 息– Och 2002– Zens 2004– Tillmann 2005– Xiong 2006– Al-Onaizan 2006
我 的 工 作• 提 出 了 嵌 入 句 法 树 的 基 于 短 语 的 翻 译 模型 , 该 模 型 首 次 建 模 上 利 用 句 法 信 息 指导 短 语 重 排 序 。
模 型 1• 嵌 入 句 法 树 的 基 于 短 语 的 翻 译 模 型• 只 使 用 句 法 双 语 短 语 , 利 用 树 节 点 重 排序 ( 简 称 TNR) 执 行 短 语 重 排 序• 从 经 过 词 语 对 齐 和 源 语 言 句 法 分 析 的 双语 语 料 库 上 自 底 向 上 自 动 抽 取 TNR• 自 底 向 上 的 柱 搜 索 算 法
句 法 双 语 短 语NPDNPNPNR DEG NN NN中 国 的 经 济 发 展economicdevelopment of China
TNRNPDNPNPNRDEG
抽 取 TNRNPDNPNPDNPNR DEG NN NN中 国 的 经 济 发 展NRDEGeconomicdevelopment of China
抽 取 TNRNPDNPNPNPNR DEG NN NN中 国 的 经 济 发 展NNNNeconomicdevelopment of China
抽 取 TNRNPDNPNPNPNR DEG NN NN中 国 的 经 济 发 展DNPNPeconomicdevelopment of China
DNP31 2NPNPNR DEG NN NN中 国 的 经 济 发 展764 5搜 索BP中 国China1译 文China
DNP31 2NPNPNR DEG NN NN中 国 的 经 济 发 展764 5搜 索BP的of译 文of12
搜 索DNP3NP7NP6TNRDNP1 24 5NR DEG NN NN中 国 的 经 济 发 展NRDEG译 文of China1 2 3
DNP31 2NPNPNR DEG NN NN中 国 的 经 济 发 展764 5搜 索BP经 济economy1 2 3 4译 文economy
DNP31 2NPNPNR DEG NN NN中 国 的 经 济 发 展764 5搜 索BP发 展development译 文development1 2 3 45
DNP31 2NPNP4 5NR DEG NN NN中 国 的 经 济 发 展76搜 索BP经 济 发 展economic development译 文economic development1 2 3 45 6
搜 索DNP3NP7NP6TNRNP1 24 5NR DEG NN NN中 国 的 经 济 发 展DNPNP译 文economic development of China1 2 3 4 5 6 7
小 结• 论 文 提 出 了 嵌 入 句 法 树 的 基 于 短 语 的 翻译 模 型 , 该 模 型 首 次 建 模 上 利 用 句 法 信息 指 导 短 语 重 排 序 。
提 纲• 引 言• 词 语 对 齐 的 对 数 线 性 模 型• 树 到 串 统 计 翻 译 模 型– 模 型 1– 模 型 2– 模 型 3– 实 验• 总 结
基 于 句 法 的 方 法• 基 于 句 法 的 方 法– 形 式 化 基 于 句 法• SITG– [Wu 1997]• SCFG– [Chiang 2005]– 语 言 学 基 于 句 法• 串 到 树– [Yamada 2001]• 树 到 树– [Ding 2005]• 目 前 大 多 数 基 于 句 法 的 方 法 没 有 在 实 际 评 测 中 明 显 超 过 基 于 短 语的 方 法 , 原 因 可 能 在 于 :– 复 杂 度 过 高– 难 以 处 理 非 同 构 性 问 题
我 的 工 作• 提 出 了 基 于 树 到 串 对 齐 模 板 的 翻 译 模型 。 该 模 型 复 杂 度 低 , 具 备 很 强 的 重 排序 能 力 。
模 型 2• 基 于 树 到 串 对 齐 模 板 的 翻 译 模 型• 树 到 串 对 齐 模 板 ( 简 称 TAT) 既 可 以 生成 终 结 符 也 可 以 生 成 非 终 结 符 , 既 可 以执 行 局 部 重 排 序 也 可 以 执 行 全 局 重 排 序• 从 经 过 词 语 对 齐 和 源 语 言 句 法 分 析 的 双语 语 料 库 上 自 底 向 上 自 动 抽 取 TAT• 自 底 向 上 的 柱 搜 索 算 法
树 到 串 对 齐 模 板NPLCPNPNRNNNPLCDNPNP布 什总 统NR CC NR 间NPDEG美 国和PresidentBushbetween UnitedStates and
抽 TATNPDNP NPNR DEG NN NN中 国 的 经 济 发 展NR中 国Chinaeconomicdevelopment of China
抽 TATNPDNP NPNR DEG NN NN中 国 的 经 济 发 展DEG的ofeconomicdevelopment of China
抽 TATNPDNP NPNR DEG NN NN中 国 的 经 济 发 展NN经 济economiceconomicdevelopment of China
抽 TATNPDNP NPNR DEG NN NN中 国 的 经 济 发 展NN发 展developmenteconomicdevelopment of China
抽 TATNPDNP NPNR DEG NN NN中 国 的 经 济 发 展DNPNR DEG中 国 的of ChinaDNPNR DEGDNPNR DEG的ofDNPNR DEGeconomicdevelopment of China中 国China
抽 TATDNPNPNPNN经 济NPNN发 展NNNPNN发 展NR DEG NN NN中 国 的 经 济 发 展economic developmentNPdevelopmentNPNNNNNNNNeconomicdevelopment of China经 济economic
抽 TATNPDNP NPNR DEG NN NN中 国 的 经 济 发 展DNPNPNPeconomicdevelopment of Chinah=2, c=2
DNP31 2NPNPNR DEG NN NN中 国 的 经 济 发 展764 5搜 索TATNR中 国China1译 文China
DNP31 2NPNPNR DEG NN NN中 国 的 经 济 发 展764 5搜 索TATDEG的of译 文of12
搜 索DNP3NP7NP6TATDNP1 24 5NR DEG NN NN中 国 的 经 济 发 展NRofDEG的译 文of China1 2 3
DNP31 2NPNPNR DEG NN NN中 国 的 经 济 发 展764 5搜 索TATNN经 济economy1 2 3 4译 文economy
DNP31 2NPNPNR DEG NN NN中 国 的 经 济 发 展764 5搜 索TATNN发 展development1 2 3 4 5译 文development
DNP31 2NPNP4 5NR DEG NN NN中 国 的 经 济 发 展76搜 索TATNPNN NN经 济 发 展economicdevelopment译 文economic development1 2 3 45 6
搜 索DNP3NP7NP6TATNP1 24 5NR DEG NN NN中 国 的 经 济 发 展DNPNP译 文economic development of China1 2 3 4 5 6 7
小 结• 论 文 提 出 了 基 于 树 到 串 对 齐 模 板 的 翻 译模 型 。 该 模 型 复 杂 度 低 , 具 备 很 强 的 重排 序 能 力 。
提 纲• 引 言• 词 语 对 齐 的 对 数 线 性 模 型• 树 到 串 统 计 翻 译 模 型– 模 型 1– 模 型 2– 模 型 3– 实 验• 总 结
非 句 法 双 语 短 语NPDNPNPNR DEG NN NN中 国 的 经 济 发 展economicdevelopment of China
Galley 2004NPDNPNPNR DEG NN NN中 国 的 经 济 发 展economicdevelopment of China
Marcu 2006*NPB_*NNNPBDT JJ NNDTthe这JJmutual相 互themutual understandingNPB这 相 互 理 解*NPB*_NNNN
我 的 工 作• 提 出 了 融 入 森 林 到 串 规 则 的 树 到 串 翻 译模 型 , 该 模 型 为 短 语 兼 容 性 问 题 提 供 了良 好 的 解 决 方 案 , 极 大 提 高 了 树 到 串 翻译 模 型 的 表 达 能 力 。
模 型 3• 融 入 森 林 到 串 规 则 的 树 到 串 翻 译 模 型• 在 模 型 2 的 基 础 上 , 模 型 3 引 入 两 类 新 规 则 :– 森 林 到 串 规 则 : 表 达 和 泛 化 非 句 法 双 语 短 语– 辅 助 规 则 : 将 森 林 到 串 规 则 融 入 到 树 到 串 模 型• 从 经 过 词 语 对 齐 和 源 语 言 句 法 分 析 的 双 语 语 料库 上 自 底 向 上 自 动 抽 取 树 到 串 规 则 和 森 林 到 串规 则• 解 码 时 动 态 构 造 辅 助 规 则• 自 底 向 上 的 柱 搜 索 算 法
森 林 规 则 和 辅 助 规 则NPNPDNPNPDEG NN NN的 经 济 发 展NR中 国DEGeconomicdevelopment ofChina
抽 取 算 法
为 什 么 不 抽 取 辅 助 规 则 ?
解 码NPDNPNPNR DEG NN NN中 国 的 经 济 发 展
解 码NPDNPNPNR DEG NN NN中 国 的 经 济 发 展
解 码NPDNPNPNR DEG NN NN中 国 的 经 济 发 展
解 码NPDNPNPNR DEG NN NN中 国 的 经 济 发 展
解 码NPDNPNPNR DEG NN NN中 国 的 经 济 发 展
解 码NPDNPNPNR DEG NN NN中 国 的 经 济 发 展
解 码NPDNPNPNR DEG NN NN中 国 的 经 济 发 展
解 码NPDNPNPNR DEG NN NN中 国 的 经 济 发 展
解 码NPDNPNPNR DEG NN NN中 国 的 经 济 发 展
解 码NPDNPNPNR DEG NN NN中 国 的 经 济 发 展
解 码 算 法
子 跨 度 分 割NPDNP NPNR DEG NN NN中 国 的 经 济 发 展1:41:1 2:41:2 3:41:3 4:41:1 2:2 3:41:1 2:3 4:41:2 3:3 4:41:1 2:2 3:3 4:4
子 跨 度 分 割 搜 索 算 法
构 造 辅 助 规 则NPDNP NPNR DEG NN NN中 国 的 经 济 发 展NPDNP NPNR DEG NN NN
小 结• 提 出 了 融 入 森 林 到 串 规 则 的 树 到 串 翻 译模 型 , 该 模 型 为 短 语 兼 容 性 问 题 提 供 了良 好 的 解 决 方 案 , 极 大 提 高 了 树 到 串 翻译 模 型 的 表 达 能 力 。
提 纲• 引 言• 词 语 对 齐 的 对 数 线 性 模 型• 树 到 串 统 计 翻 译 模 型– 模 型 1– 模 型 2– 模 型 3– 实 验• 总 结
理 论 上 的 对 比特 性模 型 1模 型 2模 型 3规 则TNRTRTR+FR+AR词 汇 化NL+P+NL+P+N短 语 兼 容 性SSS+N复 杂 度低中高
对 比 实 验
模 型 2 在 NIST 评 测 中 的 成 绩
提 纲• 引 言• 词 语 对 齐 的 对 数 线 性 模 型• 树 到 串 统 计 翻 译 模 型– 模 型 1– 模 型 2– 模 型 3– 实 验• 总 结
论 文 的 研 究 成 果 (1)• 论 文 提 出 了 一 种 词 语 对 齐 的 对 数 线 性 模型 。 该 模 型 首 次 将 判 别 方 法 引 入 词 语 对齐 , 具 有 良 好 的 可 扩 展 性 。 实 验 结 果 表明 , 对 数 线 性 模 型 在 对 齐 质 量 上 优 于 其它 模 型 。
论 文 的 研 究 成 果 (2)• 论 文 提 出 了 嵌 入 句 法 树 的 基 于 短 语 的 翻译 模 型 , 该 模 型 首 次 建 模 上 利 用 句 法 信息 指 导 短 语 重 排 序 , 在 翻 译 性 能 上 接 近国 际 上 主 流 的 基 于 短 语 的 翻 译 系 统Pharaoh。
论 文 的 研 究 成 果 (3)• 论 文 提 出 了 基 于 树 到 串 对 齐 模 板 的 翻 译模 型 , 该 模 型 复 杂 性 低 , 具 备 很 强 的 重排 序 能 力 , 在 翻 译 性 能 上 明 显 超 过Pharaoh。
论 文 的 研 究 成 果 (4)• 论 文 提 出 了 融 入 森 林 到 串 规 则 的 树 到 串翻 译 模 型 , 该 模 型 为 短 语 兼 容 性 问 题 提供 了 良 好 的 解 决 方 案 , 极 大 提 高 了 树 到串 翻 译 模 型 的 表 达 能 力 。
下 一 步 工 作• 将 词 语 对 齐 对 数 线 性 模 型 应 用 到 大 规 模数 据 处 理 上 。• 研 究 支 持 多 对 多 对 应 关 系 的 词 语 对 齐 模型 。• 在 大 规 模 数 据 上 考 察 模 型 3 的 翻 译 性 能 。
谢 谢 !