12.07.2015 Views

实体关系抽取的技术方法综述

实体关系抽取的技术方法综述

实体关系抽取的技术方法综述

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

总 第 168 期 2008 年第 8 期不 同 的 研 究 者 对 关 系 抽 取 任 务 的 表 述 不 尽 相 同 。[1]AlexanderSchutz 等 人 认 为 关 系 抽 取 是 自 动 识 别 由 一对 概 念 和 联 系 这 对 概 念 的 关 系 构 成 的 相 关 三 元 组 。[2]SophiaKatrenko 等 人 则 从 关 系 抽 取 的 基 本 过 程 角 度对 关 系 抽 取 进 行 了 界 定 。 他 们 认 为 , 关 系 抽 取 可 以 看作 是 具 有 两 个 步 骤 的 过 程 , 即 : 识 别 存 在 关 系 的 证 据 和[3]检 查 是 否 存 在 关 系 。 维 基 百 科 对 关 系 抽 取 的 解 释是 , 关 系 抽 取 是 在 自 然 语 言 处 理 过 程 中 抽 取 文 本 中 实体 间 命 名 关 系 的 任 务 。 抽 取 的 实 体 间 关 系 能 够 通 过 各种 形 式 / 语 言 来 表 达 。 其 中 一 种 对 网 络 上 数 据 进 行 表达 的 语 言 是 RDF。 能 用 到 这 些 关 系 的 应 用 领 域 包 括 基因 - 疾 病 关 系 , 蛋 白 质 相 互 作 用 等 。 而 作 为 关 系 抽 取权 威 评 测 会 议 的 ACE(AutomaticContentExtraction) [4]将 关 系 抽 取 任 务 表 述 为 : 探 测 和 识 别 文 档 中 特 定 类 型的 关 系 , 并 对 这 些 抽 取 出 的 关 系 进 行 规 范 化 表 示 。 这些 关 系 中 , 有 些 对 实 体 出 现 顺 序 敏 感 , 有 些 对 实 体 出 现顺 序 不 敏 感 。ACE08 [5] 在 以 前 的 关 系 抽 取 评 测 任 务 基础 上 新 增 加 了 跨 文 档 关 系 抽 取 任 务 。 跨 文 档 关 系 抽 取扩 展 了 文 档 内 关 系 抽 取 任 务 , 主 要 用 来 发 现 全 局 实 体间 的 关 系 。关 系 抽 取 技 术 在 很 多 领 域 具 有 应 用 价 值 。 在 自 动问 答 系 统 中 , 关 系 抽 取 自 动 关 联 相 关 问 题 和 答 案 ; 在 检索 系 统 中 , 关 系 抽 取 使 类 似 于 “ 北 京 有 哪 些 公 司 ?” 这样 的 语 义 检 索 功 能 的 实 现 成 为 可 能 ; 在 本 体 学 习 过 程中 , 关 系 抽 取 能 够 发 现 新 的 实 体 间 关 系 来 丰 富 本 体 结构 ; 在 语 义 网 标 注 任 务 中 , 关 系 抽 取 能 够 自 动 关 联 语 义网 知 识 单 元 。2 关 系 抽 取 研 究 的 发 展关 系 抽 取 研 究 的 发 展 是 以 MUC(MesageUnderstandingConference) 评 测 会 议 和 后 来 取 代 MUC 的 ACE(AutomaticContentExtraction) 评 测 会 议 为 主 线 进 行 的 。在 这 两 个 会 议 上 , 多 种 先 进 的 信 息 抽 取 方 法 被 提 出 来 ,在 会 议 提 供 的 数 据 平 台 上 进 行 测 试 , 并 组 织 与 会 者 进行 讨 论 。 基 本 上 每 年 一 次 的 评 测 会 议 为 关 系 抽 取 的 发展 起 到 了 引 导 和 推 动 作 用 。关 系 抽 取 任 务 最 初 是 由 美 国 国 防 高 级 研 究 计 划 委员 会 (DefenseAdvancedResearchProjectsAgency,DARPA) 资 助 的 MUC 会 议 于 1998 年 MUC-7 上 首 次 正 式提 出 [6] 。MUC 的 显 著 特 点 并 不 是 会 议 本 身 , 而 在 于 对信 息 抽 取 系 统 的 评 测 。 只 有 参 加 信 息 抽 取 系 统 评 测 的单 位 才 被 允 许 参 加 MUC 会 议 。 在 每 次 MUC 会 议 前 ,组 织 者 首 先 向 各 参 加 者 提 供 样 例 消 息 文 本 和 有 关 抽 取任 务 的 说 明 , 然 后 各 参 加 者 开 发 能 够 处 理 这 种 消 息 文本 的 信 息 抽 取 系 统 。 在 正 式 会 议 前 , 各 参 加 者 运 行 各自 的 系 统 处 理 给 定 的 测 试 消 息 文 本 集 合 。 由 各 个 系 统的 输 出 结 果 与 手 工 标 注 的 标 准 结 果 相 对 照 得 到 最 终 的评 测 结 果 。 最 后 才 是 所 谓 的 会 议 , 由 参 与 者 交 流 思 想和 感 受 。 这 种 评 测 驱 动 的 会 议 模 式 被 证 明 是 行 之 有 效的 , 对 信 息 抽 取 的 发 展 起 到 了 推 动 作 用 。MUC 主 要 关注 于 包 括 自 由 文 本 分 析 、 识 别 命 名 实 体 、 识 别 特 定 类 型的 关 系 等 一 系 列 信 息 抽 取 任 务 。 在 MUC-7 之 后 ,MUC 被 由 NIST 引 导 的 ACE(AutomaticContentExtraction) [7] 评 测 所 取 代 。美 国 国 家 标 准 技 术 研 究 院 (NIST) 组 织 的 ACE 评测 从 1999 年 开 始 继 续 进 行 信 息 抽 取 方 面 的 评 测 。ACE 评 测 1999 年 7 月 开 始 酝 酿 ,2000 年 12 月 正 式 开始 启 动 , 迄 今 已 经 举 办 过 8 次 评 测 , 最 近 正 在 进 行 第 9次 评 测 (2008 年 5 月 )。ACE08 [8] 所 提 出 的 任 务 包 括 :单 文 档 内 实 体 探 测 和 识 别 以 及 关 系 探 测 和 识 别 ; 跨 文档 实 体 探 测 和 识 别 以 及 关 系 探 测 和 识 别 。 文 档 语 种 有英 语 和 阿 拉 伯 语 两 种 。 在 MUC 和 ACE 的 促 进 下 , 关系 抽 取 技 术 取 得 了 较 大 进 步 , 研 究 热 点 已 从 最 初 的 语言 学 单 纯 模 型 的 应 用 发 展 到 使 用 浅 解 析 器 或 完 全 解 析器 的 NLP 技 术 的 应 用 和 复 杂 机 器 学 习 方 法 的 应 用 , 而关 系 抽 取 性 能 也 有 了 大 幅 提 升 。国 内 信 息 抽 取 方 面 的 研 究 虽 然 起 步 较 晚 , 但 目 前也 已 经 在 关 系 抽 取 方 面 做 出 了 一 些 卓 有 成 效 的 工 作 。[9]邓 擘 等 人 在 使 用 模 式 匹 配 技 术 的 基 础 上 引 入 了 词 汇语 义 匹 配 技 术 对 汉 语 实 体 关 系 进 行 抽 取 , 并 比 较 了 一般 模 式 匹 配 技 术 和 词 汇 语 义 模 式 匹 配 技 术 在 汉 语 实 体关 系 提 取 任 务 中 的 性 能 。 他 们 的 实 验 结 果 表 明 , 一 般模 式 匹 配 技 术 在 处 理 中 文 时 效 果 较 差 , 而 词 汇 语 义 模式 匹 配 技 术 更 适 合 于 处 理 汉 语 实 体 关 系 抽 取 任 务 。 姜[10]吉 发 等 人 提 出 了 一 种 自 举 的 二 元 关 系 和 二 元 关 系模 式 获 取 方 法 BRPAM, 该 方 法 能 够 根 据 用 户 初 始 给 出的 几 个 种 子 二 元 关 系 从 一 个 大 的 自 由 文 本 集 合 中 抽 取[11]出 更 多 的 二 元 关 系 。 顾 雪 峰 针 对 文 本 特 征 粒 度 对实 体 关 系 识 别 结 果 影 响 较 大 这 一 问 题 , 应 用 动 态 粒 度思 想 , 对 识 别 特 征 进 行 逐 步 细 化 , 构 建 了 一 个 具 有 偏 序XIANDAITUSHUQINGBAOJISHU 19


专题关 系 的 特 征 族 来 进 行 关 系 抽 取 , 取 得 了 较 好 的 效 果 。[12]刘 克 彬 等 人 实 现 了 基 于 核 函 数 的 中 文 实 体 关 系 自动 抽 取 系 统 , 应 用 改 进 的 语 义 序 列 核 函 数 , 结 合 KNN机 器 学 习 算 法 构 造 分 类 器 来 分 类 并 标 注 关 系 的 类 型 。通 过 对 ACE 评 测 定 义 的 3 大 类 6 子 类 实 体 关 系 的 抽[13]取 , 关 系 抽 取 的 平 均 精 度 达 到 了 88%。 车 万 翔 等 人以 2004 年 ACE 评 测 训 练 数 据 作 为 实 验 数 据 , 使 用 两种 基 于 特 征 向 量 的 机 器 学 习 算 法 Winnow 和 SVM 进 行实 体 关 系 抽 取 , 并 指 出 在 关 系 抽 取 时 , 应 当 集 中 尽 力 寻找 好 的 特 征 。Intel 中 国 研 究 中 心 的 ZHANGYi-Min[14]和 ZHOUJoeF 等 人 在 ACL-2000 上 演 示 了 他 们 开发 的 一 个 抽 取 中 文 命 名 实 体 以 及 这 些 实 体 间 相 互 关 系的 信 息 抽 取 系 统 , 该 系 统 利 用 基 于 记 忆 的 学 习 (Memory-BasedLearning,MBL) 算 法 获 取 规 则 用 以 抽 取 命 名实 体 及 它 们 之 间 的 关 系 。3 关 系 抽 取 面 临 的 困 难成 功 的 关 系 抽 取 取 决 于 正 确 探 测 实 体 , 正 确 判 断实 体 类 型 , 以 及 正 确 判 断 实 体 间 关 系 的 类 型 。 目 前 对于 命 名 实 体 的 探 测 以 及 实 体 类 型 的 判 断 技 术 已 经 相 对成 熟 , 其 准 确 率 和 召 回 率 一 般 都 能 达 到 90% 以 上 。 因此 能 否 正 确 判 断 实 体 间 关 系 的 类 型 成 为 影 响 关 系 抽 取最 终 性 能 的 决 定 性 因 素 。 一 个 比 较 完 整 的 关 系 抽 取 系统 应 包 括 依 次 相 连 的 5 个 模 块 :NLP 处 理 和 实 体 抽 取 、模 式 匹 配 或 分 类 、 共 指 消 解 、 新 关 系 处 理 以 及 规 范 化 输出 。 在 这 个 抽 取 过 程 中 面 临 的 困 难 基 本 上 可 以 归 纳 为以 下 3 个 方 面 :(1) 特 定 领 域 标 引 数 据 集 的 获 取 。 关 系 抽 取 核 心部 分 多 采 用 基 于 模 式 匹 配 和 基 于 机 器 学 习 的 算 法 来 判断 关 系 是 否 存 在 以 及 关 系 的 类 型 , 而 使 用 这 些 算 法 的先 决 条 件 是 需 要 预 先 通 过 对 一 个 特 定 领 域 手 工 标 引 的数 据 集 进 行 学 习 以 获 取 领 域 内 关 系 类 型 的 各 项 特 征 。此 外 , 这 些 用 于 学 习 的 数 据 集 的 大 小 和 标 引 质 量 都 会影 响 到 关 系 抽 取 的 效 果 。 已 标 引 数 据 集 通 常 是 通 过 手工 标 引 获 得 的 , 这 使 得 特 定 领 域 标 引 数 据 集 的 获 取 比较 困 难 。 针 对 这 个 问 题 , 一 些 学 者 已 经 提 出 在 关 系 抽取 过 程 中 尽 量 引 入 领 域 Ontology、 领 域 词 表 以 及 WordNet 等 资 源 来 减 少 关 系 抽 取 对 已 标 引 数 据 集 的 依 赖 性 。此 外 , 学 习 算 法 的 不 断 改 进 也 能 够 减 少 学 习 过 程 中 所需 的 已 标 引 数 据 量 。(2) 模 式 的 获 取 。 基 于 模 式 匹 配 原 理 的 关 系 抽 取方 法 在 很 多 关 系 抽 取 系 统 中 得 到 了 应 用 。 然 而 , 定 制特 定 领 域 的 恰 当 的 关 系 模 式 存 在 较 大 困 难 。 在 以 手 工方 式 编 制 模 式 过 程 中 , 用 户 必 须 首 先 确 定 给 定 文 集 中所 有 的 目 标 信 息 表 达 方 式 , 然 后 考 虑 所 有 的 那 些 表 达方 式 中 的 变 量 , 最 后 写 出 恰 当 的 规 则 模 式 。 为 了 使 模式 编 制 过 程 能 够 更 加 方 便 , 有 学 者 提 出 了 基 于 宏 的 模式 编 写 方 式 , 即 给 定 若 干 具 有 特 定 变 量 集 的 宏 , 当 编 写领 域 相 关 模 式 时 , 只 要 按 需 要 设 置 宏 中 的 某 些 变 量 , 就可 以 自 动 生 成 大 量 相 关 模 式 。 另 外 , 借 助 于 先 进 算 法的 自 动 模 式 获 取 方 法 也 被 应 用 到 很 多 系 统 中 。(3) 共 指 消 解 。 一 个 命 名 实 体 在 文 本 中 可 能 出 现多 次 , 其 表 现 形 式 也 可 能 不 同 ( 例 如 代 名 词 、 反 身 代 词 、名 词 性 时 间 表 述 等 ), 因 此 实 体 间 的 关 系 经 常 被 重 复 探测 到 。 这 些 指 向 相 同 实 体 间 关 系 的 关 系 实 例 需 要 进 行合 并 。 在 目 前 的 关 系 抽 取 系 统 中 , 一 般 使 用 首 语 重 复法 (Anaphors) 来 解 决 共 指 消 解 问 题 。 通 过 首 语 重 复法 , 相 关 联 的 实 体 被 合 并 , 并 在 候 选 短 语 表 中 选 择 一 个最 恰 当 的 表 达 形 式 。4 关 系 抽 取 的 几 种 技 术 方 法针 对 关 系 抽 取 过 程 中 的 难 题 , 信 息 抽 取 领 域 的 学者 们 进 行 了 长 期 探 索 和 不 懈 努 力 。 到 目 前 为 止 , 已 经有 许 多 关 系 抽 取 方 法 被 应 用 在 各 种 实 验 系 统 当 中 。 这些 方 法 所 遵 循 的 技 术 方 法 基 本 可 以 归 纳 为 : 基 于 模 式匹 配 的 关 系 抽 取 、 基 于 词 典 驱 动 的 关 系 抽 取 、 基 于 机 器学 习 的 关 系 抽 取 、 基 于 Ontology 的 关 系 抽 取 以 及 混 合抽 取 方 法 。4.1 基 于 模 式 匹 配 的 关 系 抽 取在 关 系 抽 取 研 究 领 域 , 普 遍 使 用 基 于 模 式 匹 配 的关 系 抽 取 方 法 。 这 种 抽 取 方 法 通 过 运 用 语 言 学 知 识 ,在 执 行 抽 取 任 务 之 前 , 构 造 出 若 干 基 于 语 词 、 基 于 词 性或 基 于 语 义 的 模 式 集 合 并 存 储 起 来 。 当 进 行 关 系 抽 取时 , 将 经 过 预 处 理 的 语 句 片 段 与 模 式 集 合 中 的 模 式 进行 匹 配 。 一 旦 匹 配 成 功 , 就 可 以 认 为 该 语 句 片 段 具 有对 应 模 式 的 关 系 属 性 。在 应 用 基 于 模 式 匹 配 的 关 系 抽 取 方 法 时 , 最 困 难的 步 骤 是 关 系 模 式 的 建 立 。 最 初 关 系 模 式 的 建 立 需 要依 靠 语 言 学 家 对 抽 取 任 务 涉 及 的 领 域 语 料 进 行 深 入 分析 , 借 鉴 已 有 语 言 学 成 果 , 穷 举 各 种 可 能 的 关 系 表 达 ,20 现 代 图 书 情 报 技 术


总 第 168 期 2008 年第 8 期手 工 编 制 关 系 模 式 。 这 样 的 方 法 一 方 面 使 编 制 模 式 的周 期 太 长 , 应 用 成 本 很 高 ; 另 一 方 面 , 当 抽 取 系 统 被 用来 进 行 新 领 域 的 关 系 抽 取 时 , 就 需 要 语 言 学 家 根 据 新的 领 域 抽 取 特 点 重 新 编 制 关 系 模 式 , 这 在 现 实 应 用 中实 现 起 来 非 常 困 难 。 针 对 这 一 问 题 , 一 些 学 者 提 出 了不 同 的 解 决 思 路 。[15]DouglasE.Appelt 等 人 在 MUC-6 上 提 出 的FASTUS 抽 取 系 统 中 , 通 过 引 入 “ 宏 ” 的 概 念 将 各 种 领域 依 赖 规 则 以 一 种 具 有 扩 展 性 的 、 通 用 方 式 表 达 。 用户 只 需 要 修 改 相 应 “ 宏 ” 中 的 参 数 设 置 , 就 可 以 快 速 配置 好 特 定 领 域 任 务 的 关 系 模 式 规 则 。FASTUS 系 统 中的 所 有 模 式 规 则 被 分 成 领 域 依 赖 和 领 域 独 立 两 部 分 。领 域 独 立 部 分 可 以 看 作 确 定 参 数 的 宏 。 这 些 模 式 规 则在 一 个 相 对 粗 的 粒 度 层 次 上 覆 盖 各 种 句 法 结 果 , 目 标是 要 对 于 符 合 模 式 的 动 词 构 造 恰 当 的 谓 词 - 参 数(Predicate-argument) 关 系 。 领 域 依 赖 的 规 则 包 含 一些 参 数 , 这 些 参 数 必 须 通 过 “ 宏 ” 的 实 例 化 来 产 生 实 际模 式 规 则 。 这 些 领 域 依 赖 规 则 会 指 定 哪 一 个 动 词 载 有领 域 相 关 信 息 , 以 及 这 些 参 数 的 领 域 依 赖 限 制 以 及 规则 的 语 义 。FASTUS 系 统 采 用 的 编 译 时 转 换 的 方 式 实现 了 使 用 12 个 宏 规 则 和 15 个 领 域 依 赖 的 规 则 就 可 以实 现 大 概 100 个 明 确 表 达 的 模 式 的 效 果 , 这 为 系 统 在处 理 领 域 关 系 抽 取 任 务 时 的 配 置 工 作 节 约 了 大 量时 间 。[16]RomanYangarber 等 人 在 MUC-7 上 提 出 的Proteus 抽 取 系 统 采 用 了 基 于 样 本 泛 化 的 关 系 抽 取 模 式构 建 方 法 。 用 户 通 过 Proteus 系 统 提 供 的 模 式 构 建 界面 , 对 含 有 某 种 关 系 的 例 句 进 行 分 析 , 识 别 出 所 含 关 系的 要 素 , 并 将 这 些 要 素 泛 化 , 最 后 经 用 户 确 认 存 储 经 泛化 表 达 的 模 式 。 系 统 还 会 应 用 集 成 的 Meta-rules, 从用 户 生 成 的 简 单 的 主 动 句 模 式 或 独 立 的 名 词 短 语 产 生一 组 句 法 转 换 器 , 例 如 某 词 的 被 动 词 、 关 系 词 , 以 及 被动 关 系 、 减 少 关 系 模 式 等 。Proteus 也 能 将 可 选 修 饰 部分 插 入 到 产 生 的 变 量 ( 例 如 : 临 近 句 子 等 ), 来 扩 展 模式 的 覆 盖 范 围 。4.2 基 于 词 典 驱 动 的 关 系 抽 取与 基 于 模 式 匹 配 的 关 系 抽 取 方 法 相 比 , 基 于 词 典驱 动 的 关 系 抽 取 方 法 显 得 非 常 灵 活 。 新 的 关 系 类 型 能够 仅 仅 通 过 向 词 典 添 加 对 应 的 动 词 入 口 而 被 抽 取 。 用户 不 需 要 具 备 复 杂 的 模 式 语 言 知 识 就 可 以 轻 松 配 置 抽取 系 统 。[17]ChinatsuAone 等 人 在 MUC-7 上 提 出 了 一 个快 速 、 灵 巧 的 大 规 模 事 件 和 关 系 抽 取 系 统 (Large-ScaleRelationandEventExtractionSystem,REES)。 该系 统 采 用 的 基 于 词 典 驱 动 的 关 系 抽 取 方 法 旨 在 能 够 抽取 尽 可 能 多 类 型 的 关 系 和 事 件 , 但 耗 费 的 努 力 最 小 , 准确 率 较 高 。 在 REES 系 统 中 , 当 输 入 语 料 经 过 名 称 标识 和 名 词 短 语 标 识 阶 段 的 处 理 , 形 成 基 于 XML 的 输出 。 接 着 关 系 识 别 模 块 应 用 词 典 驱 动 模 型 , 通 过 基 于句 法 的 一 般 模 式 来 识 别 关 系 和 事 件 。REES 的 词 典 驱动 方 法 需 要 对 于 每 一 个 事 件 指 示 词 设 置 一 个 词 典 入口 , 而 这 个 词 通 常 是 动 词 。 词 典 入 口 具 体 化 了 该 动 词参 数 的 句 法 和 语 义 限 制 。基 于 词 典 驱 动 的 关 系 抽 取 方 法 的 缺 点 也 非 常 明显 。 它 只 能 识 别 以 动 词 为 中 心 词 的 关 系 , 而 对 于 名 词同 位 语 之 类 的 关 系 抽 取 就 很 难 实 现 了 。 另 外 , 使 用 这种 方 法 无 法 对 系 统 中 没 有 对 应 词 汇 入 口 的 新 关 系 进 行探 测 。4.3 基 于 机 器 学 习 的 关 系 抽 取基 于 机 器 学 习 的 关 系 抽 取 方 法 是 目 前 应 用 比 较 广泛 的 方 法 。 该 方 法 实 质 是 将 关 系 抽 取 看 作 是 一 个 分 类问 题 。 通 过 具 体 的 学 习 算 法 , 在 人 工 标 引 语 料 的 基 础上 构 造 分 类 器 , 然 后 将 其 应 用 在 领 域 语 料 关 系 的 类 别判 断 过 程 中 。 目 前 使 用 比 较 多 的 学 习 算 法 有 MBL 算法 和 SVM 算 法 。Intel 中 国 研 究 中 心 的 ZHANGYi-Min 和 ZHOU[18]JoeF 等 人 在 ACL-2000 上 演 示 了 他 们 开 发 的 一 个抽 取 中 文 命 名 实 体 以 及 这 些 实 体 间 相 互 关 系 的 信 息 抽取 系 统 , 该 系 统 就 是 利 用 MBL 算 法 获 取 规 则 用 以 抽 取命 名 实 体 及 它 们 之 间 的 关 系 。ZHANGYi-Min 等 人将 中 文 实 体 名 和 关 系 识 别 看 作 一 系 列 分 类 问 题 。 整 个过 程 能 够 被 分 成 两 个 阶 段 : 第 一 阶 段 是 学 习 过 程 , 若 干分 类 器 从 训 练 数 据 构 建 起 来 ; 第 二 阶 段 是 抽 取 过 程 , 通过 使 用 学 习 得 到 的 分 类 器 抽 取 中 文 实 体 名 和 它 们 的 关系 。 之 所 以 选 择 MBL 作 为 学 习 算 法 , 是 因 为 它 非 常 适合 处 理 从 大 量 不 同 来 源 获 取 的 特 征 , 并 且 能 记 住 例 外案 例 和 低 频 案 例 , 而 这 对 于 后 续 的 推 断 阶 段 非 常 有 用 。该 系 统 已 经 能 够 抽 取 的 关 系 类 型 包 括 Employee-of,Location-of,Product-of, 和 No-relation。 通 过 提 供 更多 的 训 练 数 据 , 能 够 轻 易 扩 展 关 系 抽 取 类 型 。XIANDAITUSHUQINGBAOJISHU 21


专题ZhuZhang [19] 提 出 的 基 于 SVM 的 弱 监 督 关 系 分 类系 统 应 用 SVM 算 法 进 行 关 系 抽 取 。ZhuZhang 提 出 的弱 监 督 学 习 过 程 包 括 两 个 组 件 : 一 个 底 层 监 督 学 习 器和 一 个 在 其 上 的 Bootstrapping 算 法 。 底 层 监 督 学 习 器是 一 个 支 持 向 量 分 类 器 , 它 使 用 从 当 前 可 获 得 的 已 标注 数 据 训 练 而 来 的 模 型 , 对 未 标 记 的 数 据 进 行 分 类 。Bootstrapping 算 法 则 负 责 选 择 最 有 可 能 被 正 确 标 记 的实 例 , 并 通 过 使 用 它 们 来 增 强 已 标 记 数 据 的 训 练 效 果 。该 系 统 在 进 行 分 类 任 务 时 用 到 了 词 语 特 征 、 浅 句 法 特征 、 深 层 句 法 特 征 以 及 序 列 标 志 、 实 体 类 型 等 特 征 。[20]MicheleBanko 等 人 提 出 了 一 个 新 颖 的 开 放 信息 抽 取 方 法 (OpenIE,OIE), 实 现 了 对 网 络 上 海 量 异 构信 息 中 可 能 存 在 的 关 系 的 抽 取 。 该 方 法 既 不 需 要 手 工标 注 训 练 集 作 为 训 练 语 料 , 也 不 局 限 于 特 定 领 域 , 而 是通 过 自 动 学 习 和 统 计 来 实 现 关 系 抽 取 。 开 放 信 息 抽 取方 法 的 实 现 分 为 3 个 阶 段 : 通 过 对 一 个 相 对 较 小 的 语料 集 进 行 深 层 解 析 , 自 动 抽 取 并 标 注 可 信 的 和 不 可 信的 关 系 三 元 组 。 这 些 三 元 组 的 特 征 向 量 被 作 为 训 练 样例 进 行 幼 稚 贝 叶 斯 分 类 器 的 训 练 ; 在 训 练 好 的 分 类 器上 进 行 大 量 网 络 文 献 的 关 系 抽 取 。 为 了 确 保 较 高 的 处理 效 率 , 抽 取 器 并 不 使 用 解 析 器 对 文 献 进 行 深 层 解 析 ,而 是 将 较 容 易 获 得 的 词 性 标 注 、 序 列 等 特 征 作 为 分 类器 的 输 入 。 这 一 阶 段 的 输 出 是 去 除 了 不 必 要 的 修 饰 词后 的 候 选 关 系 三 元 组 集 合 ; 对 这 些 候 选 三 元 组 进 行 合并 , 通 过 统 计 的 方 法 计 算 各 个 关 系 三 元 组 的 可 信 度 , 并建 立 索 引 。4.4 基 于 Ontology 的 关 系 抽 取知 识 管 理 过 程 中 , 利 用 信 息 抽 取 技 术 抽 取 的 实 体以 及 实 体 间 的 关 系 来 构 建 和 丰 富 本 体 , 是 一 种 行 之 有效 的 方 法 。 另 一 方 面 , 借 助 已 有 的 本 体 层 次 结 构 和 其所 描 述 的 概 念 之 间 的 关 系 来 协 助 进 行 关 系 的 抽 取 , 也不 失 为 一 种 行 之 有 效 的 关 系 抽 取 方 法 。[21,22]JoséIria 等 人 提 出 了 一 个 基 于 本 体 的 关 系 抽取 通 用 软 件 框 架 — 可 训 练 关 系 抽 取 框 架 (TrainableRelationExtractionFramework,T-Rex)。 设 计 该 框 架 的 目的 是 要 提 供 语 义 网 自 动 化 语 义 标 注 任 务 需 要 的 灵 活度 。 由 于 T-Rex 采 用 了 参 数 化 的 插 件 结 构 , 因 此 可 以对 多 种 基 于 不 同 抽 取 算 法 的 插 件 进 行 集 成 和 测 试 。T-Rex 最 具 特 色 的 地 方 是 它 采 用 了 规 范 的 基 于 图 的 数据 模 型 。 该 数 据 模 型 借 助 本 体 实 现 等 级 层 次 的 表 达 结构 , 并 允 许 以 一 致 的 方 式 任 意 链 接 子 图 , 例 如 共 指 关 系链 接 , 语 法 关 系 链 接 , 与 HTML 格 式 相 关 的 链 接 等 。T-Rex 数 据 模 型 的 表 示 是 等 级 化 的 , 能 够 将 语 料 模 型化 到 字 符 级 、 语 词 级 、 短 语 级 、 语 句 级 和 文 档 级 层 次 。通 过 对 本 体 的 定 义 和 扩 充 , 可 以 实 现 使 用 该 多 层 次 数据 模 型 对 于 语 料 的 多 种 特 征 集 表 达 的 一 致 性 。[1]AlexanderSchutz 等 人 将 DOLCE、SUMO、SportEventOntology 等 本 体 有 机 结 合 在 一 起 来 描 述 足 球 领 域的 相 关 概 念 及 概 念 之 间 的 关 系 , 建 立 了 能 够 自 动 识 别高 相 关 三 元 组 ( 概 念 对 和 概 念 之 间 的 关 系 ) 的 RelExt系 统 。 该 系 统 通 过 从 文 本 集 合 抽 取 相 关 词 项 和 动 词 ,借 助 语 言 学 和 统 计 学 处 理 过 程 计 算 词 项 之 间 的 相 关 关系 。 该 系 统 目 前 能 够 处 理 1570 个 足 球 领 域 相 关 概 念( 类 ) 和 487 个 直 接 关 系 。[23]MartaSabou 和 Mathieud’Aquin 等 人 提 出 的SCARLET 系 统 通 过 自 动 选 择 和 查 询 本 体 的 方 法 来 发现 概 念 实 体 之 间 的 关 系 。 例 如 , 当 要 确 定 两 个 概 念 实体 Researcher 和 AcademicStaf 之 间 的 关 系 时 ,SCARLET 先 识 别 网 络 上 能 够 提 供 上 述 概 念 实 体 相 关 信 息 的本 体 , 然 后 综 合 这 些 信 息 来 推 断 概 念 实 体 之 间 的 关 系 。当 上 述 两 个 概 念 实 体 已 经 在 某 个 本 体 中 被 定 义 , 这 两个 实 体 间 的 关 系 就 可 以 通 过 本 体 获 取 到 。 如 果 上 述 的概 念 实 体 在 不 同 的 本 体 中 被 描 述 , 例 如 在 一 个 本 体 中描 述 了 Researcher 属 于 ResearchStaf 的 关 系 , 在 另 一 个本 体 中 描 述 了 ResearchStaf 属 于 AcademicStaf 的 关系 , 则 通 过 关 系 逻 辑 推 导 可 以 获 取 Researcher 和 AcademicStaf 之 间 的 关 系 。4.5 混 合 抽 取 方 法在 关 系 抽 取 研 究 的 初 期 阶 段 , 无 论 是 基 于 词 典 的抽 取 方 法 还 是 基 于 模 式 的 抽 取 方 法 , 都 仅 将 一 种 抽 取方 法 作 为 整 个 关 系 抽 取 过 程 的 核 心 。 随 着 关 系 抽 取 研究 的 不 断 深 入 , 研 究 者 逐 渐 意 识 到 , 单 纯 的 抽 取 方 法 在识 别 特 征 和 识 别 模 式 方 面 难 以 避 免 地 会 具 有 局 限 性 。为 了 将 更 多 的 已 有 关 系 识 别 特 征 加 入 到 关 系 抽 取 过 程中 来 , 一 些 将 多 种 现 有 关 系 抽 取 方 法 相 结 合 的 混 合 抽 取方 法 被 提 出 来 。 其 中 具 有 代 表 性 的 是 LuciaSpecia 和EnricoMota [24] 提 出 的 一 个 抽 取 语 义 关 系 的 混 合 方 法 。该 方 法 通 过 管 道 (Pipeline) 方 式 引 入 了 解 析 器(Parser), 词 性 标 注 器 (Part-of-speechTagger), 命 名实 体 识 别 系 统 , 基 于 模 式 的 分 类 器 以 及 词 义 辨 析 模 块 ,22 现 代 图 书 情 报 技 术


总 第 168 期 2008 年第 8 期并 用 到 了 领 域 本 体 , 知 识 库 以 及 词 语 数 据 库 等 资 源 。该 方 法 的 核 心 策 略 是 匹 配 一 个 语 言 学 三 元 组 和 他们 对 应 的 语 义 组 件 。 这 不 仅 包 括 匹 配 关 系 , 还 包 括 匹配 这 些 关 系 相 关 联 的 项 。 语 言 学 三 元 组 的 探 测 包 括 一系 列 的 语 言 学 处 理 步 骤 。 词 项 和 概 念 的 匹 配 通 过 一 个领 域 本 体 和 一 个 命 名 实 体 识 别 系 统 引 导 。 关 系 识 别 依赖 于 在 领 域 本 体 和 词 库 中 的 知 识 , 以 及 基 于 模 式 的 分类 和 词 义 辨 析 模 块 。 除 了 抽 取 已 经 在 领 域 本 体 中 存 在的 关 系 , 该 框 架 还 可 以 通 过 模 式 匹 配 策 略 来 发 现 词 项类 型 之 间 的 新 关 系 。5 结 语经 过 20 多 年 的 发 展 , 关 系 抽 取 理 论 和 方 法 愈 加 完善 。 从 最 初 的 手 工 编 写 模 式 和 词 典 进 行 关 系 抽 取 , 发展 到 目 前 借 助 Ontology 和 知 识 库 等 多 种 知 识 资 源 的 综合 关 系 抽 取 , 关 系 抽 取 的 正 确 率 和 召 回 率 在 不 断 提 高 ,对 不 同 领 域 的 适 应 性 也 在 不 断 加 强 。 目 前 仍 然 存 在 一些 比 较 实 际 的 问 题 阻 碍 了 关 系 抽 取 在 实 际 中 的 应 用 ,这 包 括 已 标 引 数 据 集 的 获 取 、 关 系 模 式 的 构 建 、 共 指 消解 等 问 题 。 随 着 这 些 问 题 的 进 一 步 解 决 , 关 系 抽 取 技术 必 然 会 在 增 强 检 索 系 统 功 能 、 语 义 网 标 注 、 本 体 学 习等 领 域 得 到 广 泛 应 用 。参 考 文 献 :[1]SchutzA,BuitelaarP.RelExt:AToolforRelationExtractionfromTextinOntologyExtension[C].4thInternationalSemanticWebConference,Galway,Ireland,November6-10,2005:593-606.[2]KatrenkoS,AdriaansP.LearningRelationsfrom BiomedicalCorporaUsingDependencyTreeLevels[C].In:Proc.BENELEARNconference(2006),2006.[3]RelationshipExtraction[EB/OL].[2008-05-30].htp://en.wikipedia.org/wiki/Relationship_extraction.[4]TheACE2004EvaluationPlan[EB/OL].[2008-05-30].http://www.nist.gov/speech/tests/ace/2004/doc/ace04-evalplan-v7.pdf.[5]AutomaticContentExtraction2008EvaluationPlan(ACE08)[EB/OL].[2008-05-30].htp://www.nist.gov/speech/tests/ace/2008/doc/ace08-evalplan.v1.2.pdf.[6]MUC[EB/OL].[2008-05-30].htp://www.itl.nist.gov/iaui/894.02/related_projects/muc/.[7]ACE[EB/OL].[2008-05-30].htp://www.nist.gov/speech/tests/ace/.[8]ACE08AnnotationTasks[EB/OL].[2008-05-30].htp://projects.ldc.upenn.edu/ace/annotation/.[9] 邓 擘 , 樊 孝 忠 , 杨 立 公 . 用 语 义 模 式 提 取 实 体 关 系 的 方 法 [J].计 算 机 工 程 ,2007,33(10):212-214.[10] 姜 吉 发 , 王 树 西 . 一 种 自 举 的 二 元 关 系 和 二 元 关 系 模 式 获 取 方法 [J]. 中 文 信 息 学 报 ,2005,19(2):71-77.[11] 顾 雪 峰 . 基 于 动 态 粒 度 思 想 的 实 体 关 系 识 别 方 法 研 究 [EB/OL].[2008-05-30].htp://www.cnki.com.cn/grid20/Detail.aspx.[12] 刘 克 彬 , 李 芳 , 刘 磊 , 等 . 基 于 核 函 数 中 文 关 系 自 动 抽 取 系 统的 实 现 [J]. 计 算 机 研 究 与 发 展 .2007,44(8):1406-1411.[13] 车 万 翔 , 刘 挺 , 李 生 . 实 体 关 系 自 动 抽 取 [J]. 中 文 信 息 学 报 ,2005,19(2):1-6.[14]ZhangYM,ZhouJF.ATrainableMethodforExtractingChineseEntityNamesandTheirRelations[C].In:ProcedingsoftheSecondChineseLanguageProcesingWorkshop,HongKong,2000:66-72.[15]AppeltDE,HobbsJR,BearJ,etal.SRIInternationalFASTUSSystem:MUC-6TestResultsandAnalysis[C].In:Procedingsofthe6thMesageUnderstandingConference(MUC-6),1995:237-248.[16]RomanY,GrishmanR.NYU:DescriptionoftheProteus/PETSystemasUsedforMUC-7ST[C].In:Procedingsofthe6thMessageUnderstandingConference(MUC-7),1998.[17]AoneC,Ramos2SantacruzM.Rees:Alarge-scalerelationandeventextractionsystem[C].In:Procofthe6thAppliedNaturalLanguageProcesingConference,NewYork,2000:76-83.[18]ZhangY,ZhouJF.A TrainableMethodforExtractingChineseEntityNamesandTheirRelations[C].In:ProcedingsofthesecondChineseLanguageProcesingWorkshop,ACL,2000:66-72.[19]ZhuZ.Weakly-supervisedRelationClasificationforInformationExtraction[C].In:ProcedingsoftheThirtenthACMconferenceonInformation and Knowledge Management, Washington D.C.,2004:581-588.[20]BankoM,CafarelaMJ,SoderlandS,etal.OpenInformationExtractionfromtheWeb[C].In:ProcedingoftheInternationalJointConferencesonArtificialInteligence,2007.[21]IriaJ.T-Rex:AFlexibleRelationExtractionFramework[C].In:Procedingofthe8thAnnualColoquiumfortheUKSpecialInterestGroupforComputationalLinguistics(CLUK’05),Manchester,January2005.[22]Iria,Mr.José,Ciravegna,Fabio.RelationExtractionforMiningtheSemanticWeb[C].In:ProcedingsMachineLearningfortheSemanticWebDagstuhlSeminar05071,Dagstuhl,2005.[23]SabouM,Mathieud’Aquin,MotaE.SCARLET:SemantiCrelAtionDiscoveRybyHarvestingonLinEonTologies[C].In:Procedingsofthe5thEuropeanSemanticWebConference,June,2008.[24]SpeciaL,MotaE.AHybridApproachforExtractingSemanticRelationsfromTexts[EB/OL].[2008-05-30].htp://www.dcs.shef.ac.uk/~lucia/publications/SpeciaMota_OLP2-2006.pdf.( 作 者 E-mail:xujian@mail.las.ac.cn)XIANDAITUSHUQINGBAOJISHU 23

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!