少数民族汉语考试的作文辅助评分系统研究,中文信息学报,第25卷

少数民族汉语考试的作文辅助评分系统研究,中文信息学报,第25卷 少数民族汉语考试的作文辅助评分系统研究,中文信息学报,第25卷

nlpr.ia.ac.cn
from nlpr.ia.ac.cn More from this publisher
11.07.2015 Views

少 数 民 族 汉 语 考 试 的 作 文 辅 助 评 分 系 统 研 究蔡 黎 , 彭 星 源 , 柯 登 峰 , 赵 军( 中 国 科 学 院 自 动 化 研 究 所 模 式 识 别 国 家 重 点 实 验 室 , 北 京 100080)摘 要 : 随 着 计 算 机 的 普 遍 应 用 以 及 计 算 机 技 术 的 飞 快 发 展 , 计 算 机 辅 助 性 测 试 和 计 算 机 自适 应 性 测 试 都 已 先 后 成 为 现 实 , 计 算 机 辅 助 评 分 , 也 可 以 称 作 计 算 机 自 动 评 分 , 就 成 为 人 们 所希 望 的 下 一 代 计 算 机 辅 助 工 具 。 中 文 辅 助 评 分 系 统 的 研 究 尚 处 于 起 步 阶 段 , 据 我 们 了 解 还 没 有一 个 能 大 规 模 使 用 的 系 统 。 我 们 研 究 了 许 多 英 文 的 辅 助 评 分 系 统 , 并 按 照 文 章 中 的 算 法 提 取 特征 , 但 是 特 征 的 相 关 度 并 不 高 。 在 本 文 中 , 我 们 利 用 统 计 自 然 语 言 处 理 和 信 息 检 索 的 技 术 提 取作 文 写 作 水 平 和 作 文 主 题 特 征 。 在 建 模 时 , 融 入 样 本 分 数 分 布 和 一 位 评 分 员 的 评 分 的 信 息 , 创造 性 的 提 出 三 重 分 段 回 归 模 型 。 实 验 表 明 , 利 用 我 们 的 辅 助 评 分 系 统 协 助 评 分 , 在 节 省 一 半 阅卷 量 的 情 况 下 , 精 度 可 以 达 到 97% 以 上 。关 键 词 :作 文 辅 助 评 分 ; 汉 语 ; 主 题 特 征 ; 写 作 水 平 特 征Research of Assisted scoring system forChinese Proficiency Test for MinoritiesLi CAI, Xingyuan PENG, Dengfeng ke, Jun ZHAO(National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing, 100080)Abstract: With the widespread application of computer and fast development of computer techonlogy,computer aided test and computer adopted test have turned into realization. Assisted essay scoring system(AES) have become the next generation of computer aided tools in people’s expectation. Chinese AES is still inits infant stage. As we know that there is even no Chinese AES which can be widely used. We have done a lotof research on English AES. And we extracted some features described in the paper. However, the result wasnot promising. In this paper, we use the technology of statistical natural language processing and informationretrieval to extract features. Then, we creatively integrate features such as the distribution of sample test score基 金 资 助 : 本 文 受 国 家 自 然 科 学 基 金 项 目 (60875041, 61070106) 资 助 , 国 家 自 然 科 学 基 金 青 年 基 金(61103152) 资 助作 者 简 介 : 蔡 黎 (1981-), 男 , 湖 北 , 博 士 研 究 生 , 研 究 方 向 为 自 然 语 言 处 理 和 信 息 检 索 ;彭 星 源 (1986-), 男 , 江 西 , 博 士 研 究 生 , 研 究 方 向 为 自 然 语 言 处 理 和 信 息 检 索 ;柯 登 峰 (1980-), 男 , 广 东 , 助 理 研 究 员 , 研 究 方 1 向 为 自 然 语 言 处 理 和 语 音 识 别赵 军 (1966-), 男 , 山 西 , 研 究 员 , 研 究 方 向 为 自 然 语 言 处 理 和 信 息 检 索 ;

少 数 民 族 汉 语 考 试 的 作 文 辅 助 评 分 系 统 研 究蔡 黎 , 彭 星 源 , 柯 登 峰 , 赵 军( 中 国 科 学 院 自 动 化 研 究 所 模 式 识 别 国 家 重 点 实 验 室 , 北 京 100080)摘 要 : 随 着 计 算 机 的 普 遍 应 用 以 及 计 算 机 技 术 的 飞 快 发 展 , 计 算 机 辅 助 性 测 试 和 计 算 机 自适 应 性 测 试 都 已 先 后 成 为 现 实 , 计 算 机 辅 助 评 分 , 也 可 以 称 作 计 算 机 自 动 评 分 , 就 成 为 人 们 所希 望 的 下 一 代 计 算 机 辅 助 工 具 。 中 文 辅 助 评 分 系 统 的 研 究 尚 处 于 起 步 阶 段 , 据 我 们 了 解 还 没 有一 个 能 大 规 模 使 用 的 系 统 。 我 们 研 究 了 许 多 英 文 的 辅 助 评 分 系 统 , 并 按 照 文 章 中 的 算 法 提 取 特征 , 但 是 特 征 的 相 关 度 并 不 高 。 在 本 文 中 , 我 们 利 用 统 计 自 然 语 言 处 理 和 信 息 检 索 的 技 术 提 取作 文 写 作 水 平 和 作 文 主 题 特 征 。 在 建 模 时 , 融 入 样 本 分 数 分 布 和 一 位 评 分 员 的 评 分 的 信 息 , 创造 性 的 提 出 三 重 分 段 回 归 模 型 。 实 验 表 明 , 利 用 我 们 的 辅 助 评 分 系 统 协 助 评 分 , 在 节 省 一 半 阅卷 量 的 情 况 下 , 精 度 可 以 达 到 97% 以 上 。关 键 词 :作 文 辅 助 评 分 ; 汉 语 ; 主 题 特 征 ; 写 作 水 平 特 征Research of Assisted scoring system forChinese Proficiency Test for MinoritiesLi CAI, Xingyuan PENG, Dengfeng ke, Jun ZHAO(National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing, 100080)Abstract: With the widespread application of computer and fast development of computer techonlogy,computer aided test and computer adopted test have turned into realization. Assisted essay scoring system(AES) have become the next generation of computer aided tools in people’s expectation. Chinese AES is still inits infant stage. As we know that there is even no Chinese AES which can be widely used. We have done a lotof research on English AES. And we extracted some features described in the paper. However, the result wasnot promising. In this paper, we use the technology of statistical natural language processing and informationretrieval to extract features. Then, we creatively integrate features such as the distribution of sample test score基 金 资 助 : 本 文 受 国 家 自 然 科 学 基 金 项 目 (60875041, 61070106) 资 助 , 国 家 自 然 科 学 基 金 青 年 基 金(61103152) 资 助作 者 简 介 : 蔡 黎 (1981-), 男 , 湖 北 , 博 士 研 究 生 , 研 究 方 向 为 自 然 语 言 处 理 和 信 息 检 索 ;彭 星 源 (1986-), 男 , 江 西 , 博 士 研 究 生 , 研 究 方 向 为 自 然 语 言 处 理 和 信 息 检 索 ;柯 登 峰 (1980-), 男 , 广 东 , 助 理 研 究 员 , 研 究 方 1 向 为 自 然 语 言 处 理 和 语 音 识 别赵 军 (1966-), 男 , 山 西 , 研 究 员 , 研 究 方 向 为 自 然 语 言 处 理 和 信 息 检 索 ;


and a reviewer’s score into statistical model, which we call triple segmented regression. The result istremendous good. The experiment shows that using our AES, we can only use half of the labour force to get theprecision above 97%.key words: assisted essay score; Chinese; topic feature; writing level feature1 引 言考 试 作 为 考 查 学 生 学 习 和 掌 握 知 识 的 程 度 及 评 估 学 校 教 学 水 平 的 手 段 由 来 已 久 . 并且 还 会 在 今 后 相 当 长 的 一 段 时 间 内 存 在 下 去 [1]。通 过 作 文 可 以 检 测 应 试 者 综 合 运 用 语 言 的 能 力 。 然 而 , 大 规 模 作 文 阅 卷 面 临 两 大 难题 : 其 一 , 阅 卷 需 要 耗 费 大 量 人 力 、 物 力 等 资 源 ; 其 二 , 评 判 作 文 质 量 具 有 很 强 的 主 观性 , 阅 卷 的 信 度 和 效 度 不 强 [2]。辅 助 作 文 评 分 是 计 算 机 技 术 在 语 言 测 试 方 面 的 最 新 应 用 , 也 是 语 言 技 术 发 展 的 必 然趋 势 。 近 几 十 年 来 , 随 着 计 算 机 硬 件 和 软 件 性 能 快 速 提 高 , 自 然 语 言 处 理 等 技 术 获 得 了长 足 的 发 展 , 国 外 一 批 作 文 辅 助 评 分 系 统 相 继 问 世 , 这 两 个 长 期 困 扰 大 规 模 作 文 阅 卷 的难 题 有 望 得 到 解 决 。辅 助 作 文 评 分 中 核 心 的 问 题 是 :(1) 机 器 可 用 的 、 高 信 度 的 评 分 特 征 的 选 取 [2];(2) 如 何 最 大 限 度 利 用 训 练 语 料 特 征 , 建 立 有 效 的 模 型 。本 文 针 对 这 两 个 问 题 , 提 出 了 自 己 的 创 新 :(1) 一 篇 作 文 从 文 本 挖 掘 , 提 供 的 主 要 信 息 是 词 和 词 序 。 李 亚 男 [3] 提 取 了 一 些 浅 层特 征 , 利 用 多 元 回 归 进 行 预 测 。 但 是 浅 表 特 征 的 相 关 度 不 高 , 而 且 非 常 不 稳 定 。本 文 利 用 自 然 语 言 处 理 和 信 息 检 索 技 术 , 从 作 文 写 作 水 平 和 主 题 相 关 两 个 方 面 ,通 过 词 和 词 序 的 信 息 提 取 了 稳 定 , 有 效 的 特 征 ;(2) 在 利 用 特 征 回 归 建 模 中 , 本 文 提 出 利 用 训 练 样 本 分 数 分 布 和 一 位 评 卷 员 的 评 分 ,作 为 特 征 , 提 出 分 段 回 归 和 三 重 分 段 回 归 。 利 用 有 效 的 信 息 建 模 , 在 节 省 一 半 阅卷 量 的 情 况 下 , 达 到 精 度 在 97% 以 上 。评 分 员 评 分词分 段 回 归 模 型分 数作 文词 序样 本 分 数 分布图 1 中 文 辅 助 评 分 系 统 流 程 图Fig.1 Flow Chart of Chinese automatic essay system本 文 按 如 下 方 式 进 行 组 织 : 在 第 二 节 介 绍 了 几 个 著 名 的 辅 助 评 分 系 统 以 及 分 析 了 它们 的 优 缺 点 , 第 三 节 中 介 绍 了 利 用 自 然 语 言 处 理 技 术 和 信 息 检 索 技 术 , 提 取 作 文 文 本 主题 和 写 作 水 平 的 特 征 , 第 四 节 介 绍 和 分 析 了 实 验 设 计 以 及 实 验 的 结 果 , 第 五 节 中 对 本 文2


以 及 已 有 工 作 的 问 题 进 行 了 总 结 , 同 时 展 望 了 进 一 步 的 工 作 的 方 向 。2 相 关 工 作一 个 优 秀 的 作 文 辅 助 评 分 系 统 最 重 要 就 是 , 能 从 作 文 文 本 中 , 挖 掘 出 反 映 作 文 质 量的 , 机 器 可 用 的 特 征 。2.1 Project Essay Grade(PEG)PEG[4][5] 是 在 1966 年 EllisPage 应 美 国 大 学 委 员 会 的 要 求 而 研 发 的 。 和 李 亚 男 [3] 提取 的 特 征 相 似 PEG 主 要 依 靠 对 文 章 的 浅 层 语 言 学 特 征 的 分 析 ( 例 如 , 作 文 长 度 , 介 词 、关 系 代 词 等 , 词 长 的 变 化 等 等 ), 然 后 对 作 文 进 行 评 分 。 基 本 上 , 没 有 涉 及 写 作 水 平 、 句子 结 构 , 文 章 内 容 , 文 章 措 辞 等 高 级 特 征 。 最 后 该 系 统 无 法 给 出 对 学 生 有 意 义 的 指 导 意见 。2.2 Intelligent Essay Assessor(IEA)IEA[6][7] 是 20 世 纪 90 年 代 末 由 Pearson Knowledge Analysis Technology 公 司 利 用 潜在 语 义 分 析 [2](latent semantic analysis) 技 术 开 发 的 。 潜 在 语 义 分 析 , 是 1988 年 S.T. Dumais等 人 提 出 了 一 种 新 的 信 息 检 索 代 数 模 型 , 是 用 于 知 识 获 取 和 展 示 的 计 算 理 论 和 方 法 , 它使 用 统 计 计 算 的 方 法 对 大 量 的 文 本 集 进 行 分 析 , 从 而 提 取 出 词 与 词 之 间 潜 在 的 语 义 结 构 ,并 用 这 种 潜 在 的 语 义 结 构 , 来 表 示 词 和 文 本 , 到 达 消 除 词 之 间 的 相 关 性 和 简 化 文 本 向 量实 现 降 维 的 目 的 。 潜 在 语 义 分 析 的 基 本 观 点 是 : 把 高 维 的 向 量 空 间 模 型 表 示 中 的 文 档 映射 到 低 维 的 潜 在 语 义 空 间 中 。 这 个 映 射 是 通 过 对 项 / 文 档 矩 阵 的 奇 异 值 分 解 (SVD) 来 实现 的 。IEA 使 用 潜 在 语 义 分 析 技 术 将 作 文 按 照 它 所 包 含 的 词 投 射 成 能 够 代 表 作 文 意 义 的 数学 形 式 , 然 后 从 概 念 相 关 度 和 内 容 相 关 的 含 量 两 个 方 面 与 已 知 写 作 质 量 的 作 文 进 行 比 较 ,从 而 得 出 作 文 的 评 分 。2.3 Electronic Essay Rater(E-rater)E-rater[8][9] 是 由 Educational Testing Service(ETS) 的 Burstein 等 人 在 上 世 纪 90 年 代 末开 发 的 。 据 我 们 了 解 ,E-rater 也 是 目 前 商 用 效 果 做 好 的 辅 助 评 分 系 统 , 已 经 在 GMAT,TOEFL 考 试 中 商 用 。E-rater 系 统 主 要 由 5 个 模 块 , 其 中 3 个 模 块 用 来 抽 取 特 征 , 一 共 67个 特 征 , 这 些 特 征 包 括 : 句 法 , 篇 章 , 主 题 。 其 中 的 自 然 语 言 处 理 技 术 采 用 的 是 微 软 自然 语 言 处 理 的 工 具 包 来 完 成 。 第 4 个 模 块 , 是 用 来 构 建 模 型 , 对 67 个 变 量 中 进 行 筛 选 ,建 立 回 归 方 程 。 第 5 个 模 块 是 用 来 计 算 待 评 分 文 章 的 最 后 得 分 , 即 提 取 作 文 显 著 特 征 的特 征 值 , 代 入 回 归 方 程 计 算 最 后 得 分 。2.4 IntelliMetricTMIntelliMetricTM[10][11] 是 第 一 套 基 于 人 工 智 能 (AI) 的 作 文 评 分 系 统 。 它 的 开 发 商Vantage Learning 应 用 了 人 工 智 能 、 自 然 语 言 处 理 和 统 计 技 术 , 使 得 IntelliMetricTM 能 够模 仿 人 工 阅 卷 , 对 作 文 的 内 容 、 形 式 、 组 织 和 写 作 习 惯 进 行 分 别 进 行 评 分 。IntelliMetricTM需 要 对 已 经 评 好 分 数 的 作 文 集 进 行 训 练 , 构 建 模 型 。 对 于 要 评 阅 的 作 文 ,IntelliMetricTM提 取 了 作 文 中 包 括 语 义 、 句 法 、 篇 章 3 个 方 面 的 300 多 项 特 征 , 代 入 模 型 评 分 。 其 效 果3


与 评 卷 员 的 一 致 率 达 到 了 97% 至 99%。另 外 ,IntelliMetricTM 能 够 评 阅 多 种 语 言 的 作 文 , 如 英 语 、 西 班 牙 语 、 以 色 列 语 和 印度 尼 西 亚 语 等 等 。3 特 征 抽 取 和 建 模一 个 优 秀 的 作 文 辅 助 评 分 系 统 最 重 要 就 是 , 能 从 作 文 文 本 中 , 挖 掘 出 反 映 作 文 质 量的 , 机 器 可 用 的 特 征 。 从 E-rater 的 文 献 [8][9] 中 , 我 们 知 道 E-rater 使 用 了 微 软 自 然 语 言处 理 的 工 具 包 来 提 取 比 较 深 层 次 的 特 征 如 句 法 识 别 句 子 的 复 杂 度 等 等 。 同 样 , 我 们 利 用1哈 工 大 信 息 检 索 实 验 室 提 供 的 自 然 语 言 处 理 包 , 也 做 了 相 关 实 验 , 但 是 实 验 的 效 果 都 不理 想 。 原 因 可 能 主 要 是 训 练 语 料 和 测 试 语 料 的 领 域 不 相 关 引 起 的 。本 文 利 用 自 然 语 言 处 理 和 信 息 检 索 技 术 , 从 作 文 写 作 水 平 和 作 文 主 题 两 个 方 面 , 创造 性 地 通 过 词 和 词 序 的 信 息 提 取 了 稳 定 , 有 效 的 特 征 。 在 建 模 时 , 利 用 样 本 分 数 分 布 的特 征 和 一 位 评 分 员 的 评 分 的 信 息 , 创 造 性 的 提 出 三 重 分 段 回 归 模 型 。3.1 作 文 写 作 水 平 特 征作 文 写 作 水 平 特 征 , 反 映 的 是 考 生 使 用 语 言 的 能 力 。衡 量 一 个 作 文 的 写 作 水 平 , 有 多 个 方 面 , 最 重 要 的 就 是 遣 词 造 句 。 现 在 的 中 文 自 然语 言 处 理 技 术 还 没 有 达 到 , 能 很 高 精 度 的 提 取 句 子 的 特 征 如 句 式 , 句 中 词 语 搭 配 的 好 坏等 。 我 们 就 主 要 从 词 方 面 入 手 , 本 文 提 取 的 作 文 写 作 水 平 特 征 是 基 于 以 下 的 常 理 : 越 常见 的 词 , 越 是 易 用 词 , 越 不 常 见 的 词 , 越 是 难 用 词 。 图 2 给 出 了 作 文 写 作 水 平 特 征 提 取的 算 法 流 程 。算 法 : 作 文 写 作 水 平 特 征 提 取输 入 : 分 词 后 的 大 语 料 , 分 词 后 的 作 文 , 词 频 阈 值输 出 : 作 文 的 写 作 水 平 特 征 值方 法 :1. 对 大 语 料 进 行 统 计 词 频 , 词 的 词 频 记 为2. 对 于 每 个 , 如 果 , 把 , 以 避 免语 料 库 的 稀 疏 性3. 对 于 每 个 , 计 算 的 使 用 难 度 系 数4. 作 文 的 写 作 水 平 特 征 为 该 篇 文 章 所 有 词 的 使 用 难 度 系 数 之 和, 为 文 章 的 词 数5. 返 回图 2 作 文 写 作 水 平 特 征 提 取 算 法 描 述Fig.2 the description of algorithm of extracting writing level feature from the essay.3.2 作 文 主 题 特 征作 文 主 题 特 征 , 反 映 的 是 考 生 作 文 内 容 的 扣 题 程 度 。主 题 在 作 文 评 分 中 的 重 要 性 , 不 言 而 喻 。 因 为 我 们 测 试 的 对 象 是 汉 语 作 为 第 二 语 言1 http://ir.hit.edu.cn/4


学 习 者 , 所 以 作 为 文 不 对 题 , 背 范 文 的 现 象 还 是 很 严 重 的 。 我 们 请 两 位 经 验 丰 富 的 评 卷员 对 随 机 抽 取 的 500 篇 作 文 , 进 行 跑 题 作 文 和 非 跑 题 作 文 的 分 类 。 分 类 结 果 如 下 :表 1 评 卷 员 对 作 文 跑 题 的 分 类 结 果Tab.1 The labelers’ classification result of the topic and off-topic essays评 卷 员 跑 题 篇 数 比 例评 卷 员 A 104 20.8%评 卷 员 B 138 27.6%从 表 1 中 , 可 以 看 出 跑 题 作 文 的 比 例 还 是 较 大 的 。 用 现 在 的 自 然 语 言 处 理 技 术 , 提取 整 篇 文 章 的 语 义 基 本 上 很 难 做 到 的 。 在 这 个 情 况 下 , 主 题 特 征 就 成 为 了 衡 量 文 章 内 容很 重 要 的 特 征 。作 文 主 题 特 征 提 取 ,Burstein[4] 利 用 作 文 内 容 向 量 和 预 测 作 文 的 内 容 向 量 的 相 似 度 作为 判 别 作 文 是 否 跑 题 的 标 准 。这 样 做 的 问 题 :(1) 现 代 考 试 的 作 文 题 目 是 多 样 的 , 不 是 所 有 作 文 题 目 都 是 文 字 的 , 比 如 看 图 说 话 就没 法 用 以 上 的 算 法 ;(2) 没 有 利 用 词 序 的 信 息 。为 了 解 决 以 上 两 个 问 题 , 我 们 利 用 信 息 检 索 里 面 两 个 成 熟 的 技 术 :(1) TF:TF(term frequency) 是 一 种 用 于 信 息 搜 索 和 信 息 挖 掘 的 常 用 加 权 技 术 。TF 的主 要 思 想 是 , 如 果 某 个 词 或 短 语 在 一 篇 文 章 中 出 现 的 频 率 TF(Term Frequency) 高 , 并 且 在其 他 文 章 中 很 少 出 现 , 则 认 为 此 词 或 者 短 语 具 有 很 好 的 类 别 区 分 能 力 , 适 合 用 来 分 类 。TF 词 频 指 的 是 某 一 个 给 定 的 词 语 在 该 文 件 中 出 现 的 次 数 。(2) PageRank:PageRank 的 发 明 者 通 过 对 网 络 超 链 接 结 构 和 文 献 引 文 机 制 的 相 似 性 进行 研 究 , 把 引 文 分 析 的 思 想 借 鉴 到 网 络 文 档 重 要 性 的 计 算 中 来 , 利 用 网 络 自 身 的 超 链 接结 构 给 所 有 的 网 页 确 定 一 个 重 要 性 的 等 级 数 , 当 从 网 页 A 链 接 到 网 页 B 时 , 就 认 为 “ 网 页A 投 了 网 页 B 一 票 ”, 增 加 了 网 页 B 的 重 要 性 , 最 后 根 据 网 页 的 得 票 数 评 定 其 重 要 性 , 以此 来 帮 助 实 现 排 序 算 法 的 优 化 , 而 这 个 重 要 性 的 量 化 指 标 即 PageRank 值 。 在 实 际 计 算PageRank 值 时 , 除 了 考 虑 网 页 得 票 数 ( 即 链 接 的 纯 数 量 ) 之 外 , 还 要 分 析 为 其 投 票 的 网 页的 重 要 性 , 重 要 的 网 页 所 投 之 票 有 助 于 增 强 其 他 网 页 的 重 要 性 。 简 单 的 说 ,PageRank 就是 要 从 链 接 结 构 中 获 取 网 页 的 重 要 性 , 而 网 页 的 重 要 性 决 定 着 同 时 也 依 赖 于 其 他 网 页 的重 要 性 。PageRank 的 基 本 思 想 主 要 基 于 “ 从 许 多 优 质 的 网 页 链 接 过 来 的 网 页 , 有 很 大 可 能 还是 优 质 网 页 ” 的 回 归 关 系 , 来 判 定 所 有 网 页 的 重 要 性 。我 们 把 这 两 项 技 术 背 后 的 思 想 , 应 用 到 作 文 辅 助 评 分 中 :(1) 一 个 词 的 TF 值 越 大 , 表 明 该 词 越 是 主 题 相 关 的 词 。(2) 词 序 的 信 息 , 即 词 语 搭 配 是 很 难 利 用 的 , 因 为 词 序 的 变 化 太 多 了 。 我 们 转 化 PageRank的 思 想 , 来 利 用 起 词 序 的 信 息 。 我 们 可 以 把 PageRank 的 思 想 转 换 为 , 越 重 要 的词 出 现 在 越 重 要 的 词 语 搭 配 中 , 越 重 要 词 语 搭 配 中 的 词 越 重 要 。5


图 3 词 与 词 联 系 的 网 络 示 意 图Fig.3 The figure of the network of word from the essay第 一 点 很 好 理 解 。 我 们 重 点 讲 第 二 点 , 如 有 两 个 词 , 我 们 就 把 这 两 个 词 比 作 网 页 A和 网 页 B。 如 果 两 个 在 一 起 共 现 , 我 们 就 比 作 网 页 A 和 网 页 B 有 链 接 。 图 3, 给 出 了 一个 简 单 的 示 意 图 。 如 图 3 所 示 , 词 的 权 重 为 词 的 TF 值 , 词 与 词 的 链 接 权 重 为 词 与 词 的 共现 次 数 。 这 样 我 们 就 可 以 利 用 PageRank 算 法 。图 4 给 出 了 作 文 主 题 特 征 提 取 的 算 法 流 程 。算 法 : 作 文 主 题 特 征 提 取输 入 : 分 词 和 词 性 标 注 后 的 篇 作 文 样 本 语 料 , 分 词 后 的 预 测 作 文 ,算 法 的 迭 代 次 数 , 共 现 窗 口 大 小输 出 : 作 文 的 主 题 特 征 值方 法 :1. 计 算 语 料 中 , 词 的 主 题 权 值式 子 中 是 第 个 词 的 词 频2. 去 掉 辅 助 功 能 的 词 , 只 保 留 名 词 , 动 词 , 形 容 词3. 以 为 窗 口 , 统 计 语 料 中 , 两 个 词 的 共 现 次 数 。4. 过 滤 , 共 现 次 数 小 于 5 的 词 对 , 统 计 余 下 共 现 次 数 的 总 和5. 计 算 共 现 的 权 重5. 利 用 算 法 , 迭 代 次6. 作 文 的 主 题 特 征 值 为 该 篇 文 章 所 有 词 的 主 题 特 征 值 之 和, 为 文 章 的 词 数 ,7. 返 回图 4 作 文 主 题 特 征 提 取 算 法 描 述Fig.4 the description of algorithm of extracting topic feature from the essay.6


3.3 分 段 回 归由 于 现 在 自 然 语 言 处 理 技 术 , 并 不 能 从 作 文 文 本 中 挖 掘 出 体 现 作 文 质 量 的 所 有 特 征 ,挖 掘 出 的 特 征 相 关 度 也 不 是 很 高 。 所 以 我 们 希 望 从 其 它 方 面 挖 掘 一 些 能 够 提 高 预 测 精 度的 特 征 。表 2 作 文 分 数 分 布Tab.2 The distribution of scores of the essay分 数 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6篇 数 28 37 47 122 137 222 198 132 48 14 9比 例 2.8% 3.7% 4.7% 12% 14% 22% 20% 13% 5% 1.5% 1%我 们 从 18000 篇 作 文 中 , 随 机 挑 选 出 994 篇 作 文 。 我 们 可 以 从 表 2 中 看 出 作 文 分 数的 分 布 , 大 约 有 80% 的 作 文 集 中 在 2.5-4.5 分 数 段 。 我 们 利 用 分 数 分 布 的 这 个 特 征 , 来 提高 我 们 的 预 测 精 度 。 我 们 提 出 利 用 分 段 回 归 的 思 想 进 行 建 模 , 图 5 给 出 的 是 分 段 回 归 的算 法 流 程 图 。算 法 : 分 段 回 归输 入 : 训 练 作 文 的 特 征 和 分 数 , 预 测 作 文 的 特 征 , 分 段 阈 值输 出 : 预 测 作 文 的 分 数方 法 :1. 对 所 有 的 训 练 作 文 进 行 回 归 , 得 到 回 归 系 数2. 对 大 于 分 段 阈 值 的 所 有 训 练 作 文 进 行 回 归 , 得 到 回 归 系 数3. 对 小 于 分 段 阈 值 的 所 有 训 练 作 文 进 行 回 归 , 得 到 回 归 系 数4. 把 要 预 测 的 作 文 特 征 值 结 合 回 归 系 数 , 得 到 预 测 的 分 数5. 如 果 预 测 分 数 大 于 , 把 要 预 测 的 作 文 特 征 值 输 入 到 回 归 系 数; 如 果 预 测 分 数 小 于 , 把 要 预 测 的 作 文 特 征 值 输 入 到 回 归 系 数, 这 样 得 到 的 分 数 为 最 后 预 测 的 分 数6. 返 回图 5 分 段 回 归 算 法 描 述Fig.5 the description of segmented regression algorithm.3.4 三 重 分 段 回 归后 面 的 实 验 表 明 , 辅 助 评 分 系 统 的 评 分 精 度 , 还 不 能 达 到 实 用 的 要 求 。 那 我 们 能 否利 用 辅 助 评 分 系 统 来 减 轻 阅 卷 的 工 作 量 呢 ?我 们 的 思 路 是 借 用 E-rater 的 做 法 , 试 卷 的 最 终 得 分 由 辅 助 评 分 系 统 的 评 分 和 一 名 评卷 员 决 定 。 同 先 前 有 两 名 评 卷 员 的 做 法 一 样 , 如 果 辅 助 评 分 系 统 跟 评 卷 员 的 评 分 相 差 大于 1 分 , 就 请 第 二 名 评 卷 员 评 分 。 现 在 , 问 题 就 变 成 了 如 何 使 得 辅 助 评 分 系 统 的 评 分 和评 阅 员 的 评 分 相 差 大 于 1 分 的 比 例 最 小 ?我 们 的 思 路 是 更 好 的 利 用 训 练 语 料 , 训 练 语 料 中 的 每 篇 作 文 , 其 实 有 3 个 分 数 , 两个 评 分 员 的 评 分 , 和 最 终 的 分 数 。 我 们 就 是 充 分 的 利 用 这 三 个 分 数 , 训 练 三 个 分 段 回 归模 型 , 我 们 称 之 为 三 重 分 段 回 归 模 型 。 这 样 的 话 , 一 个 测 试 作 文 提 取 特 征 , 代 入 到 这 个三 重 分 段 回 归 模 型 中 , 就 会 得 到 三 个 分 数 。 如 果 这 三 个 预 测 分 数 中 , 有 一 个 分 数 和 评 阅7


员 的 评 分 , 小 于 1 分 , 就 取 两 个 分 数 的 中 间 值 作 为 最 终 得 分 , 不 用 再 请 评 阅 员 评 分 了 。否 则 , 就 请 另 外 评 阅 员 评 阅 。4 实 验 结 果 及 分 析4.1 实 验 数 据 集 简 介实 验 中 , 我 们 使 用 的 语 料 来 自 2008 年 5 月 在 内 蒙 古 举 行 的 少 数 民 族 汉 考 。 我 们 从18000 篇 真 实 考 生 作 文 中 , 随 机 挑 选 了 968 篇 录 入 。 作 文 总 分 为 6 分 。 考 试 作 文 的 题 目 是读 一 段 短 文 , 然 后 写 感 想 。 这 种 半 开 放 的 考 试 题 目 在 汉 语 考 试 很 常 见 。 我 们 用 772 篇 用作 训 练 ,196 篇 用 作 测 试 。 用 于 训 练 的 试 卷 的 分 数 , 我 们 用 的 是 作 文 的 最 终 评 分 , 即 有 两个 评 卷 员 评 分 , 如 果 两 个 评 卷 员 的 评 分 相 差 大 于 1 分 , 就 请 一 个 资 深 评 卷 员 评 分 , 最 终分 数 是 以 资 深 评 卷 员 评 分 为 主 , 综 合 前 面 两 个 评 卷 员 的 评 分 。 如 果 两 个 评 卷 员 的 评 分 相差 小 于 或 等 于 1 分 , 就 取 两 个 评 阅 员 评 分 的 中 间 值 作 为 最 终 分 数 。4.2 评 测 指 标实 验 中 , 评 测 中 采 用 了 传 统 的 精 确 度 。 我 们 定 义 精 确 度 为 , 预 测 分 数 与 实 际 分 数 相差 在 0.5 分 以 内 的 比 例 。 我 们 对 语 料 进 行 统 计 发 现 , 两 个 评 卷 员 评 分 完 全 相 同 的 只 有 不 到40%, 就 是 说 , 有 大 于 60% 的 作 文 , 两 个 人 评 分 的 相 差 是 超 过 0.5 分 的 。 因 此 , 我 们 把 预测 分 数 和 实 际 分 数 的 误 差 定 义 为 0.5 分 , 这 个 值 是 完 全 可 以 接 受 的 。此 外 , 我 们 还 考 虑 了 相 关 度 , 在 提 取 特 征 后 , 建 模 手 段 是 回 归 分 析 。 回 归 分 析 是 要分 析 现 象 之 间 相 关 的 具 体 形 式 , 确 定 其 因 果 关 系 , 并 用 数 学 模 型 来 表 现 其 具 体 关 系 。 相关 度 代 表 的 是 现 象 之 间 是 否 相 关 、 相 关 的 方 向 和 密 切 程 度 , 一 般 不 区 别 自 变 量 或 因 变 量 。相 关 度 的 计 算 方 法 和 数 学 的 协 方 差 一 样 。4.3 实 验 及 分 析实 验 中 , 我 们 首 先 做 了 特 征 有 效 性 实 验 , 然 后 是 建 模 实 验 。 实 验 中 , 对 作 文 文 本 进1行 分 词 和 词 性 标 注 , 我 们 使 用 的 是 哈 工 大 信 息 检 索 实 验 室 提 供 的 自 然 语 言 处 理 包 。4.3.1 作 文 写 作 水 平 特 征 实 验在 进 行 作 文 写 作 水 平 特 征 抽 取 实 验 时 , 我 们 采 用 人 民 日 报 (1998 年 1-6 月 ) 的 语 料 ,作 为 大 语 库 , 测 试 语 料 是 772 篇 作 文 语 料 ,772 篇 这 个 数 量 , 足 够 能 保 证 , 我 们 特 征 相 关度 的 稳 定 性 和 有 效 性 。 为 了 防 止 稀 疏 性 的 词 频 阈 值 , 我 们 通 过 实 验 来 选 取 , 下 表 反 映 是特 征 相 关 度 随 着 词 频 阈 值 变 化 的 情 况 。表 3 作 文 写 作 水 平 特 征 测 试 结 果Tab.3 The test result of writing level feature from the essay阈 值 10 20 30 40 50 60 70 80 90相 关 度 0.4398 0.4437 0.4455 0.4464 0.4477 0.4486 0.4488 0.4471 0.4453从 表 3 中 可 以 看 出 , 阈 值 对 作 文 写 作 水 平 特 征 相 关 度 的 影 响 不 是 特 别 明 显 , 作 文 写作 水 平 特 征 相 关 度 在 不 同 阈 值 下 还 是 比 较 稳 定 的 。 从 图 中 可 以 看 出 , 作 文 写 作 水 平 特 征在 阈 值 50-70 时 , 达 到 相 对 比 较 高 的 阶 段 。 本 文 就 取 阈 值 处 于 50 时 的 作 文 写 作 水 平 特 征值 , 用 作 后 面 建 模 。1 http://ir.hit.edu.cn/8


4.3.2 作 文 主 题 特 征 实 验在 进 行 作 文 主 题 特 征 的 抽 取 实 验 时 , 我 们 用 上 一 节 的 500 篇 语 料 , 利 用 图 4 给 出 的作 文 主 题 特 征 提 取 算 法 流 程 来 获 得 主 题 特 征 。 实 验 中 , 我 们 的 共 现 窗 口 的 取 值 为 5。 我 们通 过 实 验 来 选 取 , 利 用 词 序 的 关 系 的 PageRank 算 法 的 迭 代 次 数 , 下 表 反 映 是 特 征 相 关 度随 着 迭 代 次 数 变 化 的 情 况 。表 4 PageRank 迭 代 次 数 对 作 文 主 题 特 征 测 试 结 果Tab.4 The test result of the influence of the number of iteration of pagerank algorithm to the topic feature of theessays迭 代 次 数 0 1 2 3 4 5相 关 度 0.4618 0.5291 0.5233 0.5042 0.4878 0.4755从 表 4 中 可 以 看 出 , 作 文 主 题 特 征 的 相 关 度 随 着 迭 代 次 数 的 增 加 , 而 减 小 。 基 于 以上 分 析 , 本 文 就 取 迭 代 次 数 为 1 的 作 文 主 题 的 特 征 值 , 用 作 后 面 建 模 。4.3.3 建 模为 了 验 证 分 段 回 归 算 法 的 有 效 性 , 在 建 模 实 验 中 , 我 们 同 时 实 验 了 线 性 不 分 段 回 归和 线 性 分 段 回 归 算 法 。 分 段 回 归 的 阈 值 , 我 们 取 3.5, 因 为 3.5 正 好 可 以 把 样 本 语 料 分 为差 不 多 对 等 的 两 分 。 用 772 篇 训 练 语 料 所 抽 取 的 特 征 和 最 终 的 评 分 , 训 练 回 归 参 数 ,196篇 作 测 试 。表 5 回 归 和 分 段 回 归 的 测 试 结 果Tab.5 The test result of regression and segmented regression相 关 度精 确 度线 性 不 分 段 回 归 0.5481 43.52%线 性 分 段 回 归 0.5953 46.11%从 表 5 中 , 可 以 看 出 线 性 分 段 回 归 比 线 性 不 分 段 回 归 在 相 关 度 和 精 确 度 上 都 有 了 明显 的 提 高 , 相 关 度 提 高 了 0.05, 精 度 提 高 了 3%。 但 是 , 即 使 这 样 , 辅 助 评 分 系 统 可 以 达到 的 最 好 精 度 为 46.11%。 这 样 的 精 度 , 显 然 仅 靠 辅 助 评 分 系 统 , 不 能 达 到 实 用 的 要 求 。接 下 来 的 我 们 通 过 一 个 实 验 , 验 证 三 重 分 段 回 归 模 型 的 有 效 性 。 在 196 篇 测 试 语 料上 , 分 别 用 分 段 回 归 和 三 重 分 段 回 归 。 实 验 结 果 见 下 表 :表 6 分 段 回 归 和 三 重 分 段 回 归 的 测 试 结 果Tab.6 The test result of segmented and triple segmented regression预 测 分 数 误 差 小 于 1 分 比 例分 段 回 归 77.20%三 重 分 段 回 归 84.60%从 表 6 , 可 以 看 出 通 过 三 重 分 段 回 归 模 型 , 可 以 使 辅 助 评 分 系 统 与 评 阅 员 的 评 分 小于 1 分 的 比 例 , 提 升 7%, 达 到 84% 以 上 。 这 样 , 只 有 16% 的 试 卷 , 需 要 评 分 员 重 新 进 行 评分 。表 7 三 重 分 段 回 归 的 测 试 结 果Tab.8 The test result of triple segmented regression相 关 度精 确 度三 重 分 段 回 归 0.9187 97.45%最 后 , 为 了 验 证 我 们 系 统 的 精 度 , 我 们 就 把 辅 助 评 分 系 统 的 评 分 当 做 一 个 评 阅 员 的评 分 , 结 合 一 个 真 实 评 分 员 的 评 分 , 进 行 预 测 。 如 果 辅 助 评 分 系 统 的 评 分 和 一 名 评 卷 员9


差 小 于 1 分 , 就 取 和 评 卷 员 评 分 最 接 近 分 数 取 平 均 分 作 为 最 后 得 分 。 如 果 相 差 大 于 1 分 ,就 请 第 二 名 评 卷 员 评 分 , 我 们 实 验 中 取 测 试 试 卷 的 真 实 最 终 得 分 。 我 们 通 过 实 验 得 到 最后 预 测 分 数 的 精 确 度 和 相 关 度 。从 表 7 中 , 可 以 看 出 分 数 的 精 确 度 已 经 达 到 97% 以 上 , 这 个 精 度 完 全 可 以 使 用 。 我们 计 算 一 下 , 在 达 到 完 全 可 以 实 用 的 精 度 下 , 我 们 的 作 文 辅 助 评 分 系 统 所 能 够 节 省 的 劳动 力 ?我 们 就 假 设 100 份 试 卷 , 如 果 不 用 我 们 的 系 统 , 两 个 评 阅 员 首 先 评 阅 的 阅 卷 量 为100*2=200( 人 * 卷 )。 根 据 我 们 的 统 计 , 大 约 有 13.5% 试 卷 需 要 资 深 评 分 员 评 阅 , 资 深 评分 员 评 卷 的 薪 酬 是 普 通 评 分 员 的 3 倍 , 那 么 100 份 试 卷 需 要 付 出 的 阅 卷 量 为200+13.5*3=240( 人 * 卷 )。 如 果 利 用 我 们 的 系 统 , 一 个 评 分 员 首 先 评 分 的 阅 卷 量 为100*1=100( 人 * 卷 )。 根 据 表 6 的 数 据 , 大 约 有 16% 的 试 卷 , 需 要 评 分 员 重 新 进 行 评 分 ,这 16% 中 又 有 13.5% 要 资 深 评 分 员 评 分 , 那 么 100 份 试 卷 需 要 付 出 的 阅 卷 量 为100+16+0.135*16*3=122.3( 人 * 卷 )。 从 上 面 的 分 析 中 , 我 们 可 以 看 出 , 利 用 我 们 的 辅 助 评分 系 统 , 在 只 用 大 约 一 半 阅 卷 工 作 量 的 情 况 下 , 精 度 度 达 到 97% 以 上 。 这 足 以 说 明 辅 助评 分 系 统 的 价 值 。5 结 语作 文 辅 助 作 文 评 分 是 一 个 复 杂 的 过 程 , 需 要 总 结 前 人 的 经 验 并 不 断 汲 取 新 的 理 念 、 利用 最 新 的 技 术 。 这 样 , 才 能 不 断 的 提 高 机 器 的 精 度 。本 文 利 用 统 计 自 然 语 言 处 理 和 信 息 检 索 的 技 术 和 思 想 提 取 特 征 , 建 模 时 利 用 样 本 作 文分 数 的 分 布 , 提 出 三 重 分 段 回 归 模 型 。 在 节 省 大 约 一 半 阅 卷 量 的 情 况 下 , 达 到 97% 以 上的 精 确 度 。相 对 英 文 作 文 辅 助 评 分 系 统 , 中 文 作 文 辅 助 评 分 系 统 还 处 于 起 步 阶 段 , 未 来 还 有 很 多的 工 作 需 要 完 善 。 我 们 就 提 出 以 下 几 个 方 向 :(1) 利 用 更 高 级 的 自 然 语 言 处 理 和 信 息 检 索 技 术 , 从 作 文 文 本 中 挖 掘 出 更 多 跟 作 文 质量 好 坏 相 关 的 特 征 。(2) 防 作 弊 技 术 , 中 文 作 文 辅 助 评 分 如 果 要 想 在 商 业 应 用 上 取 得 成 功 , 很 完 善 的 防 作弊 技 术 是 必 不 可 少 的 。(3) 在 更 大 规 模 的 语 料 进 行 测 试 , 现 在 我 们 的 测 试 语 料 只 是 100 篇 级 的 , 要 真 正 达 到商 用 , 必 须 在 更 大 规 模 的 语 料 上 测 试 。参 考 文 献 :[1] 李 莉 , 张 太 红 . LSA 在 中 文 短 文 自 动 判 分 系 统 中 的 应 用 研 究 [J]. 计 算 机 工 程 与 应 用 ,43(20):177-180,2007[2] 梁 茂 成 , 文 秋 芳 . 国 外 作 文 自 动 评 分 系 统 评 述 及 启 示 [J]. 外 语 电 话 教 学 ,No.117,2007.[3] 李 亚 男 . 汉 语 作 为 第 二 语 言 测 试 的 作 文 自 动 评 分 研 究 [M]., 北 京 语 言 大 学 , 硕 士 论 文 ,2006[4] Page, E. B. Project Essay Grade: PEG. In M. D. Shermis & J. Burstein (Eds.) [J]. Automated essay scoring:A cross-disciplinary perspective (pp. 43–54). Mahwah, NJ: Lawrence Erlbaum Associates,2003[5] Page, E. B. (1994). Computer Grading of Student Prose, Using Modern Concepts and Software[J]. Journal10


of Experimental Education, 62, 127–14[6] Landauer, T. K., Laham, D., & Foltz, P. W. The intelligent essay assessor: Putting knowledge to the test.[c]//Paper presented at the Association of Test Publishers Computer-Based Testing: Emerging Technologies andOpportunities for Diverse Applications conference, Tucson, AZ.2001[7] Landauer, T. K., Laham, D., & Foltz, P. W. Automated scoring and annotation of essays with the IntelligentEssay Assessor[J]. In M. D. Shermis & J. Burstein (Eds.), Automated essay scoring: A cross-disciplinaryperspective (pp. 87–112). Mahwah, NJ: Lawrence Erlbaum Associates, Inc.2003.[8] Burstein, J. (2003). The e-rater scoring engine: Automated Essay Scoring with natural languageprocessing[J]. In M. D. Shermis and J. C. Burstein (Eds.), Automated Essay Scoring: A cross disciplinaryapproach (pp. 113–121). Mahwah, NJ: Lawrence Erlbaum Associates.[9] J. Burstein, K. Kukich, S. Wolff, C. Lu, M. Chodorow,L. Braden-Harder, and M. D. Harris. Automatedscoring using a hybrid feature identification technique[c]//In Proceedings of the 17th international conferenceon Computational linguistics, pages 206–210, Morristown,NJ, USA, 1998. Association for ComputationalLinguistics.[10] Elliot. IntelliMetric: from here to validity[J]. In Mark D. Shermis and Jill C. Burstein (Eds.). Automatedessay scoring: a cross disciplinary approach. Mahwah, NJ: Lawrence Erlbaum Associates,2003.[11] Elliot, S. M. IntelliMetric: From here to validity[c]// Paper presented at the annual meeting of theAmerican Educational Research Association, Seattle, WA,200111

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!