Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
生 物 信 息 学 课 程 交 流<br />
基 因 预 测<br />
CAAS08F1A: 张 荣 志 郑 永 胜 郝 峰<br />
演 讲 人 : 杨 菲<br />
李 玉 荣 张 程 程 李 珊 珊<br />
杨 菲 郑 作 良 刘 峙<br />
1
1. 基 因 预 测 意 义<br />
2. 基 因 预 测 原 理<br />
3. 基 因 预 测 常 用 软 件<br />
4. 存 在 的 主 要 问 题<br />
2
1. 基 因 预 测 意 义<br />
据 GOLD(GenomesG OnLine Database) 网 站 统 计 , 截<br />
止 到 2009 年 3 月 1 日 , 已 经 完 成 测 序 的 基 因 组 有 958 种 , 正 在<br />
进 行 测 序 的 多 达 3655 种 。<br />
3
大 量 生 物 基 因 组 计 划 的 完 成 提 供 了 极 其 丰 富 的<br />
生 物 序 列 资 源 , 如 何 进 行 序 列 注 释 是 测 序 后 所 面<br />
临 的 首 要 问 题 。 从 目 前 的 研 究 来 看 , 基 因 组 序 列<br />
由 3 种 成 分 构 成 : 基 因 序 列 、 重 复 序 列 、 基 因 间<br />
区 序 列 。 基 因 序 列 在 高 等 生 物 基 因 组 中 所 占 的 比<br />
例 可 能 并 不 大 , 但 却 是 控 制 生 物 性 状 遗 传 的 主 要<br />
因 素 , 正 确 鉴 定 它 们 对 分 子 遗 传 学 研 究 至 关 重 要 。<br />
4
2. 基 因 预 测 原 理<br />
• 原 核 基 因 结 构<br />
• 真 核 基 因 结 构<br />
• 马 尔 可 夫 模 型 与 隐 马 尔 可 夫 模 型<br />
• 基 因 预 测 算 法 的 分 类<br />
• 原 核 生 物 中 的 基 因 预 测<br />
• 真 核 生 物 中 的 基 因 预 测<br />
6
2.1 原 核 基 因 结 构<br />
• 原 核 生 物 基 因 组 小 , 基 因 密 度 高 , 很 少 存 在 重 复 序 列 ,<br />
一 个 基 因 是 由 编 码 一 个 蛋 白 质 或 RNA 的 开 封 阅 读 框 构 成 ,<br />
中 间 没 有 间 断 。<br />
• 细 菌 的 起 始 密 码 子 为 : ATG, GTG, TTG<br />
• 核 糖 体 结 合 位 点 (Shine-Delgaron sequence)<br />
• 终 止 密 码 子 较 容 易 确 定<br />
• 转 录 终 止 子<br />
• 密 码 子 偏 好 性<br />
翻 译 起 始 位 点<br />
转 录 起 始 位 点<br />
编 码 区<br />
翻 译 终 止 位 点<br />
转 录 终 止 子<br />
AGGAGGT<br />
TTTTT<br />
核 糖 体 结 合 位 点<br />
7
2.2 真 核 基 因 结 构<br />
• 基 因 组 较 大 , 基 因 密 度 低 , 富 含 重 复 序 列 和 转 座 元 件 ; 最 重 要<br />
的 是 基 因 被 插 入 的 非 编 码 序 列 ( 内 含 子 ) 切 分 成 小 段 ( 外 显<br />
子 )。<br />
• 初 生 的 转 录 产 物 需 要 经 过 三 个 步 骤 转 变 成 成 熟 的 可 翻 译 为 蛋 白<br />
的 mRNA。<br />
• 真 核 基 因 预 测 的 主 要 问 题 是 识 别 外 显 子 、 内 含 子 和 间 接 位 点 。<br />
• 真 核 基 因 中 存 在 一 些 保 守 序 列 特 征 有 助 于 进 行 计 算 预 测 , 如 :<br />
GT-AG 规 则 , 密 码 子 偏 好 性 , 六 聚 体 频 率 ,kozak 序 列 ,CpG 岛 ,<br />
poly-A<br />
8
2.3 马 尔 可 夫 模 型 与 隐 马 尔 可 夫 模 型<br />
• 马 尔 可 夫 模 型 是 描 述 一 条 DNA 序 列 中 核 苷 酸 分 布 的<br />
模 型 。<br />
• 用 马 尔 可 夫 模 型 进 行 基 因 预 测 利 用 以 下 事 实 : 编 码 区<br />
寡 核 苷 酸 分 布 概 率 与 非 编 码 区 不 同 。<br />
• 统 计 分 析 表 明 密 码 子 对 具 有 相 关 性 。 一 组 六 聚 体 核 苷<br />
酸 在 编 码 区 出 现 的 概 率 要 比 随 机 分 布 概 率 高 , 因 此 ,<br />
用 计 算 六 聚 体 碱 基 概 率 的 五 阶 马 尔 可 夫 模 型 来 检 测 编<br />
码 区 中 核 苷 酸 的 相 关 性 准 确 度 更 高 , 也 较 为 常 用 。<br />
• 在 基 因 内 容 和 长 度 分 布 上 , 非 典 型 的 基 因 和 典 型 基 因<br />
是 不 同 的 , 预 测 典 型 基 因 的 模 型 可 能 会 漏 掉 对 非 典 型<br />
基 因 的 预 测 。 为 了 使<br />
一 个 算 法 适 用 于 整 个 基 因 组 中 的<br />
全 部 基 因 , 就 需 要 更 多 的 马 尔 可 夫 模 型 。 结 合 代 表 典<br />
型 与 非 典 型 核 苷 酸 分 布 的 不 同 的 马 尔 可 夫 模 型 , 建 立<br />
了 隐 马 尔 可 夫 模 型 预 测 算 法 。<br />
9
2.4 基 因 预 测 程 序 分 类<br />
• 基 于 从 头 算 的 方 法 (Ab initio-based): 以 给 定 的<br />
序 列 本 身 来 进 行 预 测 , 主 要 依 赖 于 以 下 两 个 特 征 :<br />
基 因 信 号 (Gene signals): 包 括 起 始 终 止 密 码 子 , 内<br />
含 子 剪 接 信 号 , 转 录 因 子 结 合 位 点 , 核 糖 体 结 合 位 点 以 及<br />
Poly-A 等 。<br />
基 因 内 容 (Gene content): 对 编 码 区 的 统 计 学 上 的<br />
描 述 。 可 以 由 概 率 模 型 : 马 尔 可 夫 模 型 或 隐 马 尔 可 夫 模 型<br />
检 测 到 这 一 特 性 , 用 以 区 别 编 码 与 非 编 码 区 。<br />
• 基 于 同 源 性 的 方 法 (Homology-based) 以 检 索 序<br />
列 与 已 知 基 因 的 序 列 最 大 的 匹 配 为 基 础 。<br />
• 基 于 一 致 性 的 算 法 (Consensus based) 以 上 两 种 策<br />
略 相 结 合 。<br />
10
2.5 原 核 生 物 中 的 基 因 预 测<br />
• 由 于 原 核 生 物 基 因 组 密 度 较 高 且 没 有 插 入<br />
基 因 , 其 预 测 较 真 核 生 物 简 单 。 目 前 , 基<br />
于 HMMs 的 原 核 生 物 基 因 预 测 算 法 已 经 达<br />
到 相 当 高 的 准 确 度 。<br />
• 主 要 对 真 核 生 物 中 的 基 因 预 测 做 详 细 介 绍 。<br />
11
2.6 真 核 生 物 中 的 基 因 预 测<br />
• 统 分 为 三 大 类 :<br />
以 从 头 算 的 方 法 为 基 础<br />
以 同 源 性 的 方 法 为 基 础<br />
以 一 致 性 为 基 础<br />
• 大 部 分 程 序 是 物 种 专 一 的 , 这 是 由 于<br />
用 于 获 得 统 计 参 数 的 训 练 数 据 必 须 由<br />
单 一 生 物 体 取 得 。<br />
12
2.6.1 基 于 从 头 算 (Ab initio-based)<br />
的 程 序<br />
• 此 程 序 的 目 标 是 从 非 编 码 序 列 中 辨 别 外 显 子 ,<br />
随 后 使 外 显 子 以 正 确 的 次 序 排 列 。<br />
• 主 要 困 难 之 处 在 于 正 确 识 别 外 显 子 。 要 预 测 外<br />
显 子 , 算 法 依 赖 于 两 个 方 面 特 征 , 基 因 信 号 和<br />
基 因 内 容 。<br />
其 中 , 六 聚 体 频 率 对 识 别 可 能 的 编 码 区 来 说 是 最<br />
具 有 鉴 别 力 的 。<br />
• 以 下 分 别 介 绍 用 判 别 分 析 和 隐 马 尔 可 夫 模 型 进<br />
行 预 测 的 原 理 。<br />
13
2.6.1.1 用 判 别 分 析 进 行 预 测<br />
• 一 些 基 因 预 测 程 序 依 赖 于 判 别 分 析 , 线 性 判 别<br />
分 析 ( LDA ) 或 二 次 判 别 分 析 ( QDA ), 来<br />
提 高 准 确 性 。<br />
• LDA 或 QDA 用 编 码 信 号 对 应 的 所 有 可 能 的 3’ 端<br />
剪 接 位 点 作 二 维 图 , 并 用 斜 线 或 曲 线 来 划 分 编<br />
码 与 非 编 码 信 号 , 这 是 以 已 知 基 因 结 构 的 培 训<br />
数 据 集 的 知 识 为 基 础 的 。<br />
• E.g: FGENES, MZEF.<br />
14
2.6.1.2 用 隐 马 尔 可 夫 模 型 进 行 基 因 预 测<br />
• GENESCAN 是 以 网 络 为 基 础 的 基 于 五 阶 马 尔 可<br />
夫 模 型 进 行 基 因 预 测 的 程 序 。<br />
• 它 结 合 六 聚 体 频 率 以 及 编 码 信 号 ( 起 始 密 码 子 ,<br />
TATA box, 帽 子 位 点 ,poly-A 等 ) 进 行 预 测 。<br />
• 假 定 的 外 显 子 能 够 成 为 真 外 显 子 的 概 率 得 分 为 P,<br />
只 有 当 P 大 于 0.5 时 , 才 被 认 为 是 可 靠 的 。<br />
• 此 程 序 训 练 用 于 脊 椎 动 物 、 拟 南 芥 ( 双 子 叶 植<br />
物 ) 和 玉 米 ( 单 子 叶 植 物 )。 也 可 以 用 来 预 测<br />
人 类 基 因 。<br />
15
2.6.2 基 于 同 源 性 (Homology-based)<br />
的 程 序<br />
• 以 同 源 性 为 基 础 的 程 序 是 以 相 关 物 种 外 显 子 的 结 构 及 序 列<br />
的 高 度 保 守 性 为 基 础 的 。<br />
• 当 一 条 检 索 序 列 中 编 码 蛋 白 质 的 序 列 翻 译 后 并 与 数 据 库 中<br />
最 为 相 近 的 蛋 白 质 序 列 比 对 后 , 如 有 几 乎 完 全 配 对 的 区 域 ,<br />
即 可 显 示 出 检 测 序 列 的 外 显 子 界 限 。<br />
• 这 种 方 法 假 定 数 据 库 中 的 序 列 都 是 正 确 的 。 它 按 照 以 下 事<br />
实 进 行 合 理 假 设 : 用 于 比 较 的 同 源 序 列 均 来 自 于 同 一 物 种<br />
的 cDNA 或 表 达 序 列 标 签 。 由 于 有 实 验 证 据 的 支 持 , 这 对<br />
于 在 未 知 基 因 组 的 DNA 中 寻 找 基 因 来 说 是 一 种 十 分 有 效 的<br />
方 法 。<br />
• 这 种 方 法 的 缺 点 是 , 数 据 库 中 必 须 存 在 同 源 序 列 。 在 数 据<br />
库 中 没 有 匹 配 的 情 况 下 新 物 种 中 的 新 基 因 则 不 能 被 预 测 。<br />
• E.g: GenomeScan, EST2Genome, SGP-1, TwinScan.<br />
16
2.6.3 基 于 一 致 性 (Consensus-based)<br />
的 程 序<br />
• 由 于 不 同 的 预 测 程 序 的 灵 敏 度 和 特 异 性 的 差 异 , 以 综 合 手<br />
段 为 基 础 的 方 法 将 多 个 程 序 的 结 果 综 合 起 来 进 行 分 析 是 十<br />
分 有 必 要 的 。<br />
• 该 方 法 将 与 大 多 数 程 序 相 一 致 的 预 测 结 果 保 留 下 来 , 其 余<br />
的 结 果 被 删 除 掉 。<br />
• 这 种 方 法 可 以 提 高 特 异 性 , 但 会 遗 漏 一 些 有 用 的 新 预 测<br />
( 因 为 新 预 测 可 能 不 被 大 多 数 程 序 认 可 而 被 忽 略 掉 了 )。<br />
• E.g: GeneComber, DIGIT.<br />
17
3. 基 因 预 测 常 用 软 件<br />
• 适 用 于 原 核 生 物<br />
GeneMark, Glimmer, FGENESB<br />
• 适 用 于 真 核 生 物<br />
GENSCAN, FGENESH, TwinScan<br />
18
常 用 基 因 预 测 软 件 网 址<br />
基 于 同 源 性 的 预 测 软 件<br />
Genemark http://opal.biology.gatech.edu/GeneMark/<br />
Glimmer http://cbcb.umd.edu/software/glimmer/<br />
FGENES http://linux1.softberry.com/berry.phtml?top<br />
ic=fgenes&group=programs&subgroup=gfind<br />
GENSCAN http://genes.mit.edu/GENSCAN.html<br />
HMMgene http://www.cbs.dtu.dk/services/HMMgene/<br />
基 于 比 较 基 因 组 学 的 预 测 软 件<br />
Twinscan<br />
http://mblab.wustl.edu/nscan/submit/<br />
28
4. 存 在 的 主 要 问 题<br />
• 假 阳 性 (False Positive, FP): 多 预 测 了 假 的 编 码<br />
区 , 即 在 非 编 码 区 预 测 出 编 码 区 。<br />
• 假 阴 性 False Negative, FN): 漏 掉 了 真 实 的 编 码 区 ,<br />
即 将 编 码 区 预 测 为 非 编 码 区 。<br />
• 过 界 预 测 (Over Prediction, i OP): 由 于 基 因 边 界<br />
很 难 准 确 定 位 , 预 测 经 常 会 超 出 实 际 边 界 。<br />
• 片 段 化 (Fragmentation): 内 含 子 过 大 的 基 因 ,<br />
在 预 测 时 容 易 断 裂 成 两 个 或 多 个 基 因 。<br />
• 融 合 化 (Fusion): 距 离 过 近 的 两 个 或 多 个 基 因 ,<br />
在 预 测 时 容 易 被 融 合 成 一 个 很 大 的 基 因 。<br />
29
小 结<br />
基 因 的 计 算 预 测 是 基 因 组 序 列 分 析 的 各 个 过 程 中 最 为 重 要<br />
的 一 步 。 由 于 原 核 生 物 基 因 组 密 度 较 高 且 没 有 插 入 基 因 , 其<br />
预 测 较 真 核 生 物 简 单 。 目 前 , 基 于 HMMs 的 原 核 生 物 基 因 预<br />
测 算 法 已 经 达 到 相 当 高 的 准 确 度 , 但 是 对 于 真 核 生 物 预 测 还<br />
存 在 着 许 多 问 题 。 对 于 ab-initio 算 法 , 在 进 行 真 核 生 物 基 因<br />
组 预 测 时 HMM 算 法 能 很 好 的 区 分 外 显 子 - 内 含 子 的 界 限 , 其<br />
主 要 的 限 制 是 对 于 统 计 模 型 训 练 的 依 赖 性 , 训 练 使 此 方 法 变<br />
得 物 种 专 一 。 同 源 性 为 基 础 的 算 法 结 合 HMM 可 以 获 得 进 一<br />
步 的 准 确 性 , 这 种 算 法 受 限 于 数 据 库 中 同 源 序 列 的 可 用 性 。<br />
结 合 统 计 和 同 源 信 息 的 综 合 算 法 通 过 准 确 地 检 测 更 多 的 基 因<br />
和 外 显 子 来 得 到 更 好 的 结 果 。 随 着 计 算 技 术 的 进 步 和 对 于 剪<br />
接 机 制 的 进 一 步 认 识 , 在 不 久 的 将 来 可 信 度 高 的 真 核 基 因 组<br />
预 测 可 以 成 为 现 实 。<br />
30
Thank you!<br />
2009.03.08<br />
31