21.04.2015 Views

基因预测 - abc

基因预测 - abc

基因预测 - abc

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

生 物 信 息 学 课 程 交 流<br />

基 因 预 测<br />

CAAS08F1A: 张 荣 志 郑 永 胜 郝 峰<br />

演 讲 人 : 杨 菲<br />

李 玉 荣 张 程 程 李 珊 珊<br />

杨 菲 郑 作 良 刘 峙<br />

1


1. 基 因 预 测 意 义<br />

2. 基 因 预 测 原 理<br />

3. 基 因 预 测 常 用 软 件<br />

4. 存 在 的 主 要 问 题<br />

2


1. 基 因 预 测 意 义<br />

据 GOLD(GenomesG OnLine Database) 网 站 统 计 , 截<br />

止 到 2009 年 3 月 1 日 , 已 经 完 成 测 序 的 基 因 组 有 958 种 , 正 在<br />

进 行 测 序 的 多 达 3655 种 。<br />

3


大 量 生 物 基 因 组 计 划 的 完 成 提 供 了 极 其 丰 富 的<br />

生 物 序 列 资 源 , 如 何 进 行 序 列 注 释 是 测 序 后 所 面<br />

临 的 首 要 问 题 。 从 目 前 的 研 究 来 看 , 基 因 组 序 列<br />

由 3 种 成 分 构 成 : 基 因 序 列 、 重 复 序 列 、 基 因 间<br />

区 序 列 。 基 因 序 列 在 高 等 生 物 基 因 组 中 所 占 的 比<br />

例 可 能 并 不 大 , 但 却 是 控 制 生 物 性 状 遗 传 的 主 要<br />

因 素 , 正 确 鉴 定 它 们 对 分 子 遗 传 学 研 究 至 关 重 要 。<br />

4


2. 基 因 预 测 原 理<br />

• 原 核 基 因 结 构<br />

• 真 核 基 因 结 构<br />

• 马 尔 可 夫 模 型 与 隐 马 尔 可 夫 模 型<br />

• 基 因 预 测 算 法 的 分 类<br />

• 原 核 生 物 中 的 基 因 预 测<br />

• 真 核 生 物 中 的 基 因 预 测<br />

6


2.1 原 核 基 因 结 构<br />

• 原 核 生 物 基 因 组 小 , 基 因 密 度 高 , 很 少 存 在 重 复 序 列 ,<br />

一 个 基 因 是 由 编 码 一 个 蛋 白 质 或 RNA 的 开 封 阅 读 框 构 成 ,<br />

中 间 没 有 间 断 。<br />

• 细 菌 的 起 始 密 码 子 为 : ATG, GTG, TTG<br />

• 核 糖 体 结 合 位 点 (Shine-Delgaron sequence)<br />

• 终 止 密 码 子 较 容 易 确 定<br />

• 转 录 终 止 子<br />

• 密 码 子 偏 好 性<br />

翻 译 起 始 位 点<br />

转 录 起 始 位 点<br />

编 码 区<br />

翻 译 终 止 位 点<br />

转 录 终 止 子<br />

AGGAGGT<br />

TTTTT<br />

核 糖 体 结 合 位 点<br />

7


2.2 真 核 基 因 结 构<br />

• 基 因 组 较 大 , 基 因 密 度 低 , 富 含 重 复 序 列 和 转 座 元 件 ; 最 重 要<br />

的 是 基 因 被 插 入 的 非 编 码 序 列 ( 内 含 子 ) 切 分 成 小 段 ( 外 显<br />

子 )。<br />

• 初 生 的 转 录 产 物 需 要 经 过 三 个 步 骤 转 变 成 成 熟 的 可 翻 译 为 蛋 白<br />

的 mRNA。<br />

• 真 核 基 因 预 测 的 主 要 问 题 是 识 别 外 显 子 、 内 含 子 和 间 接 位 点 。<br />

• 真 核 基 因 中 存 在 一 些 保 守 序 列 特 征 有 助 于 进 行 计 算 预 测 , 如 :<br />

GT-AG 规 则 , 密 码 子 偏 好 性 , 六 聚 体 频 率 ,kozak 序 列 ,CpG 岛 ,<br />

poly-A<br />

8


2.3 马 尔 可 夫 模 型 与 隐 马 尔 可 夫 模 型<br />

• 马 尔 可 夫 模 型 是 描 述 一 条 DNA 序 列 中 核 苷 酸 分 布 的<br />

模 型 。<br />

• 用 马 尔 可 夫 模 型 进 行 基 因 预 测 利 用 以 下 事 实 : 编 码 区<br />

寡 核 苷 酸 分 布 概 率 与 非 编 码 区 不 同 。<br />

• 统 计 分 析 表 明 密 码 子 对 具 有 相 关 性 。 一 组 六 聚 体 核 苷<br />

酸 在 编 码 区 出 现 的 概 率 要 比 随 机 分 布 概 率 高 , 因 此 ,<br />

用 计 算 六 聚 体 碱 基 概 率 的 五 阶 马 尔 可 夫 模 型 来 检 测 编<br />

码 区 中 核 苷 酸 的 相 关 性 准 确 度 更 高 , 也 较 为 常 用 。<br />

• 在 基 因 内 容 和 长 度 分 布 上 , 非 典 型 的 基 因 和 典 型 基 因<br />

是 不 同 的 , 预 测 典 型 基 因 的 模 型 可 能 会 漏 掉 对 非 典 型<br />

基 因 的 预 测 。 为 了 使<br />

一 个 算 法 适 用 于 整 个 基 因 组 中 的<br />

全 部 基 因 , 就 需 要 更 多 的 马 尔 可 夫 模 型 。 结 合 代 表 典<br />

型 与 非 典 型 核 苷 酸 分 布 的 不 同 的 马 尔 可 夫 模 型 , 建 立<br />

了 隐 马 尔 可 夫 模 型 预 测 算 法 。<br />

9


2.4 基 因 预 测 程 序 分 类<br />

• 基 于 从 头 算 的 方 法 (Ab initio-based): 以 给 定 的<br />

序 列 本 身 来 进 行 预 测 , 主 要 依 赖 于 以 下 两 个 特 征 :<br />

基 因 信 号 (Gene signals): 包 括 起 始 终 止 密 码 子 , 内<br />

含 子 剪 接 信 号 , 转 录 因 子 结 合 位 点 , 核 糖 体 结 合 位 点 以 及<br />

Poly-A 等 。<br />

基 因 内 容 (Gene content): 对 编 码 区 的 统 计 学 上 的<br />

描 述 。 可 以 由 概 率 模 型 : 马 尔 可 夫 模 型 或 隐 马 尔 可 夫 模 型<br />

检 测 到 这 一 特 性 , 用 以 区 别 编 码 与 非 编 码 区 。<br />

• 基 于 同 源 性 的 方 法 (Homology-based) 以 检 索 序<br />

列 与 已 知 基 因 的 序 列 最 大 的 匹 配 为 基 础 。<br />

• 基 于 一 致 性 的 算 法 (Consensus based) 以 上 两 种 策<br />

略 相 结 合 。<br />

10


2.5 原 核 生 物 中 的 基 因 预 测<br />

• 由 于 原 核 生 物 基 因 组 密 度 较 高 且 没 有 插 入<br />

基 因 , 其 预 测 较 真 核 生 物 简 单 。 目 前 , 基<br />

于 HMMs 的 原 核 生 物 基 因 预 测 算 法 已 经 达<br />

到 相 当 高 的 准 确 度 。<br />

• 主 要 对 真 核 生 物 中 的 基 因 预 测 做 详 细 介 绍 。<br />

11


2.6 真 核 生 物 中 的 基 因 预 测<br />

• 统 分 为 三 大 类 :<br />

以 从 头 算 的 方 法 为 基 础<br />

以 同 源 性 的 方 法 为 基 础<br />

以 一 致 性 为 基 础<br />

• 大 部 分 程 序 是 物 种 专 一 的 , 这 是 由 于<br />

用 于 获 得 统 计 参 数 的 训 练 数 据 必 须 由<br />

单 一 生 物 体 取 得 。<br />

12


2.6.1 基 于 从 头 算 (Ab initio-based)<br />

的 程 序<br />

• 此 程 序 的 目 标 是 从 非 编 码 序 列 中 辨 别 外 显 子 ,<br />

随 后 使 外 显 子 以 正 确 的 次 序 排 列 。<br />

• 主 要 困 难 之 处 在 于 正 确 识 别 外 显 子 。 要 预 测 外<br />

显 子 , 算 法 依 赖 于 两 个 方 面 特 征 , 基 因 信 号 和<br />

基 因 内 容 。<br />

其 中 , 六 聚 体 频 率 对 识 别 可 能 的 编 码 区 来 说 是 最<br />

具 有 鉴 别 力 的 。<br />

• 以 下 分 别 介 绍 用 判 别 分 析 和 隐 马 尔 可 夫 模 型 进<br />

行 预 测 的 原 理 。<br />

13


2.6.1.1 用 判 别 分 析 进 行 预 测<br />

• 一 些 基 因 预 测 程 序 依 赖 于 判 别 分 析 , 线 性 判 别<br />

分 析 ( LDA ) 或 二 次 判 别 分 析 ( QDA ), 来<br />

提 高 准 确 性 。<br />

• LDA 或 QDA 用 编 码 信 号 对 应 的 所 有 可 能 的 3’ 端<br />

剪 接 位 点 作 二 维 图 , 并 用 斜 线 或 曲 线 来 划 分 编<br />

码 与 非 编 码 信 号 , 这 是 以 已 知 基 因 结 构 的 培 训<br />

数 据 集 的 知 识 为 基 础 的 。<br />

• E.g: FGENES, MZEF.<br />

14


2.6.1.2 用 隐 马 尔 可 夫 模 型 进 行 基 因 预 测<br />

• GENESCAN 是 以 网 络 为 基 础 的 基 于 五 阶 马 尔 可<br />

夫 模 型 进 行 基 因 预 测 的 程 序 。<br />

• 它 结 合 六 聚 体 频 率 以 及 编 码 信 号 ( 起 始 密 码 子 ,<br />

TATA box, 帽 子 位 点 ,poly-A 等 ) 进 行 预 测 。<br />

• 假 定 的 外 显 子 能 够 成 为 真 外 显 子 的 概 率 得 分 为 P,<br />

只 有 当 P 大 于 0.5 时 , 才 被 认 为 是 可 靠 的 。<br />

• 此 程 序 训 练 用 于 脊 椎 动 物 、 拟 南 芥 ( 双 子 叶 植<br />

物 ) 和 玉 米 ( 单 子 叶 植 物 )。 也 可 以 用 来 预 测<br />

人 类 基 因 。<br />

15


2.6.2 基 于 同 源 性 (Homology-based)<br />

的 程 序<br />

• 以 同 源 性 为 基 础 的 程 序 是 以 相 关 物 种 外 显 子 的 结 构 及 序 列<br />

的 高 度 保 守 性 为 基 础 的 。<br />

• 当 一 条 检 索 序 列 中 编 码 蛋 白 质 的 序 列 翻 译 后 并 与 数 据 库 中<br />

最 为 相 近 的 蛋 白 质 序 列 比 对 后 , 如 有 几 乎 完 全 配 对 的 区 域 ,<br />

即 可 显 示 出 检 测 序 列 的 外 显 子 界 限 。<br />

• 这 种 方 法 假 定 数 据 库 中 的 序 列 都 是 正 确 的 。 它 按 照 以 下 事<br />

实 进 行 合 理 假 设 : 用 于 比 较 的 同 源 序 列 均 来 自 于 同 一 物 种<br />

的 cDNA 或 表 达 序 列 标 签 。 由 于 有 实 验 证 据 的 支 持 , 这 对<br />

于 在 未 知 基 因 组 的 DNA 中 寻 找 基 因 来 说 是 一 种 十 分 有 效 的<br />

方 法 。<br />

• 这 种 方 法 的 缺 点 是 , 数 据 库 中 必 须 存 在 同 源 序 列 。 在 数 据<br />

库 中 没 有 匹 配 的 情 况 下 新 物 种 中 的 新 基 因 则 不 能 被 预 测 。<br />

• E.g: GenomeScan, EST2Genome, SGP-1, TwinScan.<br />

16


2.6.3 基 于 一 致 性 (Consensus-based)<br />

的 程 序<br />

• 由 于 不 同 的 预 测 程 序 的 灵 敏 度 和 特 异 性 的 差 异 , 以 综 合 手<br />

段 为 基 础 的 方 法 将 多 个 程 序 的 结 果 综 合 起 来 进 行 分 析 是 十<br />

分 有 必 要 的 。<br />

• 该 方 法 将 与 大 多 数 程 序 相 一 致 的 预 测 结 果 保 留 下 来 , 其 余<br />

的 结 果 被 删 除 掉 。<br />

• 这 种 方 法 可 以 提 高 特 异 性 , 但 会 遗 漏 一 些 有 用 的 新 预 测<br />

( 因 为 新 预 测 可 能 不 被 大 多 数 程 序 认 可 而 被 忽 略 掉 了 )。<br />

• E.g: GeneComber, DIGIT.<br />

17


3. 基 因 预 测 常 用 软 件<br />

• 适 用 于 原 核 生 物<br />

GeneMark, Glimmer, FGENESB<br />

• 适 用 于 真 核 生 物<br />

GENSCAN, FGENESH, TwinScan<br />

18


常 用 基 因 预 测 软 件 网 址<br />

基 于 同 源 性 的 预 测 软 件<br />

Genemark http://opal.biology.gatech.edu/GeneMark/<br />

Glimmer http://cbcb.umd.edu/software/glimmer/<br />

FGENES http://linux1.softberry.com/berry.phtml?top<br />

ic=fgenes&group=programs&subgroup=gfind<br />

GENSCAN http://genes.mit.edu/GENSCAN.html<br />

HMMgene http://www.cbs.dtu.dk/services/HMMgene/<br />

基 于 比 较 基 因 组 学 的 预 测 软 件<br />

Twinscan<br />

http://mblab.wustl.edu/nscan/submit/<br />

28


4. 存 在 的 主 要 问 题<br />

• 假 阳 性 (False Positive, FP): 多 预 测 了 假 的 编 码<br />

区 , 即 在 非 编 码 区 预 测 出 编 码 区 。<br />

• 假 阴 性 False Negative, FN): 漏 掉 了 真 实 的 编 码 区 ,<br />

即 将 编 码 区 预 测 为 非 编 码 区 。<br />

• 过 界 预 测 (Over Prediction, i OP): 由 于 基 因 边 界<br />

很 难 准 确 定 位 , 预 测 经 常 会 超 出 实 际 边 界 。<br />

• 片 段 化 (Fragmentation): 内 含 子 过 大 的 基 因 ,<br />

在 预 测 时 容 易 断 裂 成 两 个 或 多 个 基 因 。<br />

• 融 合 化 (Fusion): 距 离 过 近 的 两 个 或 多 个 基 因 ,<br />

在 预 测 时 容 易 被 融 合 成 一 个 很 大 的 基 因 。<br />

29


小 结<br />

基 因 的 计 算 预 测 是 基 因 组 序 列 分 析 的 各 个 过 程 中 最 为 重 要<br />

的 一 步 。 由 于 原 核 生 物 基 因 组 密 度 较 高 且 没 有 插 入 基 因 , 其<br />

预 测 较 真 核 生 物 简 单 。 目 前 , 基 于 HMMs 的 原 核 生 物 基 因 预<br />

测 算 法 已 经 达 到 相 当 高 的 准 确 度 , 但 是 对 于 真 核 生 物 预 测 还<br />

存 在 着 许 多 问 题 。 对 于 ab-initio 算 法 , 在 进 行 真 核 生 物 基 因<br />

组 预 测 时 HMM 算 法 能 很 好 的 区 分 外 显 子 - 内 含 子 的 界 限 , 其<br />

主 要 的 限 制 是 对 于 统 计 模 型 训 练 的 依 赖 性 , 训 练 使 此 方 法 变<br />

得 物 种 专 一 。 同 源 性 为 基 础 的 算 法 结 合 HMM 可 以 获 得 进 一<br />

步 的 准 确 性 , 这 种 算 法 受 限 于 数 据 库 中 同 源 序 列 的 可 用 性 。<br />

结 合 统 计 和 同 源 信 息 的 综 合 算 法 通 过 准 确 地 检 测 更 多 的 基 因<br />

和 外 显 子 来 得 到 更 好 的 结 果 。 随 着 计 算 技 术 的 进 步 和 对 于 剪<br />

接 机 制 的 进 一 步 认 识 , 在 不 久 的 将 来 可 信 度 高 的 真 核 基 因 组<br />

预 测 可 以 成 为 现 实 。<br />

30


Thank you!<br />

2009.03.08<br />

31

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!