02.01.2015 Views

复杂有序数据的可视化分析 - 北京大学可视化与可视分析研究组

复杂有序数据的可视化分析 - 北京大学可视化与可视分析研究组

复杂有序数据的可视化分析 - 北京大学可视化与可视分析研究组

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

复 杂 有 序 数 据 的 可 视 化 分 析<br />

陈 为<br />

chenwei@cad.zju.edu.cn<br />

Tel: 0571-88206681-529; 13588477530<br />

浙 江 大 学 CAD&CG 国 家 重 点 实 验 室<br />

http://www.cad.zju.edu.cn/home/chenwei


复 杂 有 序 数 据<br />

• 时 间 序 列 数 据<br />

– 视 频 、MoCap、 气 温 、 心 电 图 、 股 票 交 易<br />

– 动 态 CFD 数 据 、 三 维 动 态 监 测 数 据


复 杂 有 序 数 据<br />

• 顺 序 排 列 数 据<br />

– 文 本 、 生 物 测 序 、 质 谱<br />

– 流 线 、DTI 纤 维


数 据 特 征<br />

• 每 个 数 据 实 例 是 时 间 轴 上 的 单 个 事 件<br />

• 时 间 或 顺 序 可 以 当 做 一 个 变 量<br />

• 类 型 多 , 分 布 广<br />

– 1974-1980 年 15 种 报 纸 和 杂 志 随 机 选 择 的 4000 个<br />

图 像 ,75% 是 时 序 图 形 (E. Tufte)<br />

• 数 据 量 大<br />

• 多 维 、 多 变 量


可 视 化 分 析 的 挑 战<br />

• 数 据 挖 掘 方 法 可 以 对 时 变 数 据 进 行 信<br />

号 分 解 、 模 式 挖 掘<br />

– 在 目 标 已 知 的 情 况 下 效 率 很 高<br />

– 如 果 未 知 <br />

• 可 视 化 分 析 有 助 于 找 到 问 题 和 目 标 !<br />

– 某 个 变 量 什 么 时 候 最 大 / 最 小 <br />

– 数 据 中 有 模 式 吗 <br />

– 两 个 序 列 是 否 相 似


时 序 数 据 的 可 视 化<br />

• 离 散 点 vs. 区 间 点<br />

• 线 性 时 间 vs. 周 期 时 间<br />

[Muller & Schumann 2003; Frank 1998]<br />

• 离 散 时 间 vs. 时 间 区 间 (TimeWheel)<br />

• 顺 序 线 性 时 间 vs. 含 分 支 的 时 间<br />

[Visual Methods for Analyzing Time-Oriented Data;<br />

IEEE TVCG]


时 序 轴 的 表 达 类 型<br />

• 静 态 的<br />

展 示 记 录 的 东 西 , 多 视 角 , 允 许 比 较<br />

• 动 态 的<br />

展 示 随 着 时 间 变 化 的 感 觉 和 过 程 , 有 更 多<br />

的 表 达 空 间


1. 标 准 时 间 点 连 线 显 示<br />

• x 轴 表 示 时 间 ,y 轴 表 示 其 他 的 变 量


不 同 的 视 图 类 型


堆 叠 区 域 图<br />

民 众 消 费 的<br />

组 成 变 化


2. 顺 序 数 据 之 间 的 关 系<br />

LifeLines: 某 个 领<br />

域 的 个 人 记 录<br />

• 不 同 的 事 件 类 型 使 用<br />

不 同 的 颜 色<br />

• 线 段 厚 度 表 示 某 个 变<br />

量<br />

• 交 互 : 点 击 一 个 事 件<br />

产 生 更 多 的 细 节<br />

• 类 似 于 Spotfire 的 动 态<br />

查 询<br />

[Plaisant et al CHI 1996]


看 病 记 录


PlanningLines<br />

表 达 项 目 计 划 , 可 以 用 特 殊 的 图 标 演 示 时 间 轴 上 的 不 确 定 性


3. 多 变 量 数 据 演 示 :Streamgraph


TimeWheel


Cluster Calendar View


4. 动 画 与 交 互<br />

动 画 演 示<br />

NY Times


4. 动 画 与 交 互<br />

• 遵 循 Shneiderman 原 则<br />

• 多 视 图 链 接 相 互 协 调<br />

• 例 子 : 用 户 画 一 个 粗 略 的 形 状 确 定 一 个 需 要<br />

查 询 的 时 间 线 , 系 统 返 回 相 近 匹 配 线


可 视 化 分 析 案 例<br />

• 基 于 统 计 的 比 较 可 视 化<br />

– 空 气 质 量 数 据 [SpringerChapter]<br />

– 全 二 维 飞 行 质 谱 分 析 数 据 [USA Patent]<br />

• 基 于 低 维 流 形 嵌 入 的 简 洁 可 视 化<br />

– MoCap 人 体 运 动 [PVis2010]<br />

– DTI 纤 维 丛 [VIS2010]<br />

• 基 于 虚 拟 单 词 频 率 的 抽 象 可 视 化<br />

– 动 态 体 数 据 [InSub]<br />

– 蛋 白 质 DNA、 视 频 、 文 本 [JZUS2011]<br />

• 基 于 事 件 表 达 的 交 互 分 析<br />

– 时 变 数 据 的 自 动 动 画 生 成 [PG2010]<br />

– Mocap 人 体 运 动 [InSub]


基 于 统 计 的 比 较 可 视 化<br />

• 数 据 量 大<br />

• 需 要 挖 掘 的 信 息 少<br />

• 需 要 进 行 数 据 比 较<br />

• 解 决 方 法<br />

– 基 于 统 计 的 多 层 次 模 板<br />

– 可 视 化 比 对


空 气 质 量 数 据<br />

• 数 据 来 源 : 利 用 SMOKE 模 型 建 立 CMAQ 数 据<br />

库 , 用 于 理 解 大 气 变 化 与 分 布 中 不 同 的 化<br />

学 与 物 理 过 程<br />

• 随 时 间 演 化 , 数 据 量 大<br />

– 每 个 小 时 可 以 产 生 一 批 三 维 空 间 分 布 数 据<br />

– 每 个 时 刻 , 在 不 同 的 三 维 格 点 上 记 录 上 百 个 化<br />

学 元 素<br />

• 大 量 数 据 雷 同 类 似 ; 主 要 的 数 据 特 性 变 化<br />

缓 慢 , 且 呈 现 周 期 性


空 气 质 量 数 据<br />

• 数 据 来 源 : 利 用 SMOKE 模 型 建 立 CMAQ 数 据<br />

库 , 用 于 理 解 大 气 变 化 与 分 布 中 不 同 的 化<br />

学 与 物 理 过 程<br />

• 随 时 间 演 化 , 数 据 量 大<br />

– 每 个 小 时 可 以 产 生 一 批 三 维 空 间 分 布 数 据<br />

– 每 个 时 刻 , 在 不 同 的 三 维 格 点 上 记 录 上 百 个 化<br />

学 元 素


对 四 个 季 节 的 空 气 质 量 数 据 的 体 绘 制 显 示 非 常 类 似 的 化 学 形 状 结 构 。 从 上 到 下 :<br />

早 晨 , 中 午 和 晚 上 。 一 个 明 显 规 律 是 , 夏 秋 两 季 的 密 度 高 , 春 冬 两 季 的 密 度 低 。


二 维 高 度 模 板<br />

(a)(b) 分 别 是 两 种<br />

显 示 模 式 , 以 天<br />

维 单 位 显 示 某 个<br />

属 性 的 最 高 和 最<br />

低 值 。 在 最 下 一<br />

行 , 显 示 了 模 板<br />

的 用 途 : 白 线 表<br />

示 某 个 特 殊 的 数<br />

据 。 不 正 常 数 据<br />

( 右 ) 可 以 很 方<br />

便 显 示 出 来 。


三 维 统 计 模 板 : mean, median, mode, variance. 颜 色 是 通 过 底 部 的 颜 色 映 射<br />

条 实 现 的 。


三 维 统 计 模 板 : height, correlation, frequency, time. 颜 色 是 通 过 底 部 的 颜 色 映<br />

射 条 实 现 的 。


集 成 可 视 化 : 检 测 异 常 区 域 ( 见 圆 圈 区 域 )<br />

[Year-Long Time-Varying 3D Air Quality<br />

Data Visualization; Springer]


全 二 维 气 相 飞 行 质 谱 数 据<br />

Genomics<br />

• 1D(SNP)<br />

Lipidomics<br />

• 1D<br />

Proteomics<br />

• MS(2D)<br />

Metabolomics<br />

• NMR<br />

• MS<br />

MS<br />

LC<br />

GC<br />

GCxGC<br />

GCxGC-<br />

TOF MS


全 二 维 气 相 飞 行 质 谱 数 据<br />

数 据 转 换<br />

• 输 入 输 出<br />

数 据 预 处 理<br />

• 切 割 、 去 噪 、 配 准<br />

可 视 化<br />

• 二 维 和 三 维 可 视 化<br />

生 物 标 志 物 分 析<br />

• 成 组 比 较<br />

• 质 谱 比 对 分 析


全 二 维 气 相 飞 行 质 谱 数 据


全 二 维 气 相 飞 行 质 谱 数 据<br />

Normal<br />

Cancer


全 二 维 气 相 飞 行 质 谱 数 据<br />

Normal template<br />

Cancer template


全 二 维 气 相 飞 行 质 谱 数 据


全 二 维 气 相 飞 行 质 谱 数 据


全 二 维 气 相 飞 行 质 谱 数 据


全 二 维 气 相 飞 行 质 谱 数 据<br />

Text-based<br />

Visual analytics<br />

Convert LECO to CDF file<br />

Convert CDF files to 3D<br />

representation<br />

Manually preprocess data to<br />

eliminate uninteresting or<br />

confounding regions<br />

Visually explore the samples and<br />

perform noise removal operations<br />

Perform statistical analysis<br />

Perform statistical analysis<br />

Manually identify interesting<br />

potential biomarkers<br />

Visually identify interesting<br />

potential bio-markers<br />

Validate by checking the mass for<br />

each compound<br />

Visually validate by exploring the<br />

mass spectrum<br />

Run commercial samples of these<br />

potential biomarkers<br />

Visually explore the potential<br />

biomarkers of other samples


全 二 维 气 相 飞 行 质 谱 数 据<br />

对 于 一 个 102 个 数 据 的 样 品 集 , 对 100 个 潜 在 的 生 物 标 志 物 进 行<br />

分 析 , 手 工 方 法 需 要 1000 小 时 , 我 们 的 方 法 只 需 要 70 个 小 时 。<br />

Process #Bio-markers Criteria<br />

Raw data 102400 No<br />

Statistical analysis 54450 e.g., PCA, PLSDA<br />

Combinative filtering 3868 P-value < 0.01<br />

Combinative filtering 773 loadings > 0.002<br />

Combinative filtering 467 Correlation < 0.6<br />

Combinative filtering 104 ROC area > 0.75<br />

Visual exploration 32 Mass spectrum


基 于 低 维 流 形 嵌 入 的 简 洁 可 视 化<br />

• 数 据 量 大 , 不 利 于 操 纵 和 浏 览<br />

• 使 用 线 性 或 非 线 性 变 换 将 复 杂 顺 序 数 据 投 影<br />

到 低 维 空 间<br />

• PCA, MDS, LLE, IsoMap, LLP, LPP<br />

• 在 投 影 时 保 留 重 要 的 关 系 ( 例 如 , 无 信 息 损<br />

失 、 数 据 区 分 )


Motion tracks<br />

• 目 标<br />

– 区 分 不 同 类 型 的 运 动 ( 如 跳 跃 , 跑 步 , 走 路 )<br />

– 同 一 类 型 的 不 同 运 动<br />

• 关 键 想 法<br />

– 将 属 于 同 一 类 型 运 动 的 所 有 运 动 序 列 数 据 用 SOM 方<br />

法 进 行 聚 类<br />

– 将 关 键 帧 用 LLE 投 影 到 二 维<br />

– 计 算 任 意 一 个 新 的 运 动 帧 相 对 于 关 键 帧 的 权 重<br />

– 根 据 权 重 计 算 运 动 帧 的 二 维 位 置 , 然 后 按 照 时 序 链<br />

接 起 来


Motion tracks


扩 散 张 量 成 像 数 据<br />

• Diffusion Tensor Images<br />

– 将 磁 场 作 用 于 空 间 区 域 , 获 取 水 分 子 的 扩 散 属 性<br />

– 捕 获 含 水 分 子 区 域 的 张 量 信 息<br />

42


DTI 纤 维 丛 的 交 互 可 视 化<br />

• 通 常 一 个 模 型 中 包 含 大 于 5000 纤 维<br />

• 难 以 在 三 维 空 间 中 操 纵<br />

• 关 键 思 路<br />

– 将 纤 维 看 成 高 维 向 量<br />

– 用 MDS 投 影 到 二 维 空 间<br />

– 让 用 户 在 多 个 窗 口 中 操 纵


DTI 纤 维 丛 的 交 互 可 视 化


DTI 纤 维 跟 踪 不 确 定 性 可 视 化<br />

– 在 纤 维 建 模 过 程<br />

中 , 由 于 各 种 因<br />

素 影 响 , 会 造 成<br />

很 强 的 不 确 定 性<br />

– 如 何 衡 量 、 比 较 、<br />

可 视 化 这 种 不 确<br />

定 性 呢 <br />

– 方 法 是 在 归 一 空<br />

间 里 做 保 持 距 离<br />

的 低 维 嵌 入 , 从<br />

低 维 嵌 入 中 发 现<br />

分 布 规 律


变 形 数 据 的 可 视 分 析


四 维 心 脏 跳 动 的 不 正 常 的 形 状 改 变 . 左 : 左 心 室<br />

第 13 帧 的 手 工 分 割 结 果 ;( 中 ) 左 心 室 第 13 帧 的<br />

自 动 分 割 结 果 ; ( 右 ) 形 变 的 二 维 嵌 入 效 果 ,<br />

圆 圈 处 为 不 正 常 区 域 , 对 应 于 三 维 的 红 色 区 块


基 于 虚 拟 单 词 频 率 的 抽 象 可 视 化<br />

• 有 用 特 征 隐 藏 在 大 量 的 数 据 中<br />

• 将 特 征 看 成 虚 拟 单 词 ; 将 数 据 看 成 文 本<br />

• 从 单 词 的 统 计 分 布 出 发 分 析 数 据 的 一 些 特<br />

性 , 如 周 期 性 , 异 常 点 等 等


时 变 体 数 据 的 Timeline 可 视 化


特 征 点 ( 虚 拟 单 词 )<br />

• SIFT 算 子<br />

• 特 征 点 定 位<br />

• 方 位<br />

• 用 于 纹 理 分 析 的 一 阶 统 计<br />

– 局 部 梯 度 范 数 直 方 图<br />

– 局 部 体 素 值 直 方 图<br />

– 梯 度 范 数 方 差<br />

– 体 素 值 方 差<br />

52


3D SIFT<br />

53


基 于 传 输 函 数 的 特 征 点 选 取<br />

54


生 成 Timeline<br />

• 将 特 征 点 聚 类 , 表 达 为 不 同 的 虚 拟 单 词<br />

• 将 所 有 的 虚 拟 单 词 汇 集 为 词 库<br />

• 改 进 的 Lowbow 算 法<br />

– 在 体 数 据 序 列 中 均 匀 采 样<br />

– 建 立 序 列 采 样 点 处 的 局 部 窗 口 和 窗 口 内 所 有 特 征 点 关 于 词 库 的 直 方 图<br />

• 利 用 MDS 进 行 降 维<br />

– 计 算 两 两 采 样 点 处 的 局 部 直 方 图 之 间 的 差 别<br />

– 用 MDS 投 影 并 连 接 为 曲 线<br />

55


不 同 的 特 征 聚 类 数 目 效 果<br />

Energy 时 变 体 数 据 实 例 , SIFT 尺 寸 为 2048, 不 同 的 聚<br />

类 数 目 ( 即 词 库 尺 寸 )<br />

200 700 1000 1500<br />

57


不 同 的 特 征 效 果<br />

58


飓 风 实 例<br />

飓 风 伊 莎 贝 尔 袭 击 Outer Banks, North Carolina. 左<br />

边 的 部 分 ( 蓝 色 到 黄 色 ) 演 示 了 每 12.4 小 时 带 来 的<br />

潮 汐 提 升 的 周 期 性 。 右 边 部 分 ( 黄 色 到 红 色 ) 揭 示<br />

了 海 洋 平 面 从 正 常 分 布 到 飓 风 的 巨 大 变 化 。


Timelines 的 比 较<br />

不 同 的 时 间 段<br />

Jan 1 st -11 th w/ Feb 1 st – 11 th Jan 16 th -26 th w/ Feb 16 th –26 th 60


Average<br />

density<br />

平 行 Timelines<br />

Number of<br />

feature<br />

points<br />

Average<br />

height<br />

61


空 气 质 量 数 据<br />

June<br />

62


长 文 档 的 顺 序 可 视 化<br />

• 关 键 思 路<br />

– 将 文 档 转 换 为 一 个 基 于 词 频 的 多 层 次 曲 线<br />

• y =(the,boy,saw,the,man,in,the,park,with,the,telescope)<br />

• 单 词 列 表 = <br />

• Bag of words: y = (4/11; 1/11; 0; … ; 1/11; 0; …; 0)<br />

• 层 次 参 数 曲 线 : 分 段 线 性 曲 线<br />

64


长 文 档 的 顺 序 可 视 化


长 文 档 的 顺 序 可 视 化<br />

• 快 速 文 档 浏 览<br />

• 文 档 分 段 和 摘 要<br />

• 潜 在 文 档 模 式 的 挖 掘<br />

66


基 于 虚 拟 词 袋 的 视 频 可 视 化<br />

• 虚 拟 词 袋 :SIFT 算 子 检 测<br />

– 视 频 摘 要<br />

– 全 局 语 义 变 换 检 测


基 于 “ 基 因 词 袋 ” 的 DNA 序 列 可 视 化<br />

• DNA 数 据 尺 寸 大 : 可 能 有 30 亿 个 基 对<br />

• 序 列 含 义 未 知 , 模 式 微 小<br />

• 将 核 苷 酸 列 表 (ATCG) 转 化 为 单 词<br />

• ATCG 的 k- 阶 组 合 ( 可 取 为 6)


基 于 事 件 分 析 ( 语 义 ) 的 交 互 分 析<br />

• 用 户 的 因 素 需 要 交 互<br />

• 浏 览 ( 镜 头 摇 晃 、 旋 转 )、 动 态 查 询 、<br />

Brushing<br />

• 难 点 : 难 于 调 节 参 数 、 难 于 用 参 数 表 达<br />

• 基 于 事 件 分 析 ( 语 义 ) 的 交 互 分 析<br />

• 定 义 潜 在 语 义<br />

• 检 测 语 义<br />

• 可 视 化


基 于 事 件 分 析 的 顺 序 数 据 可 视 化 分 析 模 型


时 变 数 据 的 事 件 图 表 示<br />

• 目 标 : 方 便 用 户 理 解 时 变 体 数 据 的 演 化 规<br />

律<br />

– 将 某 个 有 语 义 的 特 定 事 件 抽 象 为 一 个 层 次 细 节<br />

事 件 图 (event graph), 以 数 据 特 征 作 为 节 点<br />

, 事 件 关 系 作 为 链 接<br />

– 对 事 件 图 的 交 互 浏 览 或 自 动 播 放 ( 以 合 适 的 起<br />

点 和 路 径 ) 形 成 解 释 性 动 画


时 变 数 据 的 事 件 图 表 示<br />

• G = {{nodes}; {tree links}; {relation links}}<br />

• 节 点 表 示 从 不 同 方 面 描 述 的 不 同 层 次 细 节<br />

的 ( 以 时 间 区 间 划 分 ) 事 件 特 征 , 如 暴 风<br />

眼 附 近 的 速 度 、 路 径 和 风 的 旋 转<br />

• 父 子 节 点 之 间 用 tree links 链 接<br />

• 不 同 事 件 之 间 在 时 间 上 的 相 似 性 用 relation<br />

link 表 示


时 变 体 数 据 的 事 件 图 表 示<br />

• 叶 节 点 是 一 个 简 单 的 基 本 事 件 , 如 匀 速 度<br />

• 节 点 的 子 节 点 数 目 与 该 节 点 对 应 的 时 间 区 间 中<br />

的 事 件 复 杂 度 有 关<br />

• 每 个 节 点 的 属 性 包 括 : 事 件 特 征 、 时 间 范 围 、<br />

事 件 特 征 的 重 要 性 和 tree 链 接 、relation 链 接


时 变 体 数 据 的 事 件 图 表 示<br />

• 自 动 动 画 生 成 ( 即 graph 的 遍 历 ) 原 则 :<br />

– 一 个 事 件 由 开 始 处 的 概 括 和 事 件 细 节 的 光 滑 过 渡<br />

组 成<br />

– 相 关 的 事 件 特 征 根 据 时 序 或 重 要 性 顺 序 地 演 示<br />

– 除 非 用 户 指 定 , 节 点 的 播 放 不 允 许 重 复<br />

在 第 一 个 层 次 上 从 风 的 旋 转 过 渡 到 移 动 速 度 的 效 果 演 示 。 在 这 个 过 程 中 , 视<br />

点 光 滑 旋 转 , 绘 制 结 果 淡 如 淡 出 地 融 合 。


时 变 体 数 据 的 事 件 图 表 示<br />

• 用 户 交 互 操 作<br />

– 选 择 特 征<br />

– 选 择 层 次<br />

– 选 择 起 始 点<br />

– 忽 略<br />

– 重 复<br />

• 绘 制 参 数 全 部 自 动 确 定 ( 对 于 时 变 体 数 据 的 )<br />

: 时 间 步 长 数 ; 数 据 分 辨 率 ; 视 点 ( 如 sky<br />

view, local view, dynamic view)


运 动 捕 获 数 据 的 可 视 语 义 分 析


工 作 列 表<br />

• Wei Chen, Zi'ang Ding, Song Zhang, Anna MacKay-Brandt, Stephen Correia, Huamin Qu, John<br />

Allen Crow, David F. Tate, Zhicheng Yan, Qunsheng Peng. A Novel Interface for Interactive<br />

Exploration of DTI Fibers. In IEEE Transactions on Visualization and Computer Graphics, 2009.<br />

• Yu Li, Aidong Lu, William Ribarsky, Wei Chen. Digital Storytelling: utomatic Animation for<br />

Time-Varying Data Visualization. Computer Graphics Forum (Special Issue of Pacific<br />

Graphics 2010). Accepted<br />

• Yueqi Hu, Shuangyuan Wu, Shihong Xia, Jinghua Fu, Wei Chen. Motion Track: Visualizing<br />

Motion Variation of Human Motion Data. In Proceedings of IEEE Pacific Visualization<br />

Symposium, March 2010, Taibei<br />

• Aidong Lu, Wei Chen, William Ribarsky, David S.Ebert. Year-Long Time-Varying 3D Air Quality<br />

Data Visualization. Advances in Information and Intelligent Systems, Springer. 2009 page<br />

286-306<br />

• Xiaoyong Yang, Ziang Ding, Wei Chen, Song Zhang. Visualizing DTI fibers as 2D/3D points. In<br />

Visualization and Image Processing of Tensor Fields: Advances and Perspectives. Springer.<br />

2010.<br />

• David S.Ebert, Wei Chen et al. Visual analytics of metabolimics datasets for early cancer<br />

detection. USA Patent Application.<br />

• Jinghua Fu, Wei Chen et al. Structural Visualization of DNA Sequences. To appear Journal of<br />

Zhejiang University C. Accepted


致 谢<br />

• 合 作 者<br />

– Song Zhang Mississipi State University<br />

– Qunsheng Peng Zhejiang University<br />

– Huamin Qu HKUST<br />

– Aidong Lu UNCC<br />

– Shihong Xia ICT, CAS<br />

– Ke-sheng Huang Taiwan Qinghua University<br />

– 小 组 成 员 : 丁 子 昂 ; 严 志 程 ; 叶 樉 ; 王 桂 珍 ; 陈 广 宇 ; 陈<br />

海 东 ; 傅 靖 华 ; 胡 越 琦<br />

• 基 金 资 助 :973/NSFC/ZJNSFC

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!