融合先验信息的三维重建

融合先验信息的三维重建融合先验信息的三维重建

from vision.ia.ac.cn More from this publisher

21.08.2013 Views

融合先验信息到三维重建组会报告 [1] [1]A. Irschara, C. Hoppe, H. Bischof, "Efficient structure from motion with weak position and orientation priors," in Proc. 2011 Computer Vision and Pattern Recognition Workshops (CVPRW) pp. 21-28. 汇报人:崔海楠 2013-4-9

融合先验信息到三维重建

组会报告 [1]

[1]A. Irschara, C. Hoppe, H. Bischof, "Efficient structure from motion

with weak position and orientation priors," in Proc. 2011 Computer

Vision and Pattern Recognition Workshops (CVPRW) pp. 21-28.

汇报人:崔海楠

2013-4-9

报告主要内容

1、重建亟待解决问题和解决方案

2、融合先验(GPS/INS)寻找匹配图像

3、构建匹配图,改进捆绑调整目标函数

4、实验结果和总结

大场景三维重建计算复杂度高,同时容易偏移和误差积

累。如果没有任何先验信息:

1、图像匹配时间复杂度 ;

2、每次添加图像需要重复调用SBA,算法时间复杂度

最高可达

亟待解决的问题

3、 IBA[Incremental Bundler Adjustment]图像添加顺序

不同,得到重建结果可能也会不同

作者提出的解决方案

1、在匹配图像时,利用语义树搜索的同时,融入了

几何信息[GPS/IMU先验],对候选匹配集再筛选。

【降低图像匹配时间复杂度】

2、提出fast & scalable的重建方法。

一次性求取全部摄像头在全局坐标系的旋转矩阵;

同时定义了新的捆绑调整函数。【降低SBA时间复杂

度,提高三维重建精度】

寻找匹配图像

Kmeans

图像库 SIFT算子检测

语义树

分层聚类

待匹配图

像J

寻找匹配图像

Kmeans

图像库 SIFT算子检测

语义树

分层聚类

语义树

检索

候选匹配图像集

待匹配图

像J

寻找匹配图像

Kmeans

图像库 SIFT算子检测

语义树

分层聚类

候选匹配

图像集S

语义树

利用GPS/INS信息过滤

检索

候选匹配图像集

S

与J进行匹配的图像

语义树构造 [1]

检测每幅图像中的SIFT描述子,W为

所有图像描述子的集合:

= < , , , … … , >

对W进行分层k-means聚类,将每层

每类平均值作为树的节点。

Depth =3 branches = 3

[1] Nister, David, and Henrik Stewenius. "Scalable recognition with a vocabulary tree." Computer Vision

and Pattern Recognition, 2006 IEEE Computer Society Conference on. Vol. 2. IEEE, 2006.

语义树检索 [1]

记录每个节点被图像经过的次数,作

为这个节点的权重

=

N为全部图像的数目, 为经过树的

第i个节点的图像数目

经过节点的图像越多,节点权重越低;

经过节点的图像越少,节点权重越高。

一定程度上缓解匹配有重复结构图像的错误。

[1] Nister, David, and Henrik Stewenius. "Scalable recognition with a vocabulary tree." Computer Vision

and Pattern Recognition, 2006 IEEE Computer Society Conference on. Vol. 2. IEEE, 2006.

语义树检索 [1]

生成图像集对应的词汇库

= [ , ,… ,…, ]

=< ,…, >

m为树节点的总数 n为图像的数目

为图像在第i个节点经过的次数

为第i个节点的权重

每幅图像用m维向量来表示

[1] Nister, David, and Henrik Stewenius. "Scalable recognition with a vocabulary tree." Computer Vision

and Pattern Recognition, 2006 IEEE Computer Society Conference on. Vol. 2. IEEE, 2006.

语义树检索 [1]

假设检索图像Q,描述Q的词汇为

=< ,…, >

对于图像集中每一幅图像 ,计

算相关值[=…]

=

−

[1] Nister, David, and Henrik Stewenius. "Scalable recognition with a vocabulary tree." Computer Vision

and Pattern Recognition, 2006 IEEE Computer Society Conference on. Vol. 2. IEEE, 2006.

1. 实验数据:

2. 语义树参数:

语义树检索实验

depth = 3 branches = 10 restarts = 3 ngbrs = 6

3. 实验结果:

① Math_physics_buliding

② Tiantan

③ JinDing

语义树检索实验

融合GPS/INS信息

、表示摄像头的GPS位置

=∗ ,

=min , ,

平面 // 图像

两个图像平面、分别向平面

上投影,比值

= ∩

∪

t决定了投射射目标平面的位置

融合GPS/INS信息

每一幅图像I只与满足如下条件的图像J

进行匹配:

( ∙ )<

?

结果对比

第一行:利用语义树搜索得到的候选匹配图像

第二行:融合GPS/INS信息后对语义搜索结果过滤,得到的图像

绿色: 待匹配图像J

结果对比

红色和蓝色: 语义树搜索得到的图像

红色: 覆盖面积达到50%以上的图像

结果对比

初始P矩阵

每幅图像焦距已知,已知摄像头的GPS位置以及IMU信息,

可以得到每幅图像的P矩阵的粗略估计

=[ | ]=

− ]

其中: 表示全局坐标系中旋转矩阵 , 表示camera的平移

表示GPS坐标系下的旋转矩阵

为摄像头在GPS所在坐标系下面的位置

构建匹配图

两个节点之间存在边,表示两幅

图像需要进行匹配

利用SIFT_GPU检测每幅图像的

特征点;利用ANN匹配特征点,

RANSAC【5点法】求取本质矩阵

E;估计图像之间的相对旋转矩阵

和相对平移

两幅图像之间约束

Compute relative pose between camera pairs

using 2-frame SfM

t ij

相对平移

R ij

相对旋转

两幅图像之间约束

t ij

摄像头绝对姿态(Ri, ti)和(Rj, tj) 需要满足:

R ij

旋转一致性平移方向一致性

求绝对旋转矩阵

根据有向的匹配图,可以看出

=

是一个超定方程组。

求解超定方程,得到每幅图像

的旋转矩阵。然后利用SVD分

解使满足正交约束,得到最终

解

t ij

求绝对旋转矩阵

R ij

作者认为不是所有的外极

几何都是同等重要的,也就

是通过外极几何得到的

不是同等重要的。

因此

= =

−− = =0 0

求绝对旋转矩阵 [1]

= min , 【inliers空间分布】

<

∗() =(,)

⨀

= 是利用5点法求时对应的inliers的个数

[1] D. Martinecand T.Pajdla. Robust rotation and translation estimation in multi-view reconstruction.

CVPR, 2007.

t ij

初始化绝对平移

R ij

=[|]= − ]

为摄像头的GPS坐标。绝对

旋转矩阵 ,需要在GPS坐标系

下定义,那么Ri相差一个刚体变

换R才能得到 :

t ij

R ij

s.t. = = −

求刚体变换R

是全局坐标系中图像I和图像J之间的相对平移

=− 是GPS坐标系中图像I和图像J之间的相对平移

这是一个典型的 orthogonal Procrustes problem

利用奇异值分解,即可以得到R的值。

orthogonal Procrustes problem [1]

定义:

和是两个矩阵,目的是找到一个正交矩阵使

解:令 ,那么求得

[1] Gower, J.C; Dijksterhuis, G.B. (2004), Procrustes Problems, Oxford University Press

Structure from Motion

Camera 1

R 1,t 1

p 1

p 5

Camera 2

R 2,t 2

p 4

p 6

p 2

p 3

p 7

minimize

f(R,T,X)

Camera 3

R 3,t 3

1、创建tracks

3D 结构初始化

根据图像匹配关系,寻找每幅图像中的每个特征点在其他

匹配图像中对应的特征点,所有这些特征点,构成一个track,

对应现实世界中的一个3D点。

= (< , >, < ,

>⋯,< , >)

其中 =< , >表示第幅图像中特征点的坐标。

1、创建tracks

3D 结构初始化

由于匹配误差的存在,一幅图像的一个特征点可能同时存

在于两个或者多个tracks中。

A. 这种特征点不够稳定,从所有包含这个特征点的tracks

中删除这个特征点

B. 做贪婪搜索,寻找一个tracks的子集,使其覆盖了所有

图像的特征点,但是每个特征点只能被覆盖一次

2、创建初始3D点

3D 结构初始化

选取每个track中,特征点所在图像的GPS坐标相差最大的,

两个特征点做三角化,得到初始3D点。

Camera 1

p

Camera 2

Camera 3

Structure from Motion

Camera 1

R 1,t 1

p 1

p 5

Camera 2

R 2,t 2

p 4

p 6

p 2

p 3

p 7

minimize

f(R,T,X)

Camera 3

R 3,t 3

捆绑调整

将每幅图像的旋转矩阵、GPS坐标,以及初始3D点集作为

捆绑调整函数 , , 优化时的初值。

= ,

= , ,, ,

= 9 + 3

捆绑调整:

= … ; = …

, ,, , = = ( ( , , ) )

捆绑调整

, , , , = ( ( , , ) )

“最小化重投影误差的平方”,是建立在高斯误差的模型基础

之上,由贝叶斯最大似然估计推导得到。

但是,对于重投影误差符合高斯模型分布的假设,并不足以

反应现实中依靠特征匹配求解structure from motion问题。

=

. . = −

将

鲁棒的捆绑调整

=

=() . .

=

=

称作是衰减因子[attenuation factor],目的是为了降低

outliers的损失。

鲁棒的捆绑调整

= =( () )

实验结果

d = 20. 即每幅图像最多取20幅图像进行图像匹配。

假设200幅图像,原Bundler要进行40000次匹配。如今,

只要4000次匹配,速度提升了10倍。

实验结果

对比使用不同的目标函数进行捆绑调整得到的结果

【inliers 定义为3D点的重投影误差小于3个像素】

实验结果与Bundler得到的结果进行对比,摄像头中心的中

值误差为0.023m,朝向夹角平均偏离0.03°

实验结果

对比使用不同的目标函数进行捆绑调整得到的结果

= log(1 +

= )

log(1 +

)

总结

1、提出了一种利用GPS & IMU先验匹配图像的方法,提高了

图像匹配速度和准确率。

2、一次性求解全局坐标系下所有图像的旋转矩阵,只执行一

次捆绑调整函数,降低了重建时优化的时间复杂度。

3、提出了新的捆绑调整优化函数,降低了outliers的影响,

提高了重建精度。

不足

1、很难确定投影平面距图像平面的距离,经验值t不能保证

匹配的完整性【可以利用聚焦先验】。

2、将GPS坐标作为摄像头中心初值,需要GPS达到一定的精

度。但是GPS的精度通常不会很高,甚至出现跳变。

3、实验结果对比没有加入建立语义树所消耗时间,实验证明

建立语义树消耗大量时间,而且语义树输入参数很难确定。

谢谢!

融合先验信息的三维重建

融合先验信息的三维重建 ... View more 融合先验信息的三维重建

Delete template?

Save as template ?

融合先验信息的三维重建融合先验信息的三维重建