行业跟踪

双目视觉技术的原理、结构、特点、发展现状和发展方向分析

双目立体视觉是机器视觉的一种重要形式，它是基于视差原理并由多幅图像获取物体三维几何信息的方法。双目立体视觉系统一般由双摄像机从不同角度同时获得被测物的两幅数字图像，或由单摄像机在不同时刻从不同角度获得被测物的两幅数字图像，并基于视差原理恢复出物体的三维几何信息，重建物体三维轮廓及位置。双目立体视觉系统在机器视觉领域有着广泛的应用前景。

80年代麻省理工学院人工智能实验室的Marr提出了一种视觉计算理论并应用在双眼匹配上! 使两张有视差的平面图产生有深度的立体图形! 奠定了双目立体视觉发展的理论基础。相比其他类的体视方法! 如透镜板三维成像，三维显示，全息照相术等! 双目体视直接模拟人类双眼处理景物的方式可靠简便! 在许多领域均极具应用价值! 如微操作系统的位姿检测与控制机器人导航与航测，三维测量学及虚拟现实等。

双目立体视觉原理与结构

双目立体视觉三维测量是基于视差原理，图1所示为简单的平视双目立体成像原理图，两摄像机的投影中心的连线的距离，即基线距为b。摄像机坐标系的原点在摄像机镜头的光心处，坐标系如图1所示。事实上摄像机的成像平面在镜头的光心后，图1中将左右成像平面绘制在镜头的光心前f处，这个虚拟的图像平面坐标系O1uv的u轴和v轴与和摄像机坐标系的x轴和y轴方向一致，这样可以简化计算过程。左右图像坐标系的原点在摄像机光轴与平面的交点O1和O2。空间中某点P在左图像和右图像中相应的坐标分别为P1(u1,v1)和P2(u2,v2)。假定两摄像机的图像在同一个平面上，则点P图像坐标的Y坐标相同，即v1=v2。由三角几何关系得到：

上式中（xc，yc，zc）为点P在左摄像机坐标系中的坐标，b为基线距，f为两个摄像机的焦距，（u1，v1）和（u2，v2）分别为点P在左图像和右图像中的坐标。

视差定义为某一点在两幅图像中相应点的位置差：

由此可计算出空间中某点P在左摄像机坐标系中的坐标为：

因此，只要能够找到空间中某点在左右两个摄像机像面上的相应点，并且通过摄像机标定获得摄像机的内外参数，就可以确定这个点的三维坐标。

双目视觉测量探头由2个摄像机和1个半导体激光器组成。

双目视觉技术的原理、结构、特点、发展现状和发展方向分析

半导体激光器作为光源,它发射出一点光源射到一柱状透镜上后变成一条直线。该线激光投射到工件表面,作为测量标志线。激光波长为650 nm,其扫描激光线宽约为1mm。 2个普通CCD摄像机呈一定角度放置,构成深度测量的传感器。镜头焦距长短会影响镜头光轴与线激光的夹角、探头与待测物体的距离以及测量景深。

视觉测量属于一种非接触式测量,它是基于激光三角法测量原理。激光器1发出的光线经柱状透镜单方向扩展后变成一光条,投射在被测物体表面,由于物体表面曲度或深度的变化,使光条变形,由摄像机摄取此变形光条的图像,这样就可以由激光束的发射角和激光束在摄像机内成像位置,通过三角几何关系获得被测点的距离或位置等数据。

与人类使用双眼观察物体的远近类似,双目视觉测量传感器是通过2个摄像机同时摄取一个光条的图像,再通过两幅图像的匹配,得到光条上所有像素点分别在两幅图像中的位置,利用视差,即可计算该点的位置以及深度信息的。如果配合扫描机构得到的扫描线某一坐标值,可得到被扫描物体所有的轮廓信息(即三维坐标点)。

一般来说,双目传感器的视差(x2-x1)越大,则其测量精度越高。通过实验发现,增大基线长度可以提高视觉测量的精度。但对某一焦距的镜头,过大的基线长度会造成双目轴线夹角增大,使图像产生较大畸变,不利于CCD的标定及特征匹配,反而使测量精度下降。选择2个焦距为8mm的镜头,通过实验,找到与之相匹配的基线长度,可保证在镜头的景深范围内,双目视觉传感器有较高的测量精度。

双目视觉的技术特点

双目立体视觉技术的实现可分为以下步骤：图像获取、摄像机标定、特征提取、图像匹配和三维重建，下面依次介绍各个步骤的实现方法和技术特点。

图像获取

双目体视的图像获取是由不同位置的两台或者一台摄像机（CCD）经过移动或旋转拍摄同一幅场景，获取立体图像对。其针孔模型如图1。假定摄像机C1与C2的角距和内部参数都相等，两摄像机的光轴互相平行，二维成像平面X1O1Y1和X2O2Y2重合，P1与P2分别是空间点P在C1与C2上的成像点。但一般情况下，针孔模型两个摄像机的内部参数不可能完成相同，摄像机安装时无法看到光轴和成像平面，故实际中难以应用。

双目视觉技术的原理、结构、特点、发展现状和发展方向分析

相关机构对会聚式双目体视系统的测量精度与系统结构参数之间的关系作了详尽分析，并通过试验指出，对某一特定点进行三角测量。该点测量误差与两CCD光轴夹角是一复杂的函数关系；若两摄像头光轴夹角一定，则被测坐标与摄像头坐标系之间距离越大，测量得到点距离的误差就越大。在满足测量范围的前提下，应选择两CCD之间夹角在50℃～80℃之间。

摄像机的标定

对双目体视而言，CCD摄像机、数码相机是利用计算机技术对物理世界进行重建前的基本测量工具，对它们的标定是实现立体视觉基本而又关键的一步。通常先采用单摄像机的标定方法，分别得到两个摄像机的内、外参数；再通过同一世界坐标中的一组定标点来建立两个摄像机之间的位置关系。

双目视觉技术的原理、结构、特点、发展现状和发展方向分析

目前常用的单摄像机标定方法主要有：

1、摄影测量学的传统设备标定法。利用至少17个参数描述摄像机与三维物体空间的结束关系，计算量非常大。

2、直接线性变换性。涉及的参数少、便于计算。

3、透视变换短阵法。从透视变换的角度来建立摄像机的成像模型，无需初始值，可进行实时计算。

4、相机标定的两步法。首先采用透视短阵变换的方法求解线性系统的摄像机参数，再以求得的参数为初始值，考虑畸变因素，利用最优化方法求得非线性解，标定精度较高。

5、双平面标定法。在双摄像机标定中，需要精确的外部参数。由于结构配置很难准确，两个摄像机的距离和视角受到限制，一般都需要至少6个以上（建议取10个以上）的已知世界坐标点，才能得到比较满意的参数矩阵，所以实际测量过程不但复杂，而且效果并不一定理想，大大地限制了其应用范围。此外双摄像机标定还需考虑镜头的非线性校正、测量范围和精度的问题，目前户外的应用还有少。

特征点提取

立体像对中需要撮的特征点应满足以下要求：与传感器类型及抽取特征所用技术等相适应；具有足够的鲁棒性和一致性。需要说明的是：在进行特征点像的坐标提取前，需对获取的图像进行预处理。因为在图像获取过程中，存在一系列的噪声源，通过此处理可显著改进图像质量，使图像中特征点更加突出。

立体匹配

立体匹配是双目体视中最关系、困难的一步。与普通的图像配准不同，立体像对之间的差异是由摄像时观察点的不同引起的，而不是由其它如景物本身的变化、运动所引起的。根据匹配基元的不同，立体匹配可分为区域匹配、特征匹配和相位匹配三大类。

区域匹配算法的实质是利用局部窗口之间灰度信息的相关程度，它在变化平缓且细节丰富的地方可以达到较高的精度。但该算法的匹配窗大小难以选择，通常借助于窗口形状技术来改善视差不连续处的匹配；其次是计算量大、速度慢，采取由粗至精分级匹配策略能大大减少搜索空间的大小，与匹配窗大小无关的互相关运算能显著提高运算速度。

特片匹配不直接依赖于灰度，具有较强的抗干扰性，计算量小，速度快。但也同样存一些不足：特征在图像中的稀疏性决定特征匹配只能得到稀疏的视差场；特征的撮和定位过程直接影响匹配结果的精确度。改善办法是将特征匹配的鲁棒性和区域匹配的致密性充分结合，利用对高频噪声不敏感的模型来提取和定位特征。

相位匹配是近二十年才发展起来的一类匹配算法。相位作为匹配基元，本身反映信号的结构信息，对图像的高频噪声有很好的抑制作用，适于并行处理，能获得亚像素级精度的致密视差。但存在相位奇点和相位卷绕的问题，需加入自适应滤波器解决。

三维重建

在得到空间任一点在两个图像中的对应坐标和两摄像机参数矩阵的条件下，即可进行空间点的重建。通过建立以该点的世界坐标为未知数的4个线性方程，可以用最小二乘法求解得该点的世界坐标。实际重建通常采用外极线结束法。空间眯、两摄像机的光心这三点组成的平面分别与两个成像平面的交线称为该空间点在这两个成像平面中的极线。一旦两摄像机的内外参数确定，就可通过两个成像平面上的极线的约束关系建立对应点之间的关系，并由此联立方程，求得图像点的世界坐标值。对图像的全像素的三维重建目前仅能针对某一具体目标，计算量大且效果不明显。

双目视觉技术现状

国外现状

双目体视目前主要应用于四个领域：机器人导航、微操作系统的参数检测、三维测量和虚拟现实。

日本大阪大学自适应机械系统研究院研制了一种自适应双目视觉伺服系统，利用双目体视的原理，如每幅图像中相对静止的三个标志为参考，实时计算目标图像的雅可比短阵，从而预测出目标下一步运动方向，实现了对动方式未知的目标的自适应跟踪。该系统仅要求两幅图像中都有静止的参考标志，无需摄像机参数。而传统的视觉跟踪伺服系统需事先知道摄像机的运动、光学等参数和目标的运动方式。

日本奈良科技大学信息科学学院提出了一种基于双目立体视觉的增强现实系统（AR）注册方法，通过动态修正特征点的位置提高注册精度。该系统将单摄像机注册（MR）与立体视觉注册（SR）相结合，利用MR和三个标志点算出特征点在每个图像上的二维坐标和误差，利用SR和图像对计算出特征点的三维位置总误差，反复修正特征点在图像对上的二维坐标，直至三维总误差小于某个阈值。该方法比仅使用MR或SR方法大大提高了AR系统注册深度和精度。实验结果如图2，白板上三角开的三顶点被作为单摄像机标定的特征点，三个三角形上的模型为虚拟场景，乌龟是真实场景，可见基本上难以区分出虚拟场景（恐龙）和现实场景（乌龟）。

日本东京大学将实时双目立体视觉和机器人整体姿态信息集成，开发了仿真机器人动态行长导航系统。该系统实现分两个步骤：首先，利用平面分割算法分离所拍摄图像对中的地面与障碍物，再结合机器人身体姿态的信息，将图像从摄像机的二维平面坐标系转换到描述躯体姿态的世界坐标系，建立机器人周围区域的地图；基次根据实时建立的地图进行障碍物检测，从而确定机器人的行走方向。

日本冈山大学使用立体显微镜、两个CCD摄像头、微操作器等研制了使用立体显微镜控制微操作器的视觉反馈系统，用于对细胞进行操作，对钟子进行基因注射和微装配等。

麻省理工学院计算机系统提出了一种新的用于智能交通工具的传感器融合方式，由雷达系统提供目标深度的大致范围，利用双目立体视觉提供粗略的目标深度信息，结合改进的图像分割算法，能够在高速环境下对视频图像中的目标位置进行分割，而传统的目标分割算法难以在高速实时环境中得到令人满意的结果。

华盛顿大学与微软公司合作为火星卫星“探测者”号研制了宽基线立体视觉系统，使“探测者”号能够在火星上对其即将跨越的几千米内的地形进行精确的定位玫导航。系统使用同一个摄像机在“探测者”的不同位置上拍摄图像对，拍摄间距越大，基线越宽，能观测到越远的地貌。系统采用非线性优化得到两次拍摄图像时摄像机的相对准确的位置，利用鲁棒性强的最大似然概率法结合高效的立体搜索进行图像匹配，得到亚像素精度的视差，并根据此视差计算图像对中各点的三维坐标。相比传统的体视系统，能够更精确地绘制“探测者”号周围的地貌和以更高的精度观测到更远的地形。

国内现状

浙江大学机械系统完全利用透视成像原理，采用双目体视方法实现了对多自由度机械装置的动态、精确位姿检测，仅需从两幅对应图像中抽取必要的特征点的三维坐标，信息量少，处理速度快，尤其适于动态情况。与手眼系统相比，被测物的运动对摄像机没有影响，且不需知道被测物的运动先验知识和限制条件，有利于提高检测精度。

东南大学电子工程系基于双目立体视觉，提出了一种灰度相关多峰值视差绝对值极小化立体匹配新方法，可对三维不规则物体（偏转线圈）的三维空间坐标进行非接触精密测量。

哈工大采用异构双目活动视觉系统实现了全自主足球机器人导航。将一个固定摄像机和一个可以水平旋转的摄像机，分别安装在机器人的顶部和中下部，可以同时监视不同方位视点，体现出比人类视觉优越的一面。通过合理的资源分配及协调机制，使机器人在视野范围、测跟精度及处理速度方面达到最佳匹配。双目协调技术可使机器人同时捕捉多个有效目标，观测相遇目标时通过数据融合，也可提高测量精度。在实际比赛中其他传感器失效的情况下，仅仅依靠双目协调仍然可以实现全自主足球机器人导航。

双目视觉技术的发展方向

就双目立体视觉技术的发展现状而言，要构造出类似于人眼的通用双目立体视觉系统，还有很长的路要走，进一步的研究方向可归纳如下：

1、如何建立更有效的双目立体视觉模型，能更充分地反映立体视觉不去确定性的本质属性，为匹配提供更多的约束信息，降低立体匹配的难度。

2、探索新的适用于全面立体视觉的计算理论和匹配择有效的匹配准则和算法结构，以解决存在灰度失真，几何畸变（透视，旋转，缩放等），噪声干扰，特殊结构（平坦区域，重复相似结构等），及遮掩景物的匹配问题；

3、算法向并行化发展，提高速度，减少运算量，增强系统的实用性；

4、强调场景与任务的约束，针对不同的应用目的，建立有目的的面向任务的双目立体视觉系统。

双目立体视觉这一有着广阔应用前景的学科，随着光学，电子学以及计算机技术的发展，将不断进步，逐渐实用化，不仅将成为工业检测，生物医学，虚拟现实等领域。目前在国外，双目立体视觉技术已广泛应用于生产，生活中，而我国正处于初始阶段，尚需要广大科技工作者共同努力，为其发展做出贡献。在机器视觉赖以普及发展的诸多因素中，有技术层面的，也有商业层面的，但制造业的需求是决定性的。制造业的发展，带来了对机器视觉需求的提升；也决定了机器视觉将由过去单纯的采集、分析、传递数据，判断动作，逐渐朝着开放性的方向发展，这一趋势也预示着机器视觉将与自动化更进一步的融合。需求决定产品，只有满足需求的产品才有生存的空间，这是不变的规律,机器视觉也是如此。

上一个：智能制造更应该“智”在哪里？下一个：双目视觉三维定位原理解析