为什么说三维重建才是计算机视觉的灵魂?-德赢Vwin官网网

编者按：在“全民计算机视觉”的今天，其发展历程却鲜少有人追溯。梳理研究的过去将能让我们更好地探索未来。权龙教授为我们介绍了三维重建的历史发展与应用前景，也为大家在研究学习、职业选择等方面给出了一些实用建议。

王井东：您的主要研究方向是三维重建，它的发展现状和应用前景如何，您为什么看好它？

权龙：说三维重建首先要从计算机视觉讲起。计算机视觉包含两个基本方向，物体识别和三维重建。图像识别的突破性进展源自于2012年卷积神经网络（CNN）的兴起。在此之前，计算机视觉的核心研究方向是三维重建。因为在当时，对于图像的特征提取主要是通过三维重建的方法来定义和实现的。自2012年以来，图像的特征便逐渐由神经网络来自动学习。

三维重建的应用是很广泛的，对于自动驾驶、VR、AR等应用领域应用来讲，三维重建是核心技术，并且实时三维重建是必然趋势，因为我们生活在三维空间里，必须将虚拟世界恢复到三维，我们才可以和环境进行交互。所以仅仅研究识别肯定是不够的，计算机视觉下一步必须走向三维重建，并且把三维重建和识别融为一体。

古建筑修复与重建是三维重建的一个具有代表性的应用，比如近期被烧毁的巴黎圣母院，如果通过三维模型（https://www.altizure.cn/project-model?pid=57f8d9bbe73f6760f10e916a）进行数字重建，应该能够达到原汁原味还原其真实面貌的目的。目前在我们的三维重建项目中，名胜古迹的三维电子存档是很重要的一部分。从表面上看，三维重建似乎没有自动驾驶那么复杂，其实它比自动驾驶更难，因为自动驾驶的三维感知是给车识别，而VR、AR中的三维重建场景是提供给人类感知的，所以对三维重建的结果要求非常高。总体来讲，三维重建是计算机视觉的灵魂。

权龙教授（左）和王井东博士（右）合影

王井东：三维重建在计算机视觉中确实非常重要，您可以带大家回顾一下计算机视觉和三维重建的发展历程吗？

权龙：1987年在伦敦举办的第一届国际计算机视觉大会ICCV可以作为现代计算机视觉研究的一个开端。之前很多人认为做图像处理就是计算机视觉，其实是二者是有区别的。

计算机视觉的目标是对图像进行理解。准确来讲，计算机无法做到“理解”，只能做到“认知”。我们的研究目的是从图像中获取视觉特征，有了视觉特征才能开展一系列的工作。因此回顾计算机视觉的发展历程，根据算力条件的不同，我们可以看到一个特征提取的演化过程。

80年代，人人都在做以edge为主的边缘提取，有了edge之后，再把它高层化后的线段元做简单的统计分类或者三维重建。Edge在数学上很容易定义，在定义了很多优化准则后，到1986年John Canny提出了Canny edge detection之后，这个研究方向就到头了。

90年代，人们对三维重建愈加重视，当时欧洲比美国要领先。几何也追求特征提取，但一维的edge不适合几何计算，几何最本质的元素是点，所以很多工作开始围绕点的特征去展开，对点的特征进行描述，然后就可以把很多东西变成矢量的无序集合，再做统计。三维重建的终极目标是用非标定相机（uncalibrated camera）进行重建。

1992年，Oliver Faugeras和Richard Hartley各自独立地解决了非标定相机两张图像下的三维重建问题，引入了基于七点算法的基础矩阵（Fundamental Matrix）概念，这标志着三维视觉的崛起。

1994年，我提出了六点算法（Invariants of six points and projective reconstruction from three uncalibrated images），解决了非标定相机三张图像下的三维重建，进而在理论上彻底解决了多视重建的几何问题（multi-view geometry）。这两项工作共同奠定了三维重建的理论基础，对计算机视觉的发展起到了决定性的作用。

到了2012年，卷积神经网络（CNN）的出现对于特征提取和图像识别都是一个颠覆性的飞跃，从而触发了新一波人工智能高速发展的浪潮。事实上，卷积神经网络在1989年就应用于图像识别问题，它是今天所有卷积神经网络的鼻祖模型。

从诞生到2012年的十几年之间，发生变化的并非卷积神经网络的架构，而是：(一）GPU的出现提升了计算力；(二）斯坦福大学教授李飞飞创建的ImageNet，她把上百万张照片发到网络上进行标注。这两件事促成了卷积神经网络在2012年的复活。CNN的本质其实是两点，第一点是提取特征，第二点是标准分类器。所以本质上还是提取特征，只不过特征的表达能力比之前的手工定义要高得多。

所以从特征提取这条线索上看，虽然目前计算机视觉看似处于一轮新的热潮，但事实上一直以来大家都在做同样的事情，只不过在不同的阶段，提取的特征和采用的方式有所不同。

王井东：现在主流的计算机视觉研究主要集中在欧洲、美国和中国。您认为这三者的发展现状和未来将如何？

权龙：确实是三足鼎立。上个世纪八九十年代，欧洲的计算机视觉发展迅速，研究人员在一定意义上把计算机视觉当作一个应用数学的问题。三维重建需要大量传统数学知识，这批研究人员都有非常好的应用数学基础，那就用数学工具去解决这些视觉问题。

同期，美国计算机视觉的研究人员也非常活跃，但主要集中在应用领域，研究方向并不是非常清晰。随着2012年这一波由卷积神经网络引发的人工智能的再次崛起，美国在应用方面突飞猛进，欧洲依然保持扎实的基础研究的风格。后起之秀就是中国了，飞速发展的经济和创新气氛使得计算机视觉的研究和商业应用在极短的时间内快速发展起来了。

王井东：您不仅在计算机视觉的研究上一如既往，也创立了专注三维重建的公司Altizure，那么关于学术和产业的选择，您能为同学们分享一些经验和建议吗？

权龙：每个人都有不同的理想和发展方向，有的人可能更适合做应用，有的人更适合做学术研究，这是因人而异的。没必要每个人都要去做科研当教授，也没必要每个人都去创业，只要能发挥自己的特长，选择哪一条路都是非常好的。在这个多元化的社会，大家都在从不同的角度推进科技的进步。

王井东：当时是什么促使您从学术界“跨界”进入产业界？

权龙：很简单，我一直在研究计算机视觉三维重建，以前的结果还不成熟，而到了某一个时机它终于能投入应用了，那我们当然要做应用，这是研究的最高境界。研究就是这样，可能在很长时间里效果都不够理想，那我们就要继续研究，但当它有了用武之地时，我觉得投入实践是顺理成章的。

王井东：您认为一个计算机视觉方向的学生应该学好哪些知识，才能做更好的研究？

权龙：我对所有的人的建议是，打好应用数学和计算机的功底。应用数学是理论基础，计算机是实现手段，两方面的能力缺一不可。我不太赞同大学开设人工智能专业的做法，其实人工智能在一定意义上就是应用数学，尤其是卷积神经网络，本质上是数学优化和统计，你要有很好的应用数学功底。

王井东：很多人说深度学习和计算机视觉到了瓶颈期，您认为目前最大的问题是什么？您最期待的突破又在哪里？

权龙：“瓶颈期”不是一个合适的词汇。因为它本质上是一个应用科学，现在有了卷积神经网络这样强大的工具，所有的应用方向都可以重新去摸索。刚才讲到特征提取，提取完特征后去做具体的应用，很多东西是可以继续改进的，差别在于进步有多大。

卷积神经网络的特征提取已经是一个很大的突破了，在这个基础之上，我想会有一系列新的应用出现。如果实在要说突破，那就是硬件和算力的突破。目前大热的自动驾驶领域将很大力度地推进算力的发展，VR、AR也是同样。有朝一日，如果算力能够有一个显著的突破性进展，很多无法想象的事情将会发生。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

计算机视觉

计算机视觉

+关注

关注
8

文章
1698

浏览量
45970
卷积神经网络

卷积神经网络

+关注

关注
4

文章
367

浏览量
11863

原文标题：港科大教授权龙：为什么三维重建才是计算机视觉的灵魂？| 对话

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

CASAIM与迈普医学达成合作，三维扫描技术助力医疗辅具实现高精度三维建模和偏差比对

近期，CASAIM与广州迈普再生医学科技股份有限公司（简称：迈普医学）合作，基于CT数据三维重建和设计，在医疗辅具研究开发中实现高精度三维建模和偏差比对，实现与缺损区域的精确匹配。

发表于 11-12 14:48 •163次阅读

建筑物边缘感知和边缘融合的多视图立体三维重建方法

航空建筑深度估计是三维数字城市重建中的一项重要任务，基于深度学习的多视图立体（MVS）方法在该领域取得了较好的成果。目前的主要方法通过修改MVS 框架实现建筑物的深度估计，缺乏对建筑物内在结构的考虑，易导致精度不足等问题。

发表于 11-07 10:16 •187次阅读

建筑物边缘感知和边缘融合的多视图立体<b class='flag-5'>三维重建</b>方法

留形科技借助NVIDIA平台提供高效精确的三维重建解决方案

本案例中，留形科技借助 NVIDIA Jetson 和 Omniverse 平台，实现边缘设备上的实时、全彩、无损三维重建，从而在建筑细节捕捉、大型基础设施的数字孪生等应用中，大幅提升三维数据采集与处理的效率与精度。

发表于 09-09 09:42 •445次阅读

基于大模型的仿真系统研究一——三维重建大模型

问题，赛目推出了基于大模型的仿真系统，利用机器学习、深度学习等人工智能技术，不仅推出自动标注大模型、多模态检测大模型和场景生成大模型等模块，并且引入三维重建大模型加强渲染画面真实性。通过上述模块，赛目的路采

发表于 07-30 14:51 •1572次阅读

基于大模型的仿真系统研究一——<b class='flag-5'>三维重建</b>大模型

机器视觉和计算机视觉有什么区别

机器视觉和计算机视觉是两个密切相关但又有所区别的概念。一、定义机器视觉机器视觉，又称为计算机

发表于 07-16 10:23 •516次阅读

cad如何进行三维建模

三维建模是计算机辅助设计（CAD）中的一项重要技术，它可以帮助设计师在计算机上创建和编辑三维模型。本文将介绍如何使用CAD软件进行三维建模，

发表于 07-09 10:23 •882次阅读

计算机视觉与人工智能的关系是什么

引言 计算机视觉是一门研究如何使计算机能够理解和解释视觉信息的学科。它涉及到图像处理、模式识别、机器学习等多个领域的知识。人工智能则是研究如何使计算

发表于 07-09 09:25 •612次阅读

计算机视觉和机器视觉区别在哪

计算机视觉和机器视觉是两个密切相关但又有明显区别的领域。一、定义 计算机视觉 计算机

发表于 07-09 09:22 •445次阅读

计算机视觉属于人工智能吗

属于，计算机视觉是人工智能领域的一个重要分支。引言 计算机视觉是一门研究如何使计算机具有视觉能

发表于 07-09 09:11 •1283次阅读

计算机视觉的主要研究方向

计算机视觉（Computer Vision, CV）作为人工智能领域的一个重要分支，致力于使计算机能够像人眼一样理解和解释图像和视频中的信息。随着深度学习、大数据等技术的快速发展，计算机

发表于 06-06 17:17 •947次阅读

三维可视：展现未来的视觉盛宴

带你了解这一领域的种种奇迹。一、三维可视化技术的定义三维可视化技术是基于计算机图形学和计算机视觉的一种技术，用于创建和呈现逼真的

发表于 06-05 15:48 •319次阅读

计算机视觉的十大算法

随着科技的不断发展，计算机视觉领域也取得了长足的进步。本文将介绍计算机视觉领域的十大算法，包括它们的基本原理、应用场景和优缺点。这些算法在图像处理、目标检测、人脸识别等领域有着广泛的应

发表于 02-19 13:26 •1231次阅读

机器视觉、工业视觉和计算机视觉这三者的关系

机器视觉、工业视觉和计算机视觉这三者的关系

发表于 01-24 10:51 •1268次阅读

三维视觉测量技术知识科普

三维视觉测量技术按照测量过程中是否投射光源，获取被测物体三维形貌信息的方法可以分为两大类: 被动视觉测量和主动视觉测量。

发表于 01-03 11:47 •833次阅读

基于光学计算超表面的全光学目标识别和三维重建技术

随着物体识别和三维(3D) 重建技术在各种逆向工程、人工智能、医疗诊断和工业生产领域变得必不可少，人们越来越关注与寻求可以简化处理的高效、更快的速度和更集成的方法。

发表于 12-22 10:13 •600次阅读