不只有结构光：机器眼中的立体世界，还在发生若干变化

转载时间：2021.08.30（原文发布时间：2018.12.18）

137

转载作者：36氪企服点评小编

阅读次数：137次

要说AI技术里什么最火，机器视觉绝对算一个；而要说机器视觉技术里什么最火，大概毫无争议就属3D机器视觉了。

所谓3D机器视觉，是指在一般的机器视觉技术的基础上，加入对立体空间中三维模型的理解。这项技术不仅涉及AI，而是一门机器视觉、图形学与数据感知技术的交叉学科。想想也知道，让机器认识3D画面是非常有价值的。毕竟人的视觉理解就是3D的，想要让AI尽量贴近真人的感知方式，3D是必须攻克的难题。

在产业场景上，3D机器视觉是无人驾驶和高精地图的重要技术条件，在VR/AR上应用也非常广泛，而无人机航拍与测绘也离不开这门技术。在苹果把3D结构光技术炒火了之后，手机中的3D机器视觉也已经成为兵家必争之地——假如说，这些厉害的技术都是赛车，那么3D机器视觉就是他们在路上都会遇到的收费站……

今天在机器视觉顶会中，差不多会有半壁江山那么多的论文都是跟3D有关。前沿探索可谓疯狂进行。然而重点来了，关于这一领域，似乎大部分吃瓜群众还是只知道一个结构光而已。

有哪些三维图像+机器视觉的新技术趋势，今天正隐藏在未知迷雾中眺望这个世界？今天我们来说几种很有科幻感的技术突破点。说不定这些能力明年就会出现在你的手机、VR设备和无人机中，又或许即将成为某个被资本疯狂亲吻的创业热潮。

超大场景的3D数据感知

3D机器视觉包括很多方面，既有让智能体去理解3D数据，也包括如何通过机器视觉的解决方案，去获取3D模型数据。

传统意义上的3D数据获取，或者称其为3D感知技术，一般来说可以利用多角度拍照或者深度传感器的方式实现3D数据收集。这种技术的局限在于，收集的3D数据不能太大。

然而在3D资料要求不断升级的今天，对于超大场景的3D数据感知，正在成为一个热门议题。比如无人驾驶中使用的城市高精地图，就可以看做一个个超大3D场景的拼接。智能城市领域运用到的很多城市数据推演，也要根植于对城市3D场景的收集。

不只有结构光：机器眼中的立体世界，还在发生若干变化

机器视觉正在为超大场景的3D数据感知提供很多新的方法。比如自动化的成像方法，像视觉SLAM在线处理连续帧的图像，实现实时重建巨大3D场景。再比如说对航拍数据进行点云分割和点云数据的语义理解，帮助快速低成本获取城市3D数据。

总体来看，今天超大场景的3D数据感知，有三个主要应用方向，很可能分别成为各自技术领域中新的投资和创业热点：

1、建筑物的3D高精度模型，运用在工程监理、智能设计、物流和智能城市领域。

2、高精地图与3D数据感知的结合，这是无人驾驶的重要一环。

3、室内外一体的3D建模，这对于智能家居设计、环境监控、VR/AR体验来说都有重要帮助。

手机与3D视觉进入蜜月期

3D结构光，今天已经当之无愧成为了高端手机的标配，成为了继双摄、三摄与屏下指纹之后又一个手机行业争抢的热点。

然而手机上的3D视觉技术远不止于结构光，从算法、传感硬件，到影像系统解决方案，都可能成为手机与3D视觉进一步耦合的关键因素。

今天来看，有3个相关趋势非常可能成为明年的热点。一个是基于芯片端进行的3D视觉算法加速，这很可能成为手机AI的下一个进化方向。第二个是高纠错能力的3D视觉算法将会普及，在终端实现3D数据收集和本地建模将会成为新的热点。第三个是后置摄像头加入3D视觉解决方案指日可待。

从芯片端，到开发平台，再到数据集、传感系统，3D机器视觉正在多个领域影响手机战场的走向，在这些领域储备技术武器，也很可能成为明年手机战场厮杀的关键节点。

不只有结构光：机器眼中的立体世界，还在发生若干变化

AR/VR中的位姿估计技术

为什么我们在玩AR体验的时候，经常会觉得手机里的东西放在摄像头视野中并不真实，像是漂浮在地板上一样。

这就是因为位姿估计算法不够精准，无法正确定位物体的空间关系。在机器视觉技术的进化下，今天很多位姿估计技术正在同步进化。比如基于动态特征提取算法，达成的动作定位今天已经比较成熟。

这东西听起来挺玄乎，到底是干啥用的呢？它的最大应用场景，就是在VR/AR正确处理场景中动态物体的空间关系和运动轨迹。比如你在VR里玩踢球游戏，球应该在什么位置挨踢，以什么轨迹撞墙，都有赖于位姿估计算法来校准。

在机器视觉算法的帮助下，更精细的位姿估计正在到来，而这也加速了成熟MR体验的到来。另一方面，在VR设备或者手机当中，基于摄像头与传感器协同运作来完成位姿估计，也是沉浸技术中即将发生的一个亮点。

不只有结构光：机器眼中的立体世界，还在发生若干变化

通过散乱数据达成三维建模

3D机器视觉的最重要任何，肯定是基于数据来实现3D建模。这个应用在产业端十分重要，地理信息系统、勘探、工程，以及无人驾驶，都需要大量的3D建模工作来参与。

而消费者级的3D建模今天也在到来，我们已经可以看到在手机端通过3D结构光来完成数据收集，从而达成3D建模的玩法。

跟3D感知一样，3D建模也是利用摄像头或者传感器来收集数据，最终通过不同的解决方案完成建模。

然而这个领域还是有很多问题等待解决。比如说，今天我们进行3D建模时，还需要非常痛苦的一点点收集数据，必须保证数据的对齐和精准排列。否则出来的3D模型就是杂乱无章的。这显然让大众完3D建模的热情减退，并且给很多工程级项目增添了非常多难度。

AI的到来，正在帮助这种情况有所改变。在深度学习算法的帮助下，机器视觉领域正在研究如何在散乱、不规则、巨大数量的数据中完成3D建模。这需要对抗生成以及先验表示等非常多的方案，但带来的效果非常值得期待。

不只有结构光：机器眼中的立体世界，还在发生若干变化

比如说今天已经有3D建模方案，在深度学习的帮助下实现对密林的重建。然而其用来进行点云建模的图像数据中，有很多被树叶遮挡的部分。这时候就可以用AI来增强3D建模的先验知识，主动“脑补”出遮挡物背后的真实样子。

不仅是修复遮挡模型和瑕疵数据，机器视觉技术与3D建模的融合，还可以让很多无人设备具有更雪亮的“眼睛”。比如无人驾驶汽车，或许可以基于“大脑”中的3D建模算法，来脑补智能摄像头尚未发现的环境。这点在复杂立交桥和停车场中格外有用。

在消费者端，3D建模与机器视觉的结合也将带来新的想象力，比如消费者可以根据照片来重建精准的3D模型，或者傻瓜式完成建模要用的数据收集。让不那么专业的人也能建设出专业的3D模型，这个改变背后的想象力惊人。

更好的深度传感器解决方案

还有一个机器视觉技术和3D的交汇，主要发生在无人机领域。

无人机今天进行测绘和航拍时，必须附带对空间的理解能力，否则拍照不准事小，撞了南墙事大。而这个能力主要来自于摄像头和传感器进行空间阅读。

随着消费级无人机的不断升级，人们对无人机拍摄效果要求也不断升高。无人机必须不断在更远的距离、更极端的天气、更复杂的运动中拍摄画面。然而传统的传感系统解决方案已经快要跟不上用户的期许。

今天的消费级无人机，一般采取两种感知解决方案，一种是双目视觉技术，比如大疆的某些产品；一种是结构光传感器，比如微软的Kinect。而这两种主流方案都是有一定局限的，比如感知范围都有限，难以完成远距离作业。再比如双目视觉技术在黑夜中会失灵，所以无人机夜拍一直是个大坑，然而结构光技术应对不来强光，一到中午无人机就石乐志也是很心塞的。

更好的解决方案，在于将传感器与智能摄像头结合起来，达成可以适应不同天候与天气，并且可以长距离感知的新型传感系统解决方案。

今天，用机器视觉技术中的很多算法，协调不同的传感设备工作，让无人机变成“多眼无人机”，正在成为流行的解决方案。机器视觉算法大量加入无人机传感器，还可能带来轨迹拍摄能力提升，让无人机获得拍摄整体环境，或者精准捕捉动态物体，比如说运动中的动物和车辆的能力。

不只有结构光：机器眼中的立体世界，还在发生若干变化