赋予计算机人类的视觉深度，从2D晋升到3D - 中国机电装备维修与改造技术协会自动化机器人分会

SFU 计算摄影实验室的研究人员，希望赋予计算机一种人类的视觉优势，虽然人类自然可以从一个单一的角度来确定物体的近或远，比如一张照片或一幅画，但这对计算机来说是一个挑战。

研究人员最近发表了他们的工作，改进了一种称为单目深度估计的过程，这是一种教计算机如何使用机器学习来观察深度的技术。

当我们看图片时，我们可以通过观察物体的大小、位置和彼此之间的关系来判断物体的相对距离，这需要识别场景中的物体并了解现实生活中物体的大小。仅此一项任务就是神经网络的一个活跃研究课题。

尽管近年来取得了进展，但提供可将图像转换为 3D (3D) 空间的高分辨率结果的现有努力已经失败。

为了解决这个问题，实验室认识到文献中现有神经网络模型尚未开发的潜力。拟议的研究通过卷积神经网络的局限性解释了当前方法缺乏高分辨率结果的原因。尽管近年来取得了重大进展，但神经网络一次生成许多细节的能力仍然相对较小。

另一个限制是这些网络可以同时“查看”多少场景，这决定了神经网络可以利用多少信息来理解复杂场景。为了提高视觉估计的分辨率，研究人员现在可以创建人眼看起来逼真的详细 3D 渲染。这些所谓的“深度图”用于创建场景的 3D 渲染并在计算机图形中模拟相机运动。

根据当前架构的限制，通过查看图像内容来分析图像并优化过程，以多种不同的形式将输入图像提供给我们的神经网络，以创建模型允许的尽可能多的细节，同时保留逼真的几何形状。

借助团队能够为真实世界的照片开发的高分辨率深度图，艺术家和内容创作者现在可以立即将他们的照片或艺术作品转移到丰富的 3D 世界中。

工具使艺术家能够将 2D 艺术变成 3D 世界

全球艺术家已经在使用 Aksoy 实验室研究支持的应用程序。日本视觉艺术家Akira Saito正在制作视频，把 2D 艺术作品带入3D 世界。为此，他将计算机动画软件 Houdini 等工具与 Aksoy 及其团队生成的深度图相结合。

TikTok 上的创意内容创作者正在利用这项研究以新的方式表达自己。