谷歌AI发布算法框架，利用手机即可探测物品位置、大小和方向-AET-电子技术应用

谷歌AI发布算法框架，利用手机即可探测物品位置、大小和方向

日期： 2020-03-13

来源：与非网

关键词： 自动驾驶增强现实

　　3 月 13 日讯，谷歌 AI 在其官方博客上发布了一款名为 MediaPipe Objectron 的算法框架，利用这个算法框架，只要一部手机，就能实时从 2D 视频里识别 3D 物品的位置、大小和方向。这一技术可以帮助机器人，自动驾驶汽车，图像检索和增强现实等领域实现一系列的应用。

　　我们知道，3D 数据集相对于 2D 来说，非常有限。

　　为了解决这个问题，谷歌 AI 的研究人员使用移动增强现实(AR)会话数据(session data)，开发了新的数据 pipeline。

　　目前来说，大部分智能手机现在都具备了增强现实的功能，在这个过程中捕捉额外的信息，包括相机姿态、稀疏的 3D 点云、估计的光照和平面。

　　为了标记 groud truth 数据，研究人员构建了一个新的注释工具，并将它和 AR 会话数据拿来一起使用，能让注释器快速地标记对象的 3D 边界框。

　　MediaPipe 是谷歌去年 7 月份发布的一个多媒体框架，它在安卓、IOS 网页等各种平台上都能应用机器学习媒体模型。昨日 MediaPipe 发布 0.7 版，并加入了移动端试试 3D 检测模型。目前 MediaPipe 包含人脸检测、手部检测、头发分割和视频自动横竖屏转换等功能。主要用于构建处理不同形式的感知数据。

　　在计算机视觉领域里，跟踪 3D 目标是一个棘手的问题，尤其是在有限的计算资源上，例如，智能手机上。由于缺乏数据，以及需要解决物体多样的外观和形状时，而又仅有可 2D 图像可用时，情况就会变得更加困难。

　　为了解决这个问题，谷歌 Objectron 团队开发了一套工具，可以用来在 2D 视频里为对象标注 3D 边界框，而有了 3D 边界框，就可以很容易地计算出物体的姿态和大小。注释器可以在 3D 视图中绘制 3D 边界框，并通过查看 2D 视频帧中的投影来验证其位置。对于静态对象，他们只需在单个帧中注释目标对象即可。

　　为了补充现实世界的训练数据以提高 AI 模型预测的准确性，该团队还开发了一种名为 AR Synthetic Data Generation（增强现实合成数据生成）的新颖方法。它可以将虚拟对象放置到具有 AR 会话数据的场景中，允许你利用照相机，检测平面和估计照明，来生成目标对象的可能的位置，以及生产具有与场景匹配的照明。这种方法可生成高质量的合成数据，其包含的渲染对象能够尊重场景的几何形状并无缝地适配实际背景。

　　通过上述两个方法，谷歌结合了现实世界数据和增强现实合成数据，将检测准确度度提高了 10%。

　　增强现实合成数据生成的一个示例：虚拟白褐色谷物盒渲染到真实场景中，紧邻真实蓝皮书。

　　准确度的提升是一方面，谷歌表示，当前版本的 Objectron 模型还足够“轻巧”，可以在移动设备上实时运行。借助 LG V60 ThinQ，三星 Galaxy S20 +和 Sony Xperia 1 II 等手机中的 Adreno 650 移动图形芯片，它能够每秒处理约 26 帧图像，基本做到了实时检测。

　　接下去，谷歌团队表示：" 我们希望通过与更多的研究员和开发者共享我们的解决方案，这将激发新的应用案例和新的研究工作。我们计划在未来将模型扩展到更多类别，并进一步提高设备性能。"

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306118；邮箱：aet@chinaaet.com。

谷歌AI发布算法框架，利用手机即可探测物品位置、大小和方向

日期： 2020-03-13

来源：与非网

相关内容