《电子技术应用》
您所在的位置:首页 > 模拟设计 > 业界动态 > 谷歌AI发布算法框架,利用手机即可探测物品位置、大小和方向

谷歌AI发布算法框架,利用手机即可探测物品位置、大小和方向

2020-03-13
来源:与非网
关键词: 自动驾驶 增强现实

  3 月 13 日讯,谷歌 AI 在其官方博客上发布了一款名为 MediaPipe Objectron 的算法框架,利用这个算法框架,只要一部手机,就能实时从 2D 视频里识别 3D 物品的位置、大小和方向。这一技术可以帮助机器人,自动驾驶汽车,图像检索和增强现实等领域实现一系列的应用。

  我们知道,3D 数据集相对于 2D 来说,非常有限。

  为了解决这个问题,谷歌 AI 的研究人员使用移动增强现实(AR)会话数据(session data),开发了新的数据 pipeline。

5e6b1622d6a23-thumb.jpg

  目前来说,大部分智能手机现在都具备了增强现实的功能,在这个过程中捕捉额外的信息,包括相机姿态、稀疏的 3D 点云、估计的光照和平面。

  为了标记 groud truth 数据,研究人员构建了一个新的注释工具,并将它和 AR 会话数据拿来一起使用,能让注释器快速地标记对象的 3D 边界框。

  MediaPipe 是谷歌去年 7 月份发布的一个多媒体框架,它在安卓、IOS 网页等各种平台上都能应用机器学习媒体模型。昨日 MediaPipe 发布 0.7 版,并加入了移动端试试 3D 检测模型。目前 MediaPipe 包含人脸检测、手部检测、头发分割和视频自动横竖屏转换等功能。主要用于构建处理不同形式的感知数据。

  在计算机视觉领域里,跟踪 3D 目标是一个棘手的问题,尤其是在有限的计算资源上,例如,智能手机上。由于缺乏数据,以及需要解决物体多样的外观和形状时,而又仅有可 2D 图像可用时,情况就会变得更加困难。

  为了解决这个问题,谷歌 Objectron 团队开发了一套工具,可以用来在 2D 视频里为对象标注 3D 边界框,而有了 3D 边界框,就可以很容易地计算出物体的姿态和大小。注释器可以在 3D 视图中绘制 3D 边界框,并通过查看 2D 视频帧中的投影来验证其位置。对于静态对象,他们只需在单个帧中注释目标对象即可。

  为了补充现实世界的训练数据以提高 AI 模型预测的准确性,该团队还开发了一种名为 AR Synthetic Data Generation(增强现实合成数据生成)的新颖方法。它可以将虚拟对象放置到具有 AR 会话数据的场景中,允许你利用照相机,检测平面和估计照明,来生成目标对象的可能的位置,以及生产具有与场景匹配的照明。这种方法可生成高质量的合成数据,其包含的渲染对象能够尊重场景的几何形状并无缝地适配实际背景。

  通过上述两个方法,谷歌结合了现实世界数据和增强现实合成数据,将检测准确度度提高了 10%。

  增强现实合成数据生成的一个示例:虚拟白褐色谷物盒渲染到真实场景中,紧邻真实蓝皮书。

  准确度的提升是一方面,谷歌表示,当前版本的 Objectron 模型还足够“轻巧”,可以在移动设备上实时运行。借助 LG V60 ThinQ,三星 Galaxy S20 +和 Sony Xperia 1 II 等手机中的 Adreno 650 移动图形芯片,它能够每秒处理约 26 帧图像,基本做到了实时检测。

  接下去,谷歌团队表示:" 我们希望通过与更多的研究员和开发者共享我们的解决方案,这将激发新的应用案例和新的研究工作。我们计划在未来将模型扩展到更多类别,并进一步提高设备性能。"


本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。