《电子技术应用》
您所在的位置:首页 > 模拟设计 > 业界动态 > 谷歌前工程师开发实时语音APP AI迎来又一大突破

谷歌前工程师开发实时语音APP AI迎来又一大突破

2018-03-08
关键词: iOS 亚马逊 谷歌 智能

1520395247255070264.jpg

在2018年移动世界大会上拥有三层展台的数十亿美元技术巨头中,有一对企业家在谈论人工智能方面的突破,他们刚刚把一款名为Otter.ai的新应用程序在iOS和Android中推出。

当他们坐下来在Fira Barcelona 2号展厅后角的一个小会议室里谈论时,Sam Liang将他的iPhone放在桌子上,并点击了Otter应用程序中的记录按钮。作为Otter.ai背后公司Alexense的首席执行官,Liang开始讲述了加州15人创业小公司如何采用不同的方法来理解音频数据,不同于亚马逊Alexa,谷歌助理和其他公司在语音识别上的努力。

在Liang发表讲话时,Otter开始吐文,大概延迟了2-3秒。而且,由于Liang事先在应用程序中设置了会议,所以当他的队友Seamus McAteer提出自己的评论时,软件会自动识别,或者会因其他人的后续问题而中断。

尽管Otter的自然语言处理方式并不完美,标点缺失,词语被误解,说话人有时被错误识别,但它已经非常接近了,特别是考虑到速度和应用程序是免费的。

1520395247292063056.jpg

“我们的技术完全不同。” Liang在接受ZDNet采访时说。 “我们称之为'Ambient Voice Intelligence'(环境声音智能),我们使用ambient这个词来表示这是在后台工作......你的大脑只能记住10-20%的(会议)信息......所以我们认为我们可以帮助人们捕获这些信息,然后快速搜索。”

搜索是最好的功能。录制完成后,应用程序的机器学习会自动创建约10个关键字,以便用户了解会议的内容。你可以马上开始搜索全文。同样有用的是,一旦你熟悉关键字,可以点击播放按钮来收听发生的音频部分。

该应用程序的下一个最佳功能是可以共享记录的会议。所以,如果你有一个会议,而一个同事不能参加,你可以随后向他们发送记录和音频,以便他们找到与之相关的东西。

如果你将谷歌帐户连接到应用并导入联系人,那么所有这些高级功能都是非常简单的。因此,如果你的企业使用Google Apps,它可以非常顺利地运行。跟谷歌的整合并不令人意外,因为Liang是谷歌前工程师。

McAteer从事移动和数据分析工作已有20多年。团队的其他成员由前谷歌,Facebook,雅虎和Nuance员工以及麻省理工学院、斯坦福大学和其他顶尖科技计划的博士和计算机科学家组成。

自2016年1月起,该团队一直致力于研究Otter背后的技术。他们拥有在过去一年中授权给其他合作伙伴的API - 主要是在录制完成后提供音频文件的转录。 AISense利用所有的合作伙伴数据来调整和训练算法。

今年1月,他们宣布与快速增长的视频会议服务公司Zoom签署了一项许可合作伙伴关系,现在该公司提供了一个录制视频会议的选项——由AISense提供支持。

随着推出实时录音的免费应用程序,该公司正在进入下一个阶段。它最终计划推出其应用程序的高级版本,该版本将建立在免费版本的功能上。例如,免费版本将允许你搜索过去90天的会议。高级版本将进一步扩大。

“能够记住,搜索和分享你的语音对话是合作的下一个前沿。” Liang说,“Otter授权用户使用AI进行日常对话,因此他们可以专注于所说的内容而忘记记笔记。”

可以在Otter.ai,Apple App Store和Google Play Store找到该应用程序。 iOS版本在这一点上更加精细一些,但都值得关注这款应用程序随着时间的推移如何发展和提高。

IBM Watson提供实时的文本到语音服务,但它背靠超级计算机。因此,AISense使用应用程序和智能手机取得了令人印象深刻的成就,而且它可以说是2018年世界移动通信大会上宣布的最重要突破之一 ,尽管它一直以来十分低调。


本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。