《电子技术应用》
您所在的位置:首页 > 模拟设计 > 业界动态 > Alexa变身窃听器:亚马逊被爆雇佣数千员工监听用户对话

Alexa变身窃听器:亚马逊被爆雇佣数千员工监听用户对话

2019-04-16

目前,数千万的人们经常使用智能扬声器和语音软件来玩游戏、听音乐或搜寻一些琐事。而这其中有数百万人却越来越不愿意将这些设备和它们强大的麦克风买回家,因为他们担心有人在偷听。

1555118622380032748.png

有时候,的确有人在偷听。

亚马逊公司在全球雇佣了数千名员工,以帮助改进为Echo音箱供电的Alexa数字语音助手。研究小组会监听Echo在其主人家中或办公室里收集到的语音记录。这些录音会被转录、注释,然后反馈到软件中,此举的目的是为了消除Alexa对人类语言理解的空白,帮助它更好地响应指令。

七名曾参与过Alexa语音审查程序的人员描述这个程序时,强调了在训练软件算法时经常被忽视的人类角色。在营销材料中,亚马逊称Alexa“生活在云端,并且一直在变得更聪明。” 但是,就像许多为了实现从经验中学习的目的而构建的软件工具一样,人类也在对其进行一些教学。

据知情人士透露,这个团队由一群承包商和亚马逊全职员工组成,他们在波士顿、哥斯达黎加、印度和罗马尼亚等地的前哨站工作。这些知情人士签署了保密协议,该协议禁止他们公开谈论这个项目。

亚马逊布加勒斯特办公室的两名员工称,他们每天工作9个小时,每人每次当值时要分析多达1000个音频片段。布加勒斯特办公室位于罗马尼亚首都颇具发展前景的Pipera区,占据了环球价值大厦(Globalworth building)最高的三层。办公室里现代化的设备在摇摇欲坠的基础设施中十分显眼,却没有任何外部标志显示亚马逊的存在。

这项工作里的大部分内容都很平常。波士顿的一名工作人员说,他为“泰勒·斯威夫特”等特定话语挖掘了积累的语音数据,并对其进行了注释,以表明搜索者指的是音乐艺术家。

偶尔,这些工作人员会听到Echo的主人可能比较隐私的内容,比如,一个女人在淋浴时唱得很糟糕,或者一个孩子大声呼救。当团队在解析一个混乱的单词时需要帮助或遇到一段有趣的录音时,他们会使用内部聊天室来共享文件。

有时他们会听到令他们不安的录音,或者可能是与犯罪有关的录音。其中两名工人说,他们听到过他们认为是性侵的录音。当类似的事情发生时,他们可能会在内部聊天室里分享经验,以缓解压力。亚马逊表示,当员工听到令人不快的事情时,他们有相应的程序可以遵循,但两名罗马尼亚员工表示,在这样的情况发生后他们想寻求指导时,却被告知这不是亚马逊的工作。

一位亚马逊发言人在一份电子邮件声明中表示:“我们会严肃对待客户个人信息的安全和隐私。为了改善用户体验,我们只标注了一小部分Alexa语音录音样本。例如,这些信息可以帮助我们训练我们的语音识别和自然语言理解系统,从而使得Alexa可以更好地理解您的请求,并确保服务对每个人都有效。”

声明中还说,“我们有严格的技术和操作保障措施,对滥用我们系统的行为采取零容忍政策。员工不能直接访问作为此工作流一部分的个人或帐户标识信息。所有信息都被高度保密,为了保护这些信息,我们使用多因素身份验证手段来限制访问、加密和审核我们的控制程序。”

亚马逊在其营销和隐私政策材料中没有明确表示,一些人正在监听Alexa收集的对话录音。该公司在一份常见问题列表中表示:“我们利用您对Alexa的要求来训练我们的语音识别和自然语言理解系统。”

在Alexa的隐私设置中,该公司允许用户在开发新功能时禁用语音记录。根据彭博社查看的截图显示,发送给Alexa审计员的录音不提供用户的全名和地址,但是却与账号、用户名和设备序列号相关。

外媒在今年早些时候曾报道称,亚马逊旗下Ring公司的员工通过在公司门铃摄像头拍摄的视频人工识别车辆和人员,据说这是为了更好地训练该软件自己独立完成这项工作。

密歇根大学教授Florian Schaub在研究了与智能扬声器相关的隐私问题后说:“你没有必要总是想着有另一个人正在监听你在家里对你的智能扬声器说了些什么。我认为,我们已经习惯于这样一种假设,这些机器只是在进行神奇的机器学习。但事实是,这项工作仍然需要包含人工处理的部分。”

他补充说道:“这是否属于隐私问题,取决于亚马逊和其他公司对他们人工标注的信息类型的谨慎程度,以及他们如何向他人呈现这些信息。”

自2014年Echo问世后,亚马逊的圆柱形智能音箱使得语音软件在家庭中的使用迅速普及。不久后,Alphabet 公司推出了自己的版本“谷歌Home”,随后是苹果公司的HomePod。在中国也有许多公司销售自己推出的类似设备。根据研究机构Canalys的数据显示,去年全球消费者购买了7800万个智能扬声器。还有数百万人使用语音软件与智能手机上的数字语音助手进行互动。

Alexa软件被设计成听到一个唤醒词后连续录制音频片段。唤醒词默认是“Alexa”。但人们可以将其更改为“Echo”或“computer”。当检测到唤醒词时,Echo顶部的光环会变为蓝色,表明该设备正在记录并向亚马逊服务器发送一条命令。

大多数现代语音识别系统依赖于模仿人类大脑的神经网络。该软件通过在大量数据中发现模式来学习。驱动Echo和其他智能扬声器的算法使用概率模型来进行有根据的猜测。如果有人问Alexa附近是否有希腊餐馆,算法就知道用户可能在寻找一家餐馆,而不是教堂或社区中心。

但有时Alexa也会弄错,尤其是在处理新的俚语、地区口语或英语以外的语言时。在法语中,avec sa的“with him”或“with her”会让软件误以为有人在使用Alexa wake这个词。Hecho在西班牙语中表示事实或行为,有时被误解为Echo。这就是为什么亚马逊招募人工助手来填补算法所遗漏的空白。

苹果的Siri也有人工助手,主要负责判断数字语音助手对请求的解释是否与用户所说的相符。根据苹果的一份安全白皮书所示,他们审查的录音缺乏可识别个人身份的信息,并与随机标识符绑定存储6个月。在此之后,数据将被剔除随机识别信息,但可能会被存储更长时间,以提高Siri的语音识别能力。

该公司说,在谷歌,一些评估人员可以从谷歌语音助手那里获得一些音频片段,用来帮助训练和改进产品,但它与任何可识别个人身份的信息都没有关联,而且音频是失真的。

亚马逊最近发布了一份招聘启事,为布加勒斯特的Alexa数据服务公司招聘一名质保经理。招聘启事里对工作内容这样描述:“每天Alexa都要听成千上万的人谈论不同的话题和不同的语言,她需要我们的帮助来理解这一切。这是你从未见过的大数据处理。我们每天都在创造、标注、策划和分析大量的语音材料。”

据一位知情人士透露,亚马逊对语音数据的审核过程始于Alexa随机抽取一小部分客户语音记录样本,并将音频文件发送给遥远的员工和承包商。

一些Alexa审核人员的任务是转录用户的命令,将录音与Alexa的自动记录进行比较,或者对用户与机器之间的交互进行注释。这个人问了什么?Alexa是否提供了有效的响应?

另一些人则记下侦听器所听到的一切,包括背景谈话,即使是在孩子们说话的时候。有时侦听器会听到用户讨论诸如姓名或银行信息等私人细节。在这种情况下,他们应该勾选一个表示“关键数据”的对话框,然后他们进入下一个音频文件。

根据亚马逊网站上的说法,除非Echo检测到唤醒词或按下按钮激活,否则不会存储音频。但有时Alexa似乎在没有任何提示的情况下就开始录音了,音频文件以刺耳的电视声音或难以理解的噪音开始。无论激活是否错误,审核人员都需要对其进行转录。其中一名知情人士说,当Alexa没有收到唤醒命令或意外触发时,审核人员每人每天都会录制多达100段录音。

据两位评论人士说,在世界各地的家庭中,Echo的主人经常猜测谁在偷听。他们会问Alexa :“你是为国家安全局工作吗?Alexa,有人在听我们说话吗?”


本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。