为什么亚马逊员工需要聆听你对Alexa说了什么

文:Alyssa Newcomb 译:许睿洋

当用户问亚马逊(Amazon)语音助理Alexa关于自己背上疹子的问题,或是要它关电灯时,他们可能不知道会有其他人听到这些问题和指令。

人工智能需要人为输入以及重複检视来让它变得更聪明。本周(原文发4月13日),一篇《彭博社》(Bloomberg)的报导为亚马逊专门负责收录用户问题的团队,揭开神秘的面纱。而这个AI训练团队,在全球各地共有上千名成员。

这些员工负责收听的录音档,来自用户给Alexa的指令与问题,如关电灯、播放泰勒斯(Taylor Swift)的歌曲等。他们会转录这些提问,并将它们重新输入Alexa的软件中,使其更加聪明,也更能熟练地掌握人类说话的方式。

Twilio Autopilot(一个能让开发者建立重複功能程式和Alexa应用程式的平台)产品与工程主任尼可.亚科斯达(Nico Acosta)说︰「这是训练人工智能非常正常的方法,也是令它不那么引人入胜的地方。所有的语音助理都需要透过真实世界的声音素材进行训练,这也就意味着需要人为转录来协助训练。」

要让用户安心将这些智能语音助理放在家中,势必需要相应清楚的私隐规範。在给《财富》的声明中,亚马逊的发言人表示该公司仅会「从随机挑选的用户组别中,使用极少部分的互动过程」,负责听取音档的员工也无法辨识用户的身分。

发言人说道︰「举例而言,这些讯息有助训练我们的语音辨识和自然语言处理系统,使得Alexa能更容易理解你的指令,并确保这套服务适合所有人使用。我们有极为严格的技术与执行防护措施,且对于系统滥用实施零容忍政策。」

网路安全公司Forcepoint首席科学家理查.福特(Richard Ford)表示,未经处理的真人训练素材对于维持服务品质「至关重要」。

福特说道︰「如果你想要训练Alexa的语音辨识,最好的材料就是利用那些真正『贴近生活』的场景,裏头包含了背景噪音、狗吠声、人们改变主意时的呢喃滴咕等──一切你能在真实世界中找到的『混乱』。」

然而,他表示,亚马逊要在不听取数千万笔音档的情况下训练Alexa其实另有他法。

他说︰「你可以付费让人们主动愿意分享自己的资料或参与试验活动,但到头来,若要以较容易操作的方式取得真正实际的数据,可能还是得捕捉真实世界中的声音资料。或许有些缓冲的措施,能将私隐外流的风险降至最低,但它们并非绝对有效,毕竟私隐权需要良善的治理、设计与履践所共同汇集而来。」

儘管这样的消息可能让家中已有智能语音助理的人们在私隐问题上徒增担忧,但亚马逊表示,它们的语音助理只会在听到关键「唤醒词」(如「Alexa」或「Amazon」)后才会开始录下问题并将其传送至云端。当Echo扬声器装置上的蓝色灯环亮起时就是它正在录音的清楚标誌。

用户也能清除过去的所有录音。只要登录「亚马逊连结与装置」(Amazon Connect and Devices)网站,用户便能手动删除一切曾问过Alexa的问题与指令。在网站上只要选择「装置」(devices)、「亚马逊Echo」(the Amazon Echo),然后「管理声音记录」(manage voice recordings)即可。

若想避免在不知情的情况下成为「AI训练师」,点选亚马逊Alexa应用程式页面左上角的目录键。选择「Alexa帐户」(Alexa Account)与「Alexa私隐」(Alexa Privacy),接着点选「管理如何利用你的数据提升Alexa」(Manage how your data improves Alexa),并点击「协助开发新功能」(Help Develop New Features)和「利用讯息来改善转录」(Use Messages to Improve Transcriptions)旁边的按键以取消该功能。上述步骤便能防止亚马逊利用你的录音资料,来训练它的软件。

想当然耳,如果人人都主张保障私隐权,那么要提升人工智能对自然语言的理解就会需要更长的时间。福特说︰「在不使用真实资料的情况下,要得到这样的语料库是非常困难的,这也是为什么从真实使用的状况下蒐集资料会是如此重要。想要準时交出产品、又要兼顾它的高效能真的是个难题。」

© 2019 Time Inc. 版权所有。经Time Inc.授权翻译并出版,严禁未经书面授权的任何形式与语言版本转载。

相关文章︰

智能喇叭录下私人对话再传出去 亚马逊指源于「极端罕见事件」 对答如流的Google Duplex通过了「图灵测试」吗? 亚马逊图像分析系统Rekognition的「点错相」争议

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

相关文章