AI 伪造你声音,连你爸妈都能骗!为何语音合成诈骗盛行?

《华盛顿邮报》报导,美国联邦贸易委员会(Federal Trade Commission,FTC)最新统计显示,2022 年诈骗案以「冒名诈骗」数量最多,这 3.6 万次举报约 5 千件为电话诈骗,损失金额估计超过 1,100 万美元。然而,FTC 的助理总监麦克森(Will Maxson)无奈表示,电话诈骗很难追踪,因为发话者可能藏身世界任何角落,光要确定哪个单位有管辖权就有难度。

▲ 冒名诈骗数量高居第一,损失金额则排第二,仅次投资诈骗。(Source:FTC)

AI驱动的电话诈骗

除了成本低廉,只要一支电话就能展开诈骗,人工智慧技术进步,也替诈骗集团的百宝袋添柴加薪。

2019年,诈骗集团利用人工智慧(AI)技术,合成仿冒英国能源企业母公司主管声音,向属下诓称公司供应商需要资金,要求1小时内立刻汇款,诈得24.3万美元。

这是近年第一起利用合成语音诈骗的案例,此技术称为「深度声音」(deepvoice),和深度伪造(deepfake)类似,都是利用深度学习技术习得人类语言/相片特徵,接着再制出相似内容,以假乱真。

2020年,某香港银行经理接到客户电话,他认得对方的声音,客户表示要收购企业,要求他核准一笔高达3,500万美元转帐。後来警方调查才知道,该客户的声音也是合成音,这起案例是记录在案的第一起。

随着技术发展,合成声音的门槛降低。

数位监识学教授法理德(Hany Farid)表示,两年前还需要长时间样本,才能将人声复制得唯妙唯肖,现在只要简短30秒音档,就能捕捉到声音特徵,含年龄、性别、口音等。「现在如果抖音上传30秒影片,其他人就能复制你的声音」。

执法困难,完美风暴就此展开

柏金(Benjamin Perkin)的家庭就是合成语音诈骗案的受害者。某天,他的双亲接到一通自称律师的来电,对方表示柏金发生车祸,撞死美国外交官,现关在监狱,需柏金双亲支付费用处理法律事宜。

听起来很像典型的冒名诈骗,但律师马上将电话转交给柏金,柏金告诉父母很爱他们,希望父母筹到足够的金钱。

虽然很不寻常,但听起来毫无疑问就是柏金,所以柏金的父母就这样汇款1.5万美元。直到晚上柏金本人例行打电话给父母,才知道自己受骗了。

柏金不确定犯罪者如何取得自己的声音,不过他曾在YouTube分享雪上摩托车影片,里面就有他的声音。

要合成他人声音不是难事。新创公司ElevenLabs就提供相关服务,使用者只要上传一段声音,就能产出其他合成语音,试用免费,付费版月费从5美元到330美元。今年ElevenLabs在pre-seed轮就募得200万美元,不过也受到批评,因有使用者合成名人的声音,假装他们说出某些没说过的话。

ElevenLabs官网强调重视人工智慧道德(ethical AI),针对上述事件,还推文表示会设法阻止滥用,除了限制免费使用者合成语音,也会开发能侦测AI生产声音的工具。

不只新创,科技巨头微软也开发类似模型VALL-E,号称3秒钟样本就合成人类声音,不过微软也开发能侦测是否人工合成语音的模型,避免先进技术拿来做坏事。

▲ 微软开发的VALL-E模型不受语言限制,也能合成中文声音。(Source:VALL-E)

现有法律无法处罚AI合成语音业者

然而事发当下,受害者不太可能有精力打开侦测系统;对执法者来说,可能没有足够资源调查此类案件,且因为受害者无法提供声音相似以外线索,更不利破案;现行法律也没有办法处罚提供AI合成语音服务的厂商。

面对此类案件该如何自保?麦克森的建议是其实不脱传统应对电话诈骗方法:保持冷静,先放下手机,联络当事人,确认对方现况;且拨号来源也可能是伪造,不要马上相信对方;若对方要求用很难追踪的支付方式如礼品卡或比特币转帐,就可怀疑是诈骗。

技术进步、成本低廉、软体开发商无法可罚、警方没有办案着力点,法理德认为,所有元素都会构成完美风暴。

(本文由 远见杂志 授权转载;首图来源:Unsplash)

小清新咖啡因

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
内联反馈
查看所有评论