AI 伪造你声音，连你爸妈都能骗！为何语音合成诈骗盛行？

《华盛顿邮报》报导，美国联邦贸易委员会（Federal Trade Commission，FTC）最新统计显示，2022 年诈骗案以「冒名诈骗」数量最多，这 3.6 万次举报约 5 千件为电话诈骗，损失金额估计超过 1,100 万美元。然而，FTC 的助理总监麦克森（Will Maxson）无奈表示，电话诈骗很难追踪，因为发话者可能藏身世界任何角落，光要确定哪个单位有管辖权就有难度。

▲ 冒名诈骗数量高居第一，损失金额则排第二，仅次投资诈骗。（Source：FTC）

AI驱动的电话诈骗

除了成本低廉，只要一支电话就能展开诈骗，人工智慧技术进步，也替诈骗集团的百宝袋添柴加薪。

2019年，诈骗集团利用人工智慧（AI）技术，合成仿冒英国能源企业母公司主管声音，向属下诓称公司供应商需要资金，要求1小时内立刻汇款，诈得24.3万美元。

这是近年第一起利用合成语音诈骗的案例，此技术称为「深度声音」（deepvoice），和深度伪造（deepfake）类似，都是利用深度学习技术习得人类语言／相片特徵，接着再制出相似内容，以假乱真。

2020年，某香港银行经理接到客户电话，他认得对方的声音，客户表示要收购企业，要求他核准一笔高达3,500万美元转帐。後来警方调查才知道，该客户的声音也是合成音，这起案例是记录在案的第一起。

随着技术发展，合成声音的门槛降低。

数位监识学教授法理德（Hany Farid）表示，两年前还需要长时间样本，才能将人声复制得唯妙唯肖，现在只要简短30秒音档，就能捕捉到声音特徵，含年龄、性别、口音等。「现在如果抖音上传30秒影片，其他人就能复制你的声音」。

执法困难，完美风暴就此展开

柏金（Benjamin Perkin）的家庭就是合成语音诈骗案的受害者。某天，他的双亲接到一通自称律师的来电，对方表示柏金发生车祸，撞死美国外交官，现关在监狱，需柏金双亲支付费用处理法律事宜。

听起来很像典型的冒名诈骗，但律师马上将电话转交给柏金，柏金告诉父母很爱他们，希望父母筹到足够的金钱。

虽然很不寻常，但听起来毫无疑问就是柏金，所以柏金的父母就这样汇款1.5万美元。直到晚上柏金本人例行打电话给父母，才知道自己受骗了。

柏金不确定犯罪者如何取得自己的声音，不过他曾在YouTube分享雪上摩托车影片，里面就有他的声音。

要合成他人声音不是难事。新创公司ElevenLabs就提供相关服务，使用者只要上传一段声音，就能产出其他合成语音，试用免费，付费版月费从5美元到330美元。今年ElevenLabs在pre-seed轮就募得200万美元，不过也受到批评，因有使用者合成名人的声音，假装他们说出某些没说过的话。

ElevenLabs官网强调重视人工智慧道德（ethical AI），针对上述事件，还推文表示会设法阻止滥用，除了限制免费使用者合成语音，也会开发能侦测AI生产声音的工具。

不只新创，科技巨头微软也开发类似模型VALL-E，号称3秒钟样本就合成人类声音，不过微软也开发能侦测是否人工合成语音的模型，避免先进技术拿来做坏事。

▲ 微软开发的VALL-E模型不受语言限制，也能合成中文声音。（Source：VALL-E）

现有法律无法处罚AI合成语音业者

然而事发当下，受害者不太可能有精力打开侦测系统；对执法者来说，可能没有足够资源调查此类案件，且因为受害者无法提供声音相似以外线索，更不利破案；现行法律也没有办法处罚提供AI合成语音服务的厂商。

面对此类案件该如何自保？麦克森的建议是其实不脱传统应对电话诈骗方法：保持冷静，先放下手机，联络当事人，确认对方现况；且拨号来源也可能是伪造，不要马上相信对方；若对方要求用很难追踪的支付方式如礼品卡或比特币转帐，就可怀疑是诈骗。

技术进步、成本低廉、软体开发商无法可罚、警方没有办案着力点，法理德认为，所有元素都会构成完美风暴。

（本文由远见杂志授权转载；首图来源：Unsplash）

AI驱动的电话诈骗

执法困难，完美风暴就此展开

现有法律无法处罚AI合成语音业者

小清新咖啡因

You may like this....