网易AI Lab斩获全球顶级声纹识别竞赛冠军

近日,全球最大的语音会议 INTERSPEECH 2020 公布了 SdSV 声纹识别比赛成绩,网易 AI Lab
从众多国际顶级队伍中脱颖而出,获文本相关声纹识别赛道综合排名第一、单模型第一的双料冠军。彰显了网易 AI Lab 在语音声纹识别技术领域的领先地位。

网易AI Lab斩获全球顶级声纹识别竞赛冠军

本次国际声纹识别比赛是业界非常具备权威性的赛事,参赛队伍来自国际多家知名高校与企业,包括近两年全球各项声纹识别比赛中的“常胜将军”:布尔诺工业大学、新加坡通信研究院、约翰霍普金斯大学等。

比赛中,网易 AI Lab 基于常见的X-Vector 和 PLDA 算法,创新地提出了一种 ASR-free 的文本相关声纹识别算法。相比传统的
Deep Speaker Embedding 方法,该算法不需要依赖语音识别,就能够在多语言环境下,同时完成说话人和文本内容的验证。

比赛采用 MinDCF(最小检测代价)和 EER(等错误率)作为评测指标。网易 AI Lab 的单模型在两个指标均为最佳,其中 EER 达到了
1.67%,相比第二名降低了 11.6%,并远低于比赛 X-Vector 基线系统(EER=9.05%)。

评估算法系统性能时常输出 ROC 曲线,用于描述 FAR(误识率)与 FRR(拒识率)之间的关系。

简单说,在声纹识别中,误识率就是“把不应该匹配的声纹当成匹配声纹”的比例,拒识率则是“把应该匹配的声纹当成不匹配声纹”的比例。

在对安全要求非常高的应用场景,就会把 FAR 值设置得低一些,因为判断错一次的代价很大,但这样做的同时会导致 FRR 值上升,用户体验度下降。

等错误率(EER)是系统的误识率(FAR)和拒识率(FRR)相等时的错误率,即 ROC 曲线与 45
度角直线相交的点,是衡量声纹识别算法系统综合性能的重要指标。EER 数值越小,系统性能越好。

声纹识别是生物识别技术的一种,也称为说话人识别,是一种通过声音判别说话人身份的技术。

网易AI Lab斩获全球顶级声纹识别竞赛冠军

目前,人工智能主要有三个研究方向:视觉识别、智能语音、NLP
自然语言处理。其中,在语音识别领域,声纹识别属于相对蓝海市场,解决的主要是“我是我”的身份认证问题,多应用在安全验证场景。

从近几年的市场趋势来看,银行,金融服务,保险已成为声纹识别应用的领导领域。

随着技术的不断成熟和融合,声纹识别技术将逐渐融入日常生活,根据不同应用场景的特点进行针对性开发,将产生巨大的应用价值。

而网易 AI Lab
声纹识别技术其实早已被运用于游戏场景中。除了进行游戏身份验证,还能够针对音色对用户进行分类、丰富玩家画像,从而更加精准地为玩家推荐志趣相投的好友、匹配实力相当的对手,为玩家带来更好的游戏体验。

发表评论

Your email address will not be published. Required fields are marked *.

*
*
You may use these <abbr title="HyperText Markup Language">HTML</abbr> tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

BCF Shop Theme By aThemeArt.
BACK TO TOP