您现在的位置:主页 > 技术 > 正文内容

平安科技联邦学习技术团队再创佳绩:5篇论文被国际语音会议INTER

作者:admin 来源:未知 更新日期:2020-09-12 浏览次数:

  近日,语音通信领域的国际会议INTERSPEECH 2020发布论文接收结果,与往年相比,今年投稿量激增50%,竞争异常激烈!平安科技联邦学习团队凭借行业技术实力,潜心研究,再创佳绩,成功入选五篇论文,其科研实力受到全球多位专业评委的一致认可,全面展现出平安科技在AI领域的技术底蕴和创新实力。

  一年一度的全球语音大会INTERSPEECH 2020是语音科学和技术领域的国际学术会议。会议期间,来自全球学术界和产业界的研究人员汇聚一堂,共同交流、探讨语音领域的新技术,其内容涵盖语音合成、语音识别、语音增强等众多细分领域。会议上展示的研究成果,将代表着语音相关领域的最高研究水平和未来发展趋势。

  本次INTERSPEECH2020大会的论文入选门槛较高,竞争异常激烈,而平安科技联邦学习团队仍然在“金融+生态”、“金融+科技”的战略引领下,锐意进取,斩获佳绩,被大会成功收录的论文涵盖科学防疫、语音合成、语音处理、语音理解、声纹识别多个领域,以下为平安科技联邦学习技术团队在INTERSPEECH 2020中入选五篇论文的精彩集锦:

  自2020年开始,世界各地相继爆发了新冠肺炎(COVID-19)疫情。然而中国在较短时间内成功的控制了疫情的传播,为新冠肺炎的防控交出了教科书式的答卷,这与我国实行严格的疫情防控工作密不可分。在公共场合,手持式测温枪与红外体温测量仪的使用可以有效监测密集人群中的体温异常情况,第一时间发现疑似患者,减少聚集感染可能性。在防治疫情阶段,有序对不同症状的患者进行区分,并按照病理特征合理分配医疗资源是十分重要的。这种措施一方面减少了人群在医院等高危区域的交叉感染,另一方面避免出现医疗资源的挤兑发生。

  为了更好的防治新冠肺炎疫情,平安科技从海量的咳嗽病理数据出发,以自主研发的奥卡姆平台为依托,使用前沿Few-shot Learning以及注意力相似度技术成功研制出通过咳嗽来进行新冠肺炎智能诊断的系统,并将该系统嵌入到平安科技爱德机器人当中。该系统会根据使用者的咳嗽声进行智能诊断,目前支持新冠肺炎,急性支气管炎,慢性咽炎,百日咳,发烧咳嗽等多种疾病的诊断,并且会根据使用者所在GPS定位以及个人情况生成专属的电子病历以及疫情地图。电子病例与疫情地图中包含有数据解读以及防疫建议。

  最近的神经语音合成系统已经逐渐集中于韵律的控制以提高合成语音的质量,但是它们很少考虑韵律的多变性以及韵律与语义之间的相关性。

  平安科技联邦学习团队提出了一种基于TTS系统的韵律学习机制,该机制从语音频谱特征中提取语音的韵律信息,然后结合韵律信息与音素序列重构原始语音频谱特征。同时,为了改善韵律预测效果,本文通过预训练语言模型(BERT)引入文本的语义特征。

  此外,平安科技还提出了一种新颖的局部自注意网络结构(Local Attention),以消除输入文本长度的限制,其中序列的相对位置信息由相对位置矩阵建模,不再需要位置编码。通过对英语和普通话的合成实验表明,所提出的模型获得了更令人满意的韵律的语音。尤其是在普通话合成中,该模型在MOS领先了基准模型0.08,并且合成语音的整体自然性得到了显著改善,并且已经在保险外呼服务的生产效果中得到验证。

  语音端点检测(Voice Activity Detection)是语音处理的一个重要部分。准确高效的语音端点检测不仅可以减少语音信号处理的计算量,提高系统的实时性,而且可以提高语音系统的鲁棒性及后续语音系统的准确性。为了提高语音端点检测的精确度,通常在设计网络的时候会人为的设定固定的上下文信息进行识别或者检测。但在实际应用中,特别是高噪声环境中,固定的上下文信息无法有效应对各种复杂的应用环境。

  为了解决现有VAD模型只能利用固定的上下文信息,平安科技设计了一个多感受野注意力网络MLNET自适应地选取最优的上下文信息来用于完成VAD任务。MLNET首先利用门控映射单元将不同感受野的语音特征信息映射为一个相同大小的二维特征,并利用通道注意力机制选择最优的上下文特征信息。接下来,再利用BiLSTM进行特征序列建模,最后使用全连接层网络输出判别结果。基于以上模型设计,本文在aurora4英文数据集和thchs30中文数据集中进行了实验,对比其它baseline模型,MLNET模型取得了较好的实验结果。

  端到端口语理解是一项非常复杂且很难达到理想效果的任务,且由于训练数据的限制和模型结构的复杂性很容易导致过拟合问题。为了解决这些问题,平安科技提出了一个基于注意力机制的端到端口语理解模型,并且提出了三种编码器强化策略来减少模型对目标数据的需求且提升模型性能。

  第一种策略依赖于迁移学习方法,先用大量的ASR任务数据训练一个较好的Transformer模型,然后用训练好的编码器直接迁移到SLU任务上,用口语理解的数据进行SLU模型的训练。第二种策略依赖于一种多任务结构,在训练过程中,同时训练ASR和SLU任务,ASR任务作为辅助手段以一定的程度来提升SLU模型中编码器的性能。第三种策略是将BERT模型并行融合到解码器结构上,基于此结构训练多任务模型,此方法是通过优化ASR模型性能来间接优化SLU模型性能。另外,为了最大化SLU性能,三种策略不同组合模式也进行了测试验证,最终在FluentAI数据集上的验证表明,跨语种预训练编码器和多任务策略分别取得了4.52%和3.89%的提升。

  声纹验证是一项新兴无接触式身份验证技术,主流的声纹验证模型都是基于神经网络而设计的,但是这些神经网络的设计是通过经验和反复尝试而得到的。为了实现声纹识别模型的自动化设计,平安科技采用了神经架构搜索方法来实现声纹识别模型的全自动化设计。为了进一步提高声纹识别模型的精度,平安科技使用文明进化算法搜索策略找出更出色的声纹识别模型。通过实验证明表明,平安科技提出的方法相对于LSTM-GE2E和X-Vector模型可以降低36%-86%的等错误率。

  家住江北明发滨江的吴老先生来到位于鼎泰家园的南京公交江北新区公司第三车队,高兴地从车队管理员手中领回失而复得的手机。这个老先生原本以为找不回来了的手机中存储了很多亲友联系号码和珍贵图片。

  南京公交集团第一客运公司汽车三队68路4222车驾驶员周斌到达底站后,在进行车辆“一趟一清扫”时,发现车厢座椅边上有一个包,他第一时间上报,并把失物交给车队。

  从普通急救志愿者,再到持证讲师,几年来,郭云飞已经讲了200多节课,而他的主业其实是金融行业的咨询顾问。 有一群人,虽主业不在三尺讲台,但默默在人们需要的地方志愿奉献,传道、授业、解惑。

  今年刚被清华大学录取的小杨,前往北京入学前特别到南宁市公安局中山派出所送上锦旗。原来,高考前一天,小杨发现身份证不见了前来紧急补办,民警一边热心安慰一边安排绿色通道补办。

  自8月下旬起,南京鼓楼公安分局宝塔桥派出所陆续接到多起电动车被盗警情,其中6辆电动车都是深夜停放于上元门地铁站附近,早上车主发现车辆被盗。这几起盗窃案件引起警方高度重视,立刻组织警力开展调查。

(责任编辑:admin)
【字体: