对话1024|自然媲美人声的语音合成技术,讯飞AI研究院带你全面了解!
10月24日,一年一度的科大讯飞全球1024开发者节,又与百万开发者相约而至。在这场人工智能行业盛会上,科大讯飞不仅发布了多款AI新品,为AI人才提供展示舞台,更与行业专家、生态伙伴共同探索人工智能技术的应用新场景。
在线上举办的《对话1024-语音合成技术专题》节目中,讯飞AI研究院语音合成负责人吴明辉,以及讯飞AI资源部音库产品负责人刘晨宁,科普了语音合成技术的概念、应用场景、发展状况,并介绍了讯飞语音合成技术的“独特之处”。
随着AI技术的迅速发展,人机交互变得越来越频繁,“语音合成”成为人机交互中的重要一环,它可以使人类与计算机的交流更加方便。语音合成又称文语转换(Text-To-Speech),简称TTS,是将输入的文字信息转化为可听的、连续的语音输出的机器或者系统,赋予机器“能听会说”中“说”的能力。而在语音合成技术领域,科大讯飞一直保持了领跑者的地位。
目前,科大讯飞通过将发音内容、情感、音色进行解耦,实现了对情感及音色的自由控制和输出合成语音,让智能语音更具“人味”,不同的业务可根据自身的特点和应用场景进行选择,如教育类场景,可选择音色知性稳重又很有亲和力的发音人;面对小朋友,发音人可以更加活泼可爱;新闻播报场景,理性、利落、清亮听起来有力量感的声音则更加合适。
“我们摒弃了主流的基于声学模型 声码器的两阶段合成方案,直接进行端到端建模,从而避免了因为两个模型级联导致的信息损失,并且结合了无监督语音听感属性解耦和听感量化编码技术,实现对语音韵律和情感的精细化建模。”吴明辉说道。这也是讯飞最新一代合成技术能达到能够媲美真人细腻情感表达效果的原因。
如今,讯飞已面向广大用户开放了最新的语音合成系统,开发者们和B端客户可以在讯飞开放平台使用,C端用户下载讯飞有声APP即可体验。
作为头部的智能语音技术企业,科大讯飞在人工智能领域深耕二十三年,始终坚持为经济社会发展提供高技术屏障、高附加值。
在2021年由美国国家标准与技术研究院组织的全球15个语种的国际语音识别大赛OpenASR中,科大讯飞参加了所有15个语种的22项比赛,全部取得第一。
今年4月,由科大讯飞承建的认知智能全国重点实验室团队登顶常识推理挑战赛CommonsenseQA 2.0,刷新机器常识推理水平世界纪录,在让机器“能理解、会思考”上迈出一大步;同月,科大讯飞在第十六届国际语义评测大赛(The 16th International Workshop on Semantic Evaluation, SemEval 2022)三项主要赛道中拿下冠军,标志着科大讯飞在多语种语言理解领域持续进阶。
从技术中来,到产品中去,关键技术快速进步的同时,科大讯飞还不断放大AI的社会价值,加速应用场景落地。科大讯飞不断将自己的成熟技术应用到生活中,比如我们日常中用到的车载语音导航、虚拟主播、听书阅读。与此同时在2022年北京冬奥会上,科大讯飞作为冬奥会语音转换及翻译独家供应商,构建了面向冬奥的语音及语言服务平台,同时支持60个语种语音合成、69个语种语音识别、168个语种机器翻译和3个语种交互理解;研制了便携式翻译设备双屏翻译机、穿戴式翻译设备iFLYBUDS耳机等。
随着产业数字化需求拉动,我国智能语音市场规模持续稳定增长,产业进入规模化深耕期。科大讯飞将持续加强语音技术从研发到规模化落地的能力,实现“用人工智能建设美好世界”的使命。据了解,而在1024开发者节上,科大讯飞还将发布最新一代合成系统以及虚拟音色技术,让我们拭目以待。