科大讯飞的1024:语音技术进一步突破,发布专用芯片
机器之心报道
作者:一鸣、蛋酱
1024 作为程序员的节日被世人所知,而科大讯飞也会在每年这个时候举办开发者节日和相关活动。在今年的开发者节上,科大讯飞发布了更多关于平台,产品和技术方面的信息。
昨日,科大讯飞 1024 全球开发者节在合肥开幕。本届开发者节的大会上,科大讯飞表示了继续开源,赋能企业和百万开发者的决心,并在技术和产品生态发布会上展示了多项新技术和产品。
在开幕致辞中,科大讯飞董事长刘庆峰与大家分享了科大讯飞在 20 年创业经验中,对人工智能未来发展的预判和感悟。
他表示,人工智能到底处于什么样的发展阶段,要基于三个标准去判断:人工智能不再只是个「概念」,要有看得见、摸得着的应用案例;这些案例能不能规模化推广;有没有统计数据可以证明应用效果。
2019 年,各行各业不断涌现的 AI 应用落地足以证明,人工智能的红利阶段已经到来。刘庆峰在演讲中列举了科大讯飞在 AI 领域的应用落地。
比如在教育方面,人工智能让教育者有效缩短批卷时间,对学生的训练时间可以减少 50%,因此孔子在 2000 多年前提出的「因材施教」才真正得以实现;在医疗方面,人工智能可以将诊断水平提升到 90 分,提高诊断效率,让高端优质的医疗专家资源向重大疑难疾病倾斜。
刘庆峰强调,种种人工智能落地应用说明,AI 发展并非只是烧钱的玩具,人工智能可以解决人类的很多刚需问题。
不断升级,《1024 计划》进入 3.0 时代
自 2017 年首届全球 1024 开发者节正式推出《1024 计划》以后,科大讯飞一直在从 A.I. 教引、A.I. 生态、A.I. 公益三个方面,辅导、赋能开发者,关注公益事业。
作为 1024 开发者大会的重要环节之一,科大讯飞轮值总裁胡郁发布了全新升级的《1024 计划》。他表示:「科大讯飞将继续坚定实行,共同打造去中心化的商业生态体系,通过 A.I. Agent 与各产业领域深度结合共同构建属于不同领域生态的 Keystones。」
在今年的版本中,A.I. 教引计划、A.I. 生态计划、A.I. 公益计划分别升级到了 3.0 版本,希望能够实现辅导、赋能开发者的初衷,同时更加关注公益事业。
始于两年前的 1024 计划,科大讯飞正在进一步细化计划内容,使其变得更为开放多元。在 1024 的发布会上,胡郁公布了一组数据:A.I. 大学逐渐发展成为国内首个最大的 A.I. 在线学习平台,目前已拥有超过 31 万学员;A.I. 生态计划形成了能力星云、iFLYOS & A.I.oT、解决方案三大生态产品矩阵,目前亦吸引了 160 万生态伙伴入驻;A.I. 公益的方言保护计划则吸引 700 万人参与,科大讯飞还为助残应用免费提供技术支持,赋能残障者与世界无障碍沟通。
胡郁表示,1024 计划的最终目的是为了打造去中心化的混合正交商业生态系统,形成围绕 AI 技术和应用的商业体系。
语音领域仍有惊喜,新技术持续突破
今年的 1024 开发者节现场,科大讯飞着重进行了多项新技术展示,主要分为语音(语音识别、语音合成)、自然语言处理(机器翻译)等和开放平台板块。科大讯飞研究院常务副院长刘聪介绍了科大讯飞在技术方面的主要突破。
记忆增强的多通道全端到端语音识别框架
在语音识别领域,科大讯飞虽然已经积累了成熟的技术经验,但仍进一步探索提升语音识别技术的准确性和可靠性。在语音识别中,考虑到过去的识别需要首先收音,然后进行降噪处理再进行识别的方式较为复杂,且管道式的流程降低识别准确率的问题,今年的科大讯飞开发了名为「记忆增强的多通道全端到端语音识别框架」,这是一种完全将前端语音处理过程深度学习化,使用深度卷积神经网络和后端识别模型进行混合训练,进行直接语音识别的算法。具体而言,该算法采用 Encoder-Decoder 的架构,使用深层次卷积和后端识别模型进行混合训练,使得神经网络可以收音后进行前端信号处理和后端识别工作。
此外,由于深度学习模型对长尾数据建模不够理想,科大讯飞在该模型中引入了外部知识。例如,系统可以记录下不同语种的热词,在语音识别的过程中让模型进行调用,从而矫正识别过程中的问题。目前,科大讯飞在通用语音识别任务上的准确率已达到 98%。
在最近开始出现的多语种混合的语音识别任务上,科大讯飞也进行了技术上的新研究。以中英混合输入为例,通过采用 code-switching 的方案,使中英文混合输入时,英文的准确性也达到了 90% 的水平。目前,在混合语音识别场景下,科大讯飞已实现了中英粤等多种语言方言的混合输入技术。
刘聪表示,虽然通用的语音识别技术能力已经达到很高的水平,但在定制化的场景下,科大讯飞依然在进行语音识别中更细分的技术研发工作。例如,在语音交互场景中,由于对识别实时性要求很高,模型需要根据设备进行嵌入式设计,这需要依赖专家知识,也耗费了很多研究者的精力。随着近来 AutoML 技术的兴起,科大讯飞也在语音识别的网络架构搜索中使用了这项技术。搜索出的架构类似于残差网路,相比业界主流的模型性能提升了 15% 以上。
基于听感量化的统一语音合成框架
在语音合成方面,科大讯飞也展示了其具有的技术实力。首先,在 AI 新生态产品发布会开始时,特意让刘聪变声,使用主持人(女)的声音和主持人进行普通话、合肥话方言的互动 PK。此外,发布活动中,科大讯飞将合成语音和电视台主持人的图像视频结合,让主持人开口唱《我和我的祖国》,同时保证了话音一致。
这一技术的背后,离不开科大讯飞在语音合成方面进一步的积累探索。据刘聪介绍,科大讯飞研发出了名为「基于听感量化的统一框架」,可以在语音合成过程中同时实现合成和声音的变化。在模型中,其可以对各类输入语音的特征进行量化编码,提取诸如音色、音调、说话风格等方式的特征,使用编码对合成的语音进行控制。
由于单人语音合成对数据输入量要求很高,且鲁棒性相对不足,科大讯飞在模型中采用了 GAN 的架构。这也是目前少见的,利用 GAN 解决语音合成问题的方案。
在今年的国际暴雪语音合成挑战赛上,科大讯飞合成了罗振宇的脱口秀声音,自然度分数达到 4.5,接近原声的 4.7。
机器翻译融入语音统一框架
机器翻译方面一直是科大讯飞的强项。在过去的很多技术中,翻译的整体流程是:针对每一种语言或方言,首先进行识别,然后再进行翻译。在本次 1024 开发者节上,科大讯飞进一步介绍了在机器翻译领域的新工作。
具体而言,考虑到目前机器翻译需要针对不同的模型构建模型、需求数据量大、对标注要求高的问题,科大讯飞提出了一些解决方法。首先,构建起一整套统一的建模方案,使得新的语言建模可以获得语言信息,降低了对数据的依赖。其次,让翻译和语音识别、语言合成结合起来,构建端到端的模型,以便降低对数据标注要求的精度。最后,使用半监督和迁移学习,减少对数据量的需求。
此外,在翻译任务本身,科大讯飞也提出了新的翻译模型,名为「融合领域知识的多通道半监督约束编解码翻译框架」。这是一个针对语音输入进行机器翻译的模型,用于解决机器翻译任务中的三个难点。首先,语音输入相比文本文字带有更多的说话人的信息,如声调高低、抑扬顿挫等。如果将其转换为文字后再识别,无疑会失去这些有用的信息。因此,在这一模型中,科大讯飞加入了多通道编码机制,将语音的序列、文本标签等多种信息和原始的机器翻译模型结合,使翻译文本有着更多的容错空间。
同时,由于机器翻译在长文本中的翻译水平不够理想,科大讯飞在研究中加入了语义分块的约束解码机制。其中,语义分块用于加速翻译进程,而约束解码可以降低损失。这使得翻译模型从简单的旅游口语对话翻译场景扩展到大型会议方面的场景上。
据悉,科大讯飞在与中国外文局科研测试中,其模型已全国翻译专业资格考试的二级交传口译和三级口译的水平测试。这一技术预计将会在 2022 年的冬奥会上使用。
除了语音和机器翻译相关的技术突破,科大讯飞今年也进一步探索了其他的技术领域和任务,包括个性化推荐、机器阅读理解和 OCR 等。在个性化推荐方面,科大讯飞将模型应用于教育领域,实现对学生学习能力的精准评估,并根据知识图谱等方式,为学生推荐个性化、定制化的教育方案。在机器阅读理解方面,科大讯飞宣布其和哈工大共同研究的模型已经在 SQuAD 2.0 榜单上超过人类平均水平(以 F1 和 EM 分数评价)。此外,科大讯飞开发了 OCR 相关的技术,可以在有很多图章、表格、文本符号的情况下识别文本内容。这一研究已广泛应用于法院相关的工作,如卷宗和材料整理、证据链的电子化等。该技术近日也和其他技术相结合,甚至可以提供证据材料的对比和瑕疵识别方面的服务。
使用带有语义分割能力的模型进行 OCR 识别。
助力开发者:讯飞平台进一步开放
在当天的技术发布会上,科大讯飞宣布了两个技术相关的平台开源计划,分别为归云平台和飞云平台。
归云平台主要是面向各类实际应用的开发者,为他们提供科大讯飞的各项技术能力,包括前述提到的各项语音识别、合成等。更重要的是,归云平台可以让将多种能力进行组合,使用拖拽式的方式构建一个统一的业务管道。例如,归云平台提供 OCR、语音合成、机器翻译三项能力,开发者可以将这些能力组合,形成一个首先识别文字,然后进行翻译,最后使用合成声音朗读的业务流程。流程建立后,科大讯飞提供一个独有的 API 接口,开发者可直接调用,不需要关心内部的协议等实现细节。
此外,科大讯飞还提供了飞云平台,让开发者将开发好的模型和能力上传至云端,由飞云平台提供分布式计算和性能加速方面的服务。
AIoT 领域持续发力,语音专用芯片惊艳
在 1024 开发者节上,科大讯飞副总裁于继栋介绍了发布的 iFLYOS 平台的进展情况,以及一些新的产品。
iFLYOS 成为产品智能化入口
首先,于继栋介绍了 iFLYOS 对于科大讯飞的重要意义。iFLYOS 通过集成科大讯飞各项 AI 能力,帮助企业在产品中获得这些能力,从而打造 AIoT 产品。
为了加快 AI 应用落地,iFLYOS 集成了多项新功能。首先是 iFLYOS-studio,开发者可以在可视化界面中进行编程工作,并打造新的应用。此外,iFLYOS 和集成了多种内容和技术,供开发者使用。同时,iFLYOS 和硬件方面进行了打通,目前可以适配如 MT8516 等多种芯片硬件,使得在移动和嵌入式设备中部署模型更加方面。此外,iFLYOS 还提供了公版模型。开发者可使用这些模型,结合业务需要重新定制自身的产品。
随后,于继栋介绍了科大讯飞在多个领域中的技术应用情况,提到了智能家居、车载系统、儿童教育等方面的应用。基于 iFLYOS,科大讯飞开源了多个相关应用场景的开发平台,如 iFLYOS-Auto、Athena Serving 等。
在应用开发方面,科大讯飞介绍了在开源方面的工作,其中包括 AI-Factory 和能力星云 2.0 计划。AI-Factory 是一个 API 工厂,为开发者提供定制化优化算法的相关技术。据于继栋介绍,在 2019 年年底之前,语音相关的技术能力便会登陆平台。而在明年上半年则会增加计算机视觉、自然语言理解等方面的技术。能力星云 2.0 则是 AI 全栈服务平台,通过引入研究者和开发者的方式创造更多的 AI 能力。
布局芯片,穹天科技浮出水面
在 AI 生态产品发布环节,科大讯飞集团副总裁、消费者 BG 副总裁于继栋正式发布了联合生态合作伙伴打造的家电行业专用语音芯片 CSK400X 系列。
于继栋表示,AIoT 已经成为科大讯飞的核心战略之一。在 AIoT 时代,智能硬件市场对芯片的算力提出了更高的需求,但从芯片市场的现状来看,高算力与价格往往难以取得平衡,而且芯片与算法的适配难度比较高,MCU 也常常并非针对神经网络而设计。
科大讯飞与生态合作伙伴穹天科技根据讯飞 AI 算法为 CSK400X 系列语音芯片设计了 NPU 框架与规格,并设计了针对神经网络的底层算子。据了解,这款芯片可借助神经网络算法解决家居中的噪音问题,算力可达到 128GOPS,同时支持全栈语音能力,包括离线唤醒、远场阵列降噪、回声消除等优化功能,适用智能家电、玩具、音箱、离线门禁等落地场景。
从科大讯飞 1024 开发者节发布会上可以看到,尽管 AI 技术已日臻成熟,但如何在细分场景做到最好,如何进一步推进 AI 技术广泛应用仍是科大讯飞思考的问题。随着其平台的逐步开放,与开发者和合作企业进行更紧密的交流互动,推进 AI 整体生态的建设,无疑是下一步前进的方向。
第三届机器之心「Synced Machine Intelligence Awards」年度奖项评选正在进行中。本次评选设置六大奖项,重点关注人工智能公司的产品、应用案例和产业落地情况,基于真实客观的产业表现筛选出最值得关注的企业,为行业带来实际的参考价值。