7×24小时无间断合成有声书,语音AI能让有声内容生产成本降低多
“随时随地,想听就听”这种便利的知识获取途径,制作成本有多大?
有声读物正在悄然兴起,但制作一本有声读物成本并不低,最大的瓶颈就在“人”上。而与之相对应的,高昂的制作成本也令有声读物的总量发展缓慢。
对于普通消费者,有声读物仅仅是一种新的内容方式,但对于视障群体,有声内容更有着特殊的含义。因此,如何低成本高质量持续输出有声读物,成为了微软语音AI团队与中国最大的视力障碍人群公益组织—红丹丹研究的重要课题之一。
“通过TTS合成方式,可以7*24小时无间断合成,只要在输入端读取文本内容,便可源源不断地输出相应的有声内容,打破了传统有声内容生产局限性壁垒。这对于视障群体有着特别的意义,要知道市面上有声书的数量是远远少于文本数量,于这一方面,我们利用文本转制成有声自动化技术,可以极大丰富这一群体有声阅读的资料来源。”
日前,钛媒体采访了微软语音AI和红丹丹团队,微软亚洲互联网工程院人工智能语音组资深产品总监丁秉公对钛媒体道出了微软语音AI的技术优势。
而就在今天,恰逢国际盲人节(10月15日),微软语音AI团队及红丹丹的有声读物作品“晓晓合成有声书”也已经上传至云端有声读书馆“心目图书馆”,在小程序中便可旋即打开使用。
微信搜索“心目图书馆”即能搜索到该小程序。目前,朗读者为微软晓晓的有声图书已经上线。钛媒体在体验过程中发现,晓晓阅读语音语调基本与真人无异,十分自然亲切。
TTS技术的蝴蝶效应
从某种程度上来分析,技术的优势往往会转换到成本节省层面上来。
过去一百页的纸制书,对视障群体来说,要转化成既定的产品形态则要四五百页,这就需要近百元的制作成本,还不包括邮费。而有声书制成后只需通过云端传送便可无限量传播,这是节省的第一个维度,即产品的复用层面。
另一方面,对于一些将文本内容录制成有声书的专业录音公司,往往会受到时间、空间的限制,缘由需要找到相关的录音人士和录音棚,中间花费的时间较长,举个简单的例子,当需要录制高质量声音时也就是市面上的精品图书,可能半天才能录制几百句话。
针对上述方面,微软语音AI通过TTS合成技术和通过算法集成的AI语音输出模型,有声书的制作时间得以大幅度缩减。
成本缩减维度具体而言则分为以下两种情况,一种是提供实时的合成,基本上实现了毫秒量级反馈,一般用于智能对话、助理等场景。另一种则是非实时的合成场景,以一整本有声书的长文本合成为例,时间维度上大概需要音频时长的1/3。
问及TTS的区别所在以及其特点是,丁秉公强调到,TTS和ASR两个技术可以做类比,比方说在ASR可以用到语言模型,而在TTS里面也有类似的模型承担类似的角色,而随着TTS的声音变得愈加自然,也在反哺ASR前进的步伐。这其实也是非常热门的领域,微软在训练识别的时,有几个相对困难的地方,例如如何去收集、识别该类数据?如何用TTS合成的声音来模拟现实中产生语音场景?
值得一提的是,考虑至产品使用的便捷性,晓晓合成有声书已于10月15日国际盲人节上传至心目图书馆,在小程序中便可旋即打开使用。
优势来源于需求的累积
微软大中华区公益事务总监王岭向钛媒体介绍到,微软和红丹丹的合作可以追溯至2006年,从一开始的简单志愿者服务,比如说给视障人士讲述电影、维护电脑,恰逢云技术的兴起,微软利用其擅长的语音技术,将图书馆从线下搬到线上,与红丹丹携手打造云端的心目图书馆。截至目前,心目图书馆已覆盖全国105所视障人士学校。
需要说明的是,不同2014年刚建云端有声图书馆时,眼下市面有声资源获取变得极为方便。意欲做出特点,除了技术性优势,对群体的需求把控也十分关键。
对于视障人士来说,更多的需求往往是学习类或者成长类的产品,市场上往往是空缺的。举个简单的例子,对于参加法律考试或者公务员考试的群体来说,在市面上很难买到该类的有声教材,这便是微软和红丹丹的机会。
对于一本有声读物而言,阅读效果的好坏是至关重要。
凭借早期积累的大量视障人士的需求反馈,比如说阅读速度、情感层面,微软和红丹丹联合打造的有声书已经能做到像真人在朗读,而不是过去冷冰冰的机器声音,更易于用户对场景的代入。
而在现场演示环节,钛媒体观察到微软和红丹丹联合打造的有声书可以结合新闻、情感故事、助理、客服、历史、歌唱等不同故事面,甚至在中英混合的文本中,Twitter和PC等单词也可以说得很自然。“这里则要运用到深度神经网络来进行混合计算,最终完成合成的无缝切换。无缝切换至不同风格,这便是技术扎根于场景的表现。”
那么,不同类型的文章用不同情绪读,微软的AI语音是如何做到的?
微软亚洲互联网工程院语音组产品经理、微软人工智能女声晓晓语音产品负责人刘越颖向钛媒体介绍了其中的原理:
“就目前而言,我们已经能够提供不同风格的演绎,但因为人工智能对整个篇章的理解还没有达到能像人一样去理解整个段落或者整个篇章所想表述的,所以我们选择通过标记来辅助实现不同的声音类型的选择。举个简单的例子,人工智能通过上下文理解自动打下标记,让机器知晓文章的类型是什么,继而选择不同的情绪反馈给用户。所以我们现在首要任务,也是最重要的一步,就是把这些文章的类型先定义出来。”
谈及眼下语音技术在和盲文书籍合成过程中需要改进的方面时,丁秉公对钛媒体表示到:
在书籍合成时,对上下文和篇章的理解,往往是非常棘手的问题。人们在阅读一篇文章时,其实已经对这篇文章进行了分析,题目、对话应该用什么样的情感去表述,这都是根植于人们的大脑内部,可以自然地解构。但,计算机并不是人,我们所面临的最大难点还是在于自然语言理解或者篇章理解的方向。