AI有爱让声音成为你的眼
【IT168 评论】“只要人人都献出一点爱,世界将变成美好的人间。”1989年央视春晚舞台上一首《爱的奉献》温暖了大江南北,同年9月中国残联发出通知,要求各地在每年国际盲人节举行活动活跃盲人的生活,为她们带来更多关爱。
1984年,在沙特阿拉伯首都利雅德召开的世界盲人联盟成立大会上,确定每年的10月15日为“国际盲人节(White Cane Safety Day)”,盲人在国际上第一次有了统一的组织和自己的节日。
今天又是一年国际盲人节,歌声中所传唱的美好人间是由每个人创造,而随着科学技术的发展,科技向善让拥有更多能量的技术传递责任与爱。现在越来越多的科技企业投身到公益事业中,微软与红丹丹(北京红丹丹教育文化交流中心,简称“红丹丹”)的合作是其中一个代表。
红丹丹2003年7月在北京成立。致力于用声音解说技术为视障人提供无障碍文化产品服务。其创始人郑晓洁曾经解释过取名红丹丹的原因,红丹丹就是映山红,“映山红这种植物,给点水就能满山遍野,我希望我们的关爱和服务能像盛开的映山红,惠及所有的残障人。”
根据相关数据统计中国有1731万视障群体,其中23.5%是30岁以下的年轻人,他们的学习和成长需要更多帮助。
微软和公益组织合作实际上可以追溯到1998年,2011年6月,微软在全球公布了“Tech for good”理念,倡导用技术来致力于善行,用技术解决棘手的社会问题。
2006年微软和红丹丹视障文化服务中心(以下简称“红丹丹”)展开合作,从给视障人士讲电影、维护电脑等简单的志愿者服务开始,2014年云计算方兴,微软和红丹丹打造了云端心目图书馆,之后将微软语音技术应用其中,现在红丹丹的心目图书馆覆盖了全国105所视障人士学校。
相比普通书籍,盲文书籍的数量只是冰山一角。目前盲人朋友主要听书的方式是借用读屏软件来听屏幕上的电子书,但是读屏软件的声音机械而生硬,长时间聆听将会容易乏力,难以集中。而制作有声书则需要大量的真人录音工作。就算有志愿者献声可以省去录音费用,但录音的精力和时间也是无法避免的成本。
红丹丹视障文化服务中心执行主任曾鑫介绍作为公益机构即使动用一些志愿者资源,最快也需要三个月时间才能完成一本有声书的录制,时间成本很长。再加上人员协调等成本不如用现有技术,大概几分钟就能完成一本有声书的制作,而这项技术是微软的智能语音技术。
借助于微软智能语音平台,通过TTS(从文本到语音)可以7乘24小时合成,源源不断输出有声内容,而红丹丹所做的有声读物也更有针对性。市面上很多有声书,但更多是名著和通俗小说,红丹丹会根据学校孩子和老师的需求来做,比如学习类、成长类的书籍在市场上是很难找到有声版甚是电子版,与此同时也会考虑青年人的学习需求,比如法律考试或者公务员考试类的有声教材。
10月15日,微信小程序心目图书馆上线了微软晓晓朗读的有声图书,微软晓晓是基于微软语音技术平台最新技术更迭推出的基于深度神经网络学习的声音,区别于其他传统的TTS,只需要少量的音库就可以做到很好的声音质量和表现力,可以大批量地、自动化地的将电子书转变为有声书,大大减少人力和时间成本,给盲人朋友带来更丰富的书单列表的同时,也能用更自然、亲切的声音来阅读书本。
搜索可以看到,目前已经上线了德国少年儿童百科知识全书系列的部分书籍,未来会陆续上线更多的有声读物。
不过AI在语义理解以及情绪表达方面还是有很多局限,在书籍合成的时候,对上下文以及整个篇章的理解非常难,微软人工智能女声晓晓语音产品负责人刘越颖介绍,微软晓晓可以提供诸如新闻、故事类等不同风格的诵读,但是目前AI还不能像人一样能够理解整个段落或者整个篇章内容,依然需要通过标记来辅助实现不同的声音类型的选择,随着AI技术的发展,将来机器人会自动打下标记选择合适的风格和情绪。
技术可以是中立的,但是技术背后人的价值应该是向善的。微软与红丹丹的合作只是微软技术赋能公益的一角,微软CEO 萨提亚·纳德拉在他的书《刷新》中,将同理心、成长型思维视为重塑和变革微软文化的重要支点,认为创新不只是为了技术,还是为了帮助更多人,在与红丹丹合作之外是更多微软对“Tech for good”承诺的践行。