klipc的小助理

对!IBM的AI和你聊5分钟的就能完全模仿你的声音

KlipC调查研究:数十年来,IBM Research一直在探索人工智能和机器学习技术。 IBM正在通过专注于三个领域的研究组合来推进:推进AI,扩展AI和信任AI。


KlipC在IBM的一份声明了解到,IBM希望与志同道合的机构和个人合作,以加速AI研究的发展和加快AI研究的步伐,从而为行业和社会造福。


将功能强大的文本转换到语音模型需要足够强大的硬件。OpenAI发布的一项最新研究表明,自2012以来,在运行中使用的最大计算量增长了300000倍以上。为了追求低需求的模型,IBM的研究人员开发了一种新的轻量级模块化语音合成方法。他们说,通过模仿说话者的各个方面,它可以实时合成高质量的语音,从而以少量的数据适应新的演讲风格和语音。


 

“深度学习极大地促进了文本-语音(TTS)系统的发展,通过更有效和高效地模仿说话者的语音和说话方式,能更加自然地产生高质量的语音输出,”IBM研究人员Zvi Kons、Slava Shechtman写道。“但是,要生成这种高质量的语音,大多数TTS系统都依赖于大型且复杂的神经网络模型,这些模型难以训练,甚至在利用GPU时也无法进行实时语音合成。为了解决这些挑战,我们的…团队开发了一种基于模块化体系结构的神经语音合成新方法。”


KlipC观察同行业市场发现,Microsoft,Amazon,Google都将会成为IBM的AI对手,他们都在大力推广AI布局,因为随着研发和学习的深度发展,大量的数据将通过云技术完成。


IBM的研发团队是由三个相互关联的部分组成:韵律特征预测器,声学特征预测器和声码器。 韵律特征预测可学习语音样本持续的时间,音调和能量,目的在于能更好地表达说话者的风格。 至于声音特征的产生,它会在训练或适应数据中创建说话人的声音,而声码器会从声音特征中生成语音样本。


基于来自说话者的语音数据,所有组件将同时工作,重新合成符合目标说话者的语音。KlipC找到一项志愿者的测试问卷,志愿者被要求聆听并评估合成语音和自然语音样本的质量。该团队报告说,该模型在短短五分钟的语音训练中就保持了与原始说话人的高质量语音的相似性。


这项文本转换语音的工作是IBM新的Watson TTS服务的基础。这是IBM AI的招牌产品。KlipC在一份调查研究中发现,IBM的CEO曾发表声明说,“向所有云平台开放Watson AI是重要的篇章,我们认为这是一个价值一万亿美元的市场,IBM将首屈一指”。


在KlipC看来,这项新研究是在IBM研发人员详细介绍了将AI语音识别和自然语言处理技术时间从一周减少到11个小时之后的几个月发生的。 另外,KlipC调查发现,在5月,IBM团队完成了一个新的系统,该系统在广播新闻字幕任务上实现了“行业领先”的结果这一技术能够使用户通过使用Watson实现为创建数字聊天机器人的任务。


KlipC相信,人工智能将在未来几年内以戏剧性的方式改变世界。




评论