联系我们 contact us
地址:北京市朝阳区汤立路
   218号明天·STUDIO·A座
010-84678879

您当前所在位置:主页>技术共享>物联世界>

让机器的声音听起来更像人声,专注语音合成前端技术的「标贝科技」完成千万级人民币融资
时间:2017-11-04 08:06 作者:佚名 点击:

让机器的声音听起来更像人声,专注语音合成前端技术的「标贝科技」完成千万级人民币融资

  

让机器的声音听起来更像人声,专注语音合成前端技术的「标贝科技」完成千万级人民币融资

  语音是人工智能和人类的一种主要交互方式;所以AI不仅要有足够聪明的大脑,也需要有足够的表达能力。语音交互包含三个方面:听得清(语音识别)、听得懂(语义分析)和说得好(语音合成)。这些年在科大讯飞的带领下,中文语境下的前两者进步明显,但是语音合成的部分,我们作为普通用户还是能感觉出大多数机器声音听起来并不自然。即便有些人认为我们有可能会逐步习惯“机械感”明显的发音,但是如果让我在前者和电影《Her》中斯嘉丽约翰孙配音的语音助手中选择,我会毫不犹豫地选择后者。尤其是当我们与人工智能交互的需求超越了百科问答的范畴之后,更加符合场景或者产品调性的声音是用户体验的重要组成部分。

  36氪在《如何让机器说话更自然,有情感?》一文中介绍了语音合成常用的波段拼接和参数合成两种方法,但是这篇报道要介绍的「标贝科技」更加关注语音合成前端的音库质量和技术问题。为了让语音更加类人,标贝科技认为要从源头的问题抓起。

  首先,从音库质量入手。标贝科技认为不同的产品需要不同的音库,举个简单的例子,我希望夜晚为我读书的声音是温柔的,但是倘若音库本身采集的是播音员字正腔圆的声音,无论对数据如何处理,都很难产出匹配产品调性的声音;而风格只是标贝科技重塑语音库的一个元素。

  大量语音库在标贝科技看来是没有太大意义的,他们需要精准的数据。为了采集合适的人声,标贝科技的数据专家需要和发声人做大量的前期沟通,设计包含尽可能多素材的语料,指导发声人的说话风格、语调和停顿方式等,还需要监听环节对发声人不同的片段进行对比、确保风格一致。采集完成后,团队再对音字、韵律和音节音素进行标注。

  但是,即便技术优秀,作为一家小企业如何拿到大公司的订单呢?标贝科技凭借10年以上语音合成的经验,为客户的语音产品做免费评测,分析出合成语音不自然的原因:可能是音库质量不佳、数据加工的问题、前端模块或者后期算法的问题。通过免费和专业的测评让潜在客户认识到自己的技术和专业能力,标贝科技获得了百度、滴滴、腾讯、喜马拉雅小雅音箱、芋头科技Rokid、Roobo机器人、暴风、出门问问等众多大客户,并保持长期稳定的合作关系。

  标贝科技的核心竞争力得益于他们对前端音库和技术的关注,以及他们在数据和产品结合方面的经验。团队的技术合伙人在人工智能完全没有进入大众视野的2002年,就开始从事语音方面的研究工作,曾就职于百度,并获得百度语音合成TTS最高奖,从事语音行业十五年,有着丰富的项目经验。

  专注音库和前期技术服务的语音公司并不多,所以标贝科技把市场定价权掌握在自己手里。公司的盈利方式有两种:一种是直接向采购方售卖标贝科技的自有语音库;另一种是为企业提供定制音库以及整体的语音解决方案,正如上文中描述的。成立于2016年2月,标贝科技在半年内收回全部前期投入,实现盈利;今年至今,30人的团队已完成了近2000万人民币的营收。

  今年10月标贝科技完成首轮千万级人民币融资,接下来会把重心放在语音合成TTS业务规模的深入和扩大。之前的发展模式发展上限明显,整体解决方案不是标准化的产品,因此难以在规模化的同时,实现边际效益递增。所以在标准化和规模化的方向上,标贝科技有可能开发标准自有库,企业可以更方便地使用标贝科技合成语音库,迅速投入研发。

网站地图 | RSS订阅 | RSS地图 | 网站首页 | 关于我们 | 技术共享 | 产品中心 | 成功案例 | 加盟我们 | 客户服务 | 联系我们 |
工况监测
    地址:北京市朝阳区汤立路218号明天·STUDIO·A座
    电话:0086-10-8467  8879      TEL:0086-133  6699  5587   (电话推销勿扰)
    版权所有:新企力(北京)检测服务有限公司   工作时间:(周一至周五  8:30-17:30)
    邮箱:web#xqili.com   京ICP备15050323号  
关闭