0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心
发布

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百度智能语音交互的产业化成果丰硕,推进语音技术应用落地

牵手一起梦 来源:电科技 作者:辛雯 2020-09-16 15:20 次阅读

9月15日,AI领域的行业盛会“百度世界2020”大会于线上隆重召开,一大波硬核技术袭来:百度创始人、董事长兼CEO李彦宏与总台央视主持人康辉“虚拟人”亮相、颠覆搜索形态的“度晓晓”、没有驾驶员的“全自动驾驶”、各行各业赋能案例……既有硬核技术,又有“接地气”的落地应用。

在当天的百度大脑分论坛上,百度语音首席架构师贾磊重点讲解了百度端到端语音交互技术。他表示,百度语音交互技术持续迭代升级,已发展成为基于深度学习技术的端到端的语音识别和语音合成技术。在语音识别层面,百度推出端到端信号声学一体化建模的技术,语音合成方面,最新的Meitron和单人千面合成个性化技术亮相。同时交出了百度语音技术最新成绩单:日均调用量超过155亿次,广泛应用在移动端、智能家居、和语音IoT等场景,智能语音产业化成果丰硕。

会上,贾磊分别从语音识别和语音合成两个技术维度详解了百度语音技术的发展迭代和最新成果。在语音识别方面,百度语音识别技术持续创新,从2012年首推深度学习技术,到2019年在业内首先把注意力模型应用于在线语音识别,推出流式多级的截断注意力模型 SMLTA;再到如今全面进化为端到端的信号声学一体化建模技术,在助力百度自身业务发展的同时,更好地赋能多场景、多产业应用。

百度智能语音交互的产业化成果丰硕,推进语音技术应用落地

作为百度语音识别技术的最新成果,端到端的信号声学一体化建模技术很好地解决了传统数字信号处理和语音识别级联系统的各种问题,抛弃了各自学科的学科假设,通过端到端的建模,大幅提升了远场语音识别率。

据贾磊介绍,端到端的信号声学一体化建模技术由模型波束技术和模型AEC技术组成。前者进化为多分区融合的模型波束建模技术,在国际上由百度首次提出,较单分区技术进一步提升识别性能15%以上;后者是升级为基于双LOSS实值掩蔽的模型AEC技术,可以解决设备有非线性情况下的回波消除问题,使得设备即使在播放音乐的时候,也能够进行成功的打断和高精准的语音识别。

此外,贾磊还在会上介绍了百度今年推出的端侧全双工语音交互技术。据他介绍,百度端侧全双工语音交互技术将复杂的建模过程转化为3个端到端的深度学习过程,即信号声学一体化建模、声学语言一体化建模以及语义置信一体化建模。通过端到端的建模,该技术能够将整个复杂的端侧交互转变成若干个深度学习计算,使得依靠一颗AI芯片就能完成端侧的全双工语音交互,从而大幅度提升车载手机等语音交互性能,显著改善用户体验。

而在语音合成方面,百度自2013年启动语音合成研发,历经参数合成、拼接合成、深度学习语音合成和端到端的语音合成,到如今全新升级为包含个性化、多风格多角色、单人千面的语音合成系统,百度语音合成技术始终处于升级迭代中。

会上,贾磊依次介绍了百度语音合成技术的最新成果——个性化TTS,多风格、多角色,单人千面。个性化TTS是个性化定制的Meitron语音合成系统的最新演进,是基于子带分解和GAN_loss的端侧神经网络声码器,也是业内首个在手机端多人通用的端侧的基于神经计算的声码器。个性化TTS相较于传统的基于信号处理和参数的声码器,ABX提升可以达到65:35,其已应用于地图导航,目前每日的导航播报超过1亿次。

多风格、多角色的语音合成,则是针对娱乐内容产业(例如小说)中存在的多个角色交替、多种情感需求并存的播报需求而研发的新技术。此前,用单一音色播报缺乏表现力,播报语音和文字本身的角色情感不一致,用户长时间听感到单调疲倦。百度通过深度学习技术对小说文本进行分析,判断出角色、身份、情感,再借助多风格、多角色语音合成技术去合成小说中的声音,从而实现声音自然流畅、情感表现力丰富、用户体验优美的效果。

针对一个发音人需要用不同风格播报文本的应用场景,百度推出单人千面语音合成技术。该技术能够把说话人的语音、文本、风格、内容、音色都进行分离,在进行语音合成的时候自由组合,从而能够让一个发音人同时去播报新闻、小说、脱口秀、读书、诗歌等不同风格。

“百度智能语音交互的产业化成果丰硕,目前百度智能语音的日均调用量超过155亿次,广泛应用于移动端、智能家居、智能车载、智能服务以及语音IoT,极大地提高了中国社会的智能化程度。”贾磊表示。语音技术作为百度大脑的重要AI能力之一,不但应用于百度搜索、百度输入法、百度地图、小度音箱等百度系列产品,更通过百度大脑AI开放平台广泛赋能众多行业和场景的合作伙伴。未来,百度还将持续创新升级语音交互技术,推进语音技术应用落地,助力更多产业智能化转型升级。

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 百度
    +关注

    关注

    9

    文章

    2229

    浏览量

    89604
  • 智能家居
    +关注

    关注

    1922

    文章

    9350

    浏览量

    181352
  • IOT
    IOT
    +关注

    关注

    186

    文章

    4070

    浏览量

    194641
收藏 人收藏

    评论

    相关推荐

    智能语音交互技术如何助力设备实现人机自然对话

    智能 语音 交互 技术是指通过 语音识别、 语音合成和自然语言理解等
    的头像 发表于05-23 15:14 249次阅读

    百度智能云携手乌镇共建AI数据产业基地

    近日, 百度 智能云与桐乡市乌镇大数据高新 技术产业园区签署合作协议,双方将发挥各自优势,以人工 智能标注 产业为基础,共建
    的头像 发表于04-01 16:12 435次阅读

    东莞与百度签署战略合作协议,推动人工智能的全场景应用落地

    3月22日,东莞市人民政府与 百度签署战略合作协议,双方将紧密围绕人工 智能 产业发展,充分发挥 百度在 AI 算法、云计算、大数据、自动驾驶 技术
    的头像 发表于03-25 10:05 705次阅读

    东莞市与百度合作推动人工智能的全场景应用落地

    3月22日,东莞市人民政府与 百度签署战略合作协议,双方将紧密围绕人工 智能 产业发展,充分发挥 百度在 AI 算法、云计算、大数据、自动驾驶 技术
    的头像 发表于03-25 10:05 456次阅读
    东莞市与<b class='flag-5'>百度</b>合作推动人工<b class='flag-5'>智能</b>的全场景应用<b class='flag-5'>落地</b>

    首届百度智能云全球生态大会,4月9日成都见!

    为了加快人工 智能的发展步伐,进一步推动大模型 产业的实际 落地,促进AI原生应用的全面繁荣, 百度 智能云将于2024年4月9日在成都举办首届“
    的头像 发表于03-12 09:43 468次阅读

    【有奖】百度智能目推出首款多模态 AI 模组,应用场景有奖征集!

    他来了,他来了 大模型时代悄然到来 百度首款大模型 落地的硬件产品 目多模态AI模组LUCA系列正式亮相 目LUCA深度集成 百度
    的头像 发表于02-26 15:19 428次阅读

    华为智能座舱与百度地图签署生态合作协议 共创导航出行新体验

    此次签约, 百度地图和华为 智能座舱将在 智能座舱领域共同打造车机版 百度地图,将手机端 百度地图的丰富体验延伸到车端,包括车道级导航、红绿灯倒计时、
    的头像 发表于01-19 15:50 544次阅读

    语音数据集:智能语音技术的燃料与推动力

    随着人工 智能技术的不断进步, 语音 技术作为人机 交互的重要方式,正在逐渐渗透到我们的日常生活中。而 语音数据集作为
    的头像 发表于12-29 11:11 283次阅读

    语音数据集:开启智能语音技术的新篇章

    随着人工 智能技术的飞速发展, 语音数据集在推动 智能 语音 技术的进步中发挥着越来越重要的作用。 语音数据
    的头像 发表于12-29 11:06 380次阅读

    语音数据集:AI语音技术的灵魂

    一、引言 在人工 智能领域, 语音 技术被誉为“未来人机 交互的入口”,而 语音数据集则是AI 语音
    的头像 发表于12-14 14:33 628次阅读

    离线语音识别技术:掌控未来的语音交互

    离线 语音识别 技术的核心优势在于其独立性和实时性。在没有网络连接的情况下,设备依然能够迅速识别用户的 语音指令,实现各种功能。这使得 语音 交互更加
    的头像 发表于12-13 11:12 422次阅读
    离线<b class='flag-5'>语音</b>识别<b class='flag-5'>技术</b>:掌控未来的<b class='flag-5'>语音</b><b class='flag-5'>交互</b>

    情感语音识别技术在人机交互中的应用与展望

    一、引言 随着人工 智能技术的不断发展,人机 交互已经渗透到日常生活的方方面面。情感 语音识别作为人机 交互中的关键 技术之一,能够通过分析人类
    的头像 发表于11-22 10:40 583次阅读

    百度阿波罗智行(西南)人工智能基础数据产业基地揭牌

    继今年6月,自贡市人民政府与 百度公司签署战略合作,与大安区、市城投集团签署 落地协议以来达成的“ 里程碑时刻 ”。双方将立足自贡5G 产业发展定位和 产业要素优势,发挥
    的头像 发表于11-13 18:00 788次阅读
    <b class='flag-5'>百度</b>阿波罗智行(西南)人工<b class='flag-5'>智能</b>基础数据<b class='flag-5'>产业</b>基地揭牌

    情感语音识别技术在人机交互中的应用与挑战

    一、引言 随着人工 智能技术的不断发展,人机 交互已经成为了研究的热点之一。情感 语音识别 技术作为人机 交互中的重要组成部分,能够通过识别人的
    的头像 发表于11-09 15:27 620次阅读

    百度发布首个量子领域大模型及百度量子助手

    9月23-24日,以“协同创新 量点未来”为主题,2023量子 产业大会在安徽合肥召开。量子领域院士专家、智库机构、 产业界嘉宾汇聚一堂,探讨量子 产业化之路。 作为主旨报告嘉宾, 百度
    的头像 发表于09-26 09:53 664次阅读