0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心
发布

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

支持情感TTS,小爱音箱Art声学技术重磅升级!

姚小熊27 来源:北国网 作者:北国网 2020-06-17 15:48 次阅读

近日,小米发布了小爱音箱Art,这款音箱采用全新的金属机身,机身扬声器开孔被设计成0.7mm厚度的金属饰板,可谓功能与质感兼具。小米小爱音箱Art通过一颗2.5英寸的全频扬声器,让声音的细节呈现得更加自然。

作为小米推出的第9款智能音箱,小米小爱音箱Art在技术上也全面升级,搭载第三代小爱同学,并支持情感化语音交互、全屋播放及就近唤醒。通过这款音箱得以看出,小米的声学语音技术已经实现全面自研,并在自研部分领域持续。

情感化语音交互:通过迭代声学模型,支持情感TTS

对于智能设备而言,实现情感化语音交互是一项挑战。“情感”本身就是主观的、多样的感受,一种情感可以有多种呈现形式,更适合人与人的面对面对话。情感化语音交互对技术要求较高,要技术方、数据方、质检方等多方对情感浓度、情感诠释方式等标准达成共识,将较主观的情感音素统一化、标准化。

随着人工智能技术的发展,在实现人机对话的基础上,各大厂商都在情感化语音交互的领域探索。为了让机器加入情感元素,小米AI实验室在“情感数据量有限”的前提下,通过不同声学模型、不同声码器组合最终上线自然、拟人效果的情感TTS,成为业内首 家情感化TTS大规模落地的企业。

通过小米AI实验室的不断深耕,此次小米小爱同学Art全面支持情感化语音交互,基于有限但类型不同的情感音频数据(如开心、关心、害羞、惊讶等),通过不同技术训练并迭代声学模型,最终支持情感TTS合成并实现“小爱同学”音感化、拟人化。

未来,小米语音将升级此技术——支持情感TTS实时合成。从下图中可以看出,在大数据集的预训练模型基础上,利用目标说话人的中性情感数据对网络进行微调,得到目标说话人的中性情感模型;在此基础上用带情感的小批量数据对模型进一步微调,最终得到不同情感的模型,最终实现情感合成。

在国内语音助手行业中,小米首 次实现情感化TTS的大规模落地,未来将打造情感更加丰富的“小爱同学”,为用户提供多元化的语音交互体验,为IoT设备增加更丰富更立体更逼真的语音交互体验。

语音支持全屋播放:立体声组合同步播放相同音频

小米小爱音箱Art,是首 款可以实现语音支持全屋播放的设备。用户直接对小爱同学说“全屋播放XX”,无需提前在App端进行手动设置,即可实现一句话语音交互,为用户提供了更便捷的使用方式。

要实现这一功能,音箱需要具备AIoT放音的技术。小米AIoT放音的自研技术在攻克无线网络抖动、晶振时钟漂移以及弱网下数据不可达等一系列技术难题后,将不同音箱播放声音的同步优化到微秒级别,同时还实现了在不同型号的音箱之间的数据同步,提供更细腻的音质和宽广的声像。

立体声支持APP创建组网,才能进行语音指令和APP操作播放,全屋播放同时支持语音指令和APP创建组网。

立体声功能同时支持语音指令和app操作播放,云端音频流下发至音箱A,音箱A将立体声分离为左右声道,音箱A自己播放左声道音频并将右声道音频流下发给音箱B,由B音箱播放右声道,精准的同步技术保证音箱A和B同时播放立体声的左右声道音频。全屋播放功能支持语音指令和app创建组网,音频流下发至音箱C,音箱C将音频流混合为单声道信号并下发给组内其他的音箱设备同时播放,不区分声道,可支持多个设备。

就近唤醒全面升级:实现跨设备关闭闹钟

早在2018年,小米音箱系列就上线了就近唤醒功能。值得一提的是,此次小米小爱音箱Art就近唤醒全新升级,可支持跨设备关闭闹钟。远处的音箱闹钟响了,唤醒近处的音箱可以直接关闭远处的闹钟。此功能在业内首 次上线,小米小爱音箱Art也是首 款支持该功能的产品

说到就近唤醒,小米早在2018年就上线这一功能,截止2020年4月28日,分布式就近唤醒已为多设备用户累计避免约6.82亿次设备同时唤醒,准确率达到98%。近期首 发上线了端云多维度结合的就近唤醒综合决策策略,深入加强多设备状态信息联动,智能判决空间信息,进一步提升了家庭复杂网络环境的兼容性,同时做到了多设备响应的唯一执行,大幅提升用户体验。

未来,小米将专注于家居复杂场景应用、智能声学感知和多传感融合。在复杂的家庭结构环境中,保证算法的可用性,让每个设备主动感知所处的不同环境,根据环境完成算法自适应,将数据结果取长补短,相互融合,实现多维度智能感知。

两麦阵列唤醒:两麦盲源分离降噪前端,双级唤醒策略支撑

小米小爱音箱Art同步支持两麦阵列唤醒技术。在麦克风阵列方面,小米采用两麦盲源分离降噪前端,通过盲源分离、降噪、回声消除等技术,在多声源的嘈杂环境、音箱自身播放音乐时,都能结合语音增强技术,消除噪音的强干扰,获得干净、准确的人声音频。

在唤醒方面,为了兼顾低功耗与高性能,自研语音唤醒算法采用双级唤醒策略。低功耗待机唤醒词检测模型,利用子采样与共享隐含层等技术,减少模型资源消耗的同时保证召回率在一个较高的水平。高性能误唤醒检测模型,采用粗粒度建模单元,结合局部信息与长时上下文信息,高效抑制误唤醒。通过从海量数据中自动挖掘高区分度训练样本,再经过数据扩充技术,提高唤醒模型在低信噪比与小音量场景下的鲁棒性。

小米AI实验室语音产品负责人陈君宇表示,小米IoT平台连接的智能硬件数已达到2.5亿台,音箱出货量已经达到2200万台,在这么大的用户体量下,如何让基础体验持续提升,且提升产品在AI体验上的创新性,对自研AI团队来说是非常重要的使命。

小米一直致力于研发先进的AI技术,并将技术落地到产品及业务,为用户带来更好的产品体验,让全球每一个人都能享受科技带来的美好生活。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • TTS
    TTS
    +关注

    关注

    0

    文章

    36

    浏览量

    10726
  • 小米
    +关注

    关注

    69

    文章

    14260

    浏览量

    142706
  • 小爱音箱
    +关注

    关注

    0

    文章

    26

    浏览量

    4088
收藏 人收藏

    评论

    相关推荐

    芯派 Pro 开发板试用体验】关于升级到1.45版本后出现的问题反馈

    想着 升级到1.45的bsp版本好能使用硬件接口还有跟 芯元智github开源的sdk等仓库能对得上以方便正常使用的,结果现在 升级了之后翻车了。 升级到1.45的之后出现的问题是网
    发表于12-13 20:36

    浅谈情感语音识别:技术发展与未来趋势

    一、引言 情感语音识别是一种新兴的人工智能 技术,它通过分析人类语音中的 情感信息,实现人机之间的 情感交互。本文将探讨 情感语音识别
    的头像 发表于11-30 11:06 506次阅读

    情感语音识别的应用与挑战

    一、引言 情感语音识别是一种通过分析人类语音中的 情感信息实现智能化和个性化人机交互的 技术。本文将探讨 情感语音识别的应用领域、优势以及所面临的挑战。 二、
    的头像 发表于11-30 10:40 461次阅读

    情感语音识别:技术前沿与未来趋势

    一、引言 情感语音识别是当前人工智能领域的前沿 技术,它通过分析人类语音中的 情感信息,实现更加智能化和个性化的人机交互。本文将探讨 情感语音识别 技术
    的头像 发表于11-28 18:35 411次阅读

    情感语音识别:技术发展与挑战

    一、引言 情感语音识别是人工智能领域的重要研究方向,它通过分析人类语音中的 情感信息,实现人机之间的 情感交互。本文将探讨 情感语音识别 技术的发展
    的头像 发表于11-28 18:26 431次阅读

    情感语音识别:技术发展与跨文化应用

    一、引言 情感语音识别是人工智能领域的前沿研究领域,它通过分析人类语音中的 情感信息,实现更加智能化和个性化的人机交互。随着 技术的不断发展, 情感语音识别正逐渐应用于跨文化领域,为不同文化
    的头像 发表于11-22 10:54 390次阅读

    情感语音识别技术的挑战与未来发展

    情感语音识别 技术作为人工智能领域的重要分支,已经取得了显著的进展。然而,在实际应用中, 情感语音识别 技术仍面临许多挑战。本文将探讨 情感语音识别
    的头像 发表于11-16 16:48 324次阅读

    情感语音识别技术的发展趋势与前景

    一、引言 情感语音识别 技术是近年来人工智能领域的研究热点之一,它通过分析人类语音中的 情感信息实现更加智能化和个性化的人机交互。本文将探讨 情感语音识别
    的头像 发表于11-16 16:13 470次阅读

    情感语音识别技术的现状与未来

    一、引言 情感语音识别 技术是近年来人工智能领域的研究热点之一,它通过分析人类语音中的 情感信息,为智能客服、心理健康监测、娱乐产业等多个领域提供了重要的 支持。本文将探讨
    的头像 发表于11-15 16:36 465次阅读

    情感语音识别的前世今生

    支持。本文将探讨 情感语音识别的前世今生,包括其发展历程、应用场景、面临的挑战以及未来发展趋势。 二、 情感语音识别的发展历程 起步阶段:早期的 情感语音识别
    的头像 发表于11-12 17:33 480次阅读

    情感语音识别的技术挑战与解决方案

    一、引言 情感语音识别 技术是一种通过分析人类语音中的 情感信息来理解和识别人的 情感状态的 技术。然而,在实际应用中,
    的头像 发表于11-12 17:31 367次阅读

    情感语音识别技术的应用与未来发展

    一、引言 随着科技的飞速发展, 情感语音识别 技术已经成为人机交互的重要发展方向。 情感语音识别 技术能够通过分析人类语音中的 情感信息,实现更加智能
    的头像 发表于11-12 17:30 550次阅读

    情感语音识别技术在心理健康领域的应用与挑战

    一、引言 情感语音识别 技术是一种通过分析人类语音中的 情感信息来评估和监测心理健康状况的 技术。近年来,随着人工智能和心理医学的快速发展, 情感
    的头像 发表于11-09 17:13 500次阅读

    情感语音识别技术在人机交互中的应用与挑战

    一、引言 随着人工智能 技术的不断发展,人机交互已经成为了研究的热点之一。 情感语音识别 技术作为人机交互中的重要组成部分,能够通过识别人的语音 情感,实现更加智能化和个性化的交互体验。本文
    的头像 发表于11-09 15:27 621次阅读

    TTS技术赋能对讲机,迎来智能语音革新

    随着语音合成 技术的快速发展,对讲机的智能语音 升级已经到来。作为文本转语音的核心 技术TTS(文本到语音合成)为对讲机带来了革新机遇。它能够自动、快速地将文本转化为连贯自然的语音,并
    的头像 发表于10-20 14:53 457次阅读
    <b class='flag-5'>TTS</b><b class='flag-5'>技术</b>赋能对讲机,迎来智能语音革新