0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语音识别技术最新进展:视听融合的多模态交互成为主要演进方向

Carol Li 来源:德赢Vwin官网 网 作者:李弯弯 2023-12-28 09:06 次阅读

电子发烧友网报道(文/李弯弯)所谓“模态”,英文是modality,用通俗的话说,就是“感官”,多模态即将多种感官融合。多模态交互技术是近年来人工智能领域的一项重要创新。随着语音识别技术的发展,采用多种模态(声学、语言模型、视觉特征等)进行联合建模,基于深度学习的多模态语音识别取得了新进展。

多模态交互的原理及优势

多模态交互技术融合了多种输入方式,包括语音、手势、触摸和眼动等,使用户可以根据自己的喜好和习惯选择最方便的交互方式。多模态交互通过将不同输入方式的数据进行融合和处理,实现更准确、智能的交互响应,提高用户体验。

上周在星宸科技2023开发者大会暨产品发布会论坛上,科大讯飞企业数字化副总裁卢尧谈到,人工智能有三个层次,1、运算智能:能存会算;2、感知智能:能听会说,能看会认;3、认知智能:能理解会思考。而感知智能典型的进展是多模态交互。

从卢尧的介绍来看,融合了视觉和语音的多模态免唤醒系统具有明显优势。如下图:这套多模态免唤醒交互系统,同时采用视觉检测和语音识别交互,误唤醒率仅为0.01%,交互响应成功率相较于仅基于语音识别交互系统大幅提升。

wKgaomWMymCACWUdAAZDJDahffk724.jpg

早在今年5月,科大讯飞AI研究院副院长高建清博士就在某论坛上介绍过公司在多模态语音交互技术方面的最新进展。据高建清介绍,科大讯飞依托语音与视觉方面的多年积累,打造了一套语音、视觉多模态融合的免唤醒多模态交互系统。

通过将麦克风提供的空间信息和音视频提供的说话人相关信息进行融合绑定,实现高准确度的说话人分离;通过多模态VAD与端到端意图技术的结合,实现无唤醒词的自然人机交互,具有可靠、自然、鲁棒的特点。

具体来看,基于多模态多通道的语音分离系统,将语音信号、麦克风阵列提供的空间信息以及主说话人的唇形输入分离模型,系统最终输出视频说话人的语音,抑制背景噪声及干扰说话人语音。在多人同时讲话、车载音乐情况下,语音识别效果相比单模分离系统有50%以上性能提升。不仅解决了传统麦克风阵列方法无法有效区分同向干扰的问题,还可提升非同向干扰分离场景的性能。

多模态交互技术的应用

语音识别是人工智能技术的一个重要分支,近些年来,智能语音也在多项技术难点上取得突破。业界普遍认为,在语音识别方面,视听融合的多模态交互技术成为技术演进的主要方向。

科大讯飞是国内主要的智能语音技术玩家,其多模语音增强技术融合语音与视觉的多模感知,让高噪音场景下的语音交互跨过实用门槛,目前已经在车载、会议、地铁购票和医疗挂号等场景落地。

wKgaomWMymyAGg6TAAa96QItwQ8667.jpg

在车载领域,人机交互系统需要攻克两大难题:一是环境噪音及人声干扰,尤其是麦克风阵列技术难以解决的同向人声干扰问题(如:驾驶员与左后方乘客同时说话);二是传统语音交互系统每次启动交互都需要说唤醒词,难以做到像人与人交流一样自然顺畅。

此前就有消息显示,科大讯飞多模态免唤醒交互解决方案将率先在广汽传祺和威马等自主品牌车型上部署应用。该方案能够适应复杂光线暗、语音嘈杂等多种工况,并支持主流SOC和DMS摄像头。

在地铁购票场景中,此前因为地铁站点太多,买票难以找到目的地站点,而且这些操作对于老年人不太友好,而语音购票的功能让这些问题迎刃而解。同时,因为地铁站人声嘈杂,也使得语音交互的体验并不友好。

根据此前的报道,深圳地铁12号线智能售票机及智慧客服终端上,率先采用了科大讯飞多模语音增强技术,该技术通过识别人脸唇形等信息,同时结合人声,使得即使在人声嘈杂的环境,语音识别的准确率也大大提升。

多模态语音识别技术在智能家居场景中也非常实用。融合语音、手势、视觉感知,用户可以过简单的口头指令控制智能家居设备,实现智能灯光、家居安防等功能,通过摄像头和深度学习技术,智能家居可以识别用户的手势动作,实现手势控制家居设备的操作。同时,通过视觉感知技术,识别用户的面部表情和情绪状态,根据不同情况提供相应的互动体验。

总结

经过多年的发展,语音识别技术已经相当成熟,并且在车载、智能家居等各种场景中实现应用,并给人们的生活带来便利。然而同时,一直以来语音识别也存在诸多难点,比如环境噪声、多人同时发出声音等情况,都会影响语音识别的准确率。而视听融合的多模态技术,将视觉和语音结合,能够很好的解决这些问题,使得语音识别的准确率大幅提升。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    38

    文章

    1684

    浏览量

    112153
收藏 人收藏

    评论

    相关推荐

    聆思CSK6视觉语音大模型AI开发板入门资源合集(硬件资料、大模型语音/模态交互/英语评测SDK合集)

    丰富外设配件 配套 模态应用示例,支持快速上手体验大模型 语音 交互、智能视觉等 AI 应用 板载 DAPLINK 调试器,外接一条USB 线即可实现烧录、调试、串口日志查看 板载网络模组
    发表于06-18 17:33

    李未可科技正式推出WAKE-AI模态AI大模型

    文本生成、语言理解、图像 识别及视频生成等 模态 交互能力。 该大模型围绕 GPS 轨迹+视觉+ 语音打造新一代 LLM-Based的自然
    发表于04-18 17:01 454次阅读
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模态</b>AI大模型

    百度首席技术官王海峰解读文心大模型的关键技术最新进展

    4月16日,以“创造未来” 为主题的Create 2024百度AI开发者大会在深圳国际会展中心成功举办。百度首席 技术官王海峰以“ 技术筑基,星河璀璨”为题,发表演讲,解读了智能体、代码、
    的头像 发表于04-18 09:20 511次阅读
    百度首席<b class='flag-5'>技术</b>官王海峰解读文心大模型的关键<b class='flag-5'>技术</b>和<b class='flag-5'>最新进展</b>

    两家企业有关LED项目的最新进展

    近日,乾富半导体与英创力两家企业有关LED项目传来 最新进展
    的头像 发表于01-15 13:37 537次阅读

    人工智能领域模态的概念和应用场景

    随着人工智能 技术的不断发展, 模态 成为了一个备受关注的研究 方向
    的头像 发表于12-15 14:28 6658次阅读

    语音数据集:AI语音技术的灵魂

    提升 语音 识别和生成能力: 语音数据集为AI模型提供了丰富的 语音样本,通过训练和学习这些数据,AI可以更好地理解和模拟人类的 语音特征,从而提高
    的头像 发表于12-14 14:33 639次阅读

    情感语音识别技术前沿与未来趋势

    一、引言 情感 语音 识别是当前人工智能领域的前沿 技术,它通过分析人类 语音中的情感信息,实现更加智能化和个性化的人机 交互。本文将探讨情感
    的头像 发表于11-28 18:35 413次阅读

    离线语音识别及控制是怎样的技术

    引言:  随着人工智能的飞速发展,离线 语音 识别 技术 成为了一项备受瞩目的创新。离线 语音 识别
    发表于11-24 17:41

    汽车模态交互研究:大模型及模态融合,推进AI Agent上车

    语音 交互方面: 语音 交互在AI大模型的赋能下,功能愈加智能化、情感化。唇动 识别、声纹 识别
    的头像 发表于11-24 16:12 1087次阅读
    汽车<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>交互</b>研究:大模型及<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>融合</b>,推进AI Agent上车

    情感语音识别技术的应用与未来发展

    一、引言 随着科技的飞速发展,情感 语音 识别 技术已经 成为人机交互的重要发展 方向。情感 语音
    的头像 发表于11-12 17:30 556次阅读

    情感语音识别技术在人机交互中的应用与挑战

    一、引言 随着人工智能 技术的不断发展,人机 交互已经 成为了研究的热点之一。情感 语音 识别 技术作为人
    的头像 发表于11-09 15:27 625次阅读

    国星光电LED器件封装及其应用产品项目最新进展

    近日,国星光电LED器件封装及其应用产品项目传来 新进展
    的头像 发表于11-03 14:19 612次阅读

    VisionFive 2 AOSP最新进展即将发布!

    非常开心地在这里和大家提前预告,我们即将发布VisionFive 2 集成 AOSP的 最新进展!请大家多多期待吧~ 此次通过众多社区成员的支持和贡献(https://github.com
    发表于10-08 09:15

    语音识别技术进展、挑战和未来

    语音 识别 技术是一种人机 交互的核心 技术,它赋予机器“听懂”人类语言的能力。这项 技术从早期的符号
    的头像 发表于09-24 09:48 744次阅读

    语音识别技术的进步与挑战

    一、引言 在当今数字化时代, 语音 识别 技术已经 成为人机交互的重要方式之一。本文将探讨 语音 识别
    的头像 发表于09-22 18:29 634次阅读