通常语音交互过程通常分为唤醒、响应、输入、理解、反馈几个环节,语音交互技术也一直是IBM、微软、百度等遥遥领先。
几个月前,华为消费者业务CEO余承东表示华为正在研发国际版的语音助手,同时建立自己的AI服务,并将在未来扩展到国际市场。
在人工智能的潮流推动下,智能化语音技术不断发展,许多电子设备中都添加了语音助手,如Siri、小爱同学、天猫精灵等,用来协助用户进行人机交互过程。为了使得语音助手能够及时检测并响应用户发出的语音交互指令,电子设备一般会预设一些唤醒词,如“Hi Siri”等,当检测到用户输入唤醒词时,可触发电子设备与用户进行交流。通常设备设置唤醒词的声强门限60dB,当用户输入声强大于60dB时,电子设备检测成功,然而当用户距离设备较远时,由于输入声强的降低,电子设备往往难以检测到输入语音信号从唤醒失败。在这种情况下,如何在远距离下提高语音助手唤醒成功率成为诸多企业竞相研究的热点。
华为公司于2019年7月25日提出了一项名为“一种语音唤醒方法及电子设备”的发明专利(申请号:201910677390 .9),申请人为华为技术有限公司。
此发明专利介绍了一种语音唤醒方法及相对应的电子设备,可以在较广的位置范围内保证电子设备被成功唤醒的几率,从而提高用户的使用体验,而该种方法可以被应用于诸如智能家居设备、PC、手机、音箱等具有语音交互功能的电子设备之中。
图1 语音交互过程示意图
通常语音交互过程可分为唤醒、响应、输入、理解、反馈几个环节。当设备处于待机状态时,需要识别用户输入的语音唤醒信号,如果识别成功则切换到工作状态,此后则可以通过语音识别算法用户对输入的语义内容进行识别并响应,整个过程如图1所示。
从上述过程可以看出,成功唤醒电子设备是实现人机语音交互的基础,而唤醒设备的过程就是通过预设的唤醒参数检测用户的语音输入。唤醒参数如唤醒门限、拾音方向、噪声抑制参数、放大增益等的取值决定了电子设备在检测唤醒输入语音时唤醒率的高低。在实际使用过程中,用户相对设备的位置差异导致了唤醒率的不同,因此根据用户所在的位置动态设置唤醒参数可以使得电子设备在不同位置场景下保持较高的唤醒率。
图2 语音唤醒方法应用场景示意图
图2为上述提到的基于用户位置信息来划分区域,从而进行语音唤醒的示意图。电子设备在待机状态时可周期性地通过摄像头采集用户图像信息,并根据图像确定用户所在的位置信息。对于不同区域,设备可预先设置对应的唤醒参数,以声强为例,在近处的区域设置较大的门限,而在远处区域设置较小的门限,从而使各个区域都达到较高的唤醒率。如图2所示的三个区域各自具有一套唤醒参数,从而提高了语音交互场景下用户的使用体验。
图3 语音唤醒方法流程图
图3是此专利提供的一种语音唤醒方法流程示意图。以智能电视为例,首先设备通过摄像头采集图像,并通过采集的图像确定其中是否包含用户,如果包含则确定图像中第一用户所在的第一目标位置,并获取该位置下的唤醒参数。当用户输入语音后,设备根据上述唤醒参数处理输入语音信号。如果用户从区域1切换到区域2,则设备获取区域2中的唤醒参数并进行信号处理,包括模数转换、降噪、放大等,因此该设备可根据用户所在位置实时动态的对切换唤醒参数,达到更好的人机交互效果。
在智能语音服务上,Google和亚马逊的是目前公认的业界巨头,然而从此项专利可以推断出华为在语音业务上也在不断努力发展!
-
华为
+关注
关注
216文章
34411浏览量
251470 -
人工智能
+关注
关注
1791文章
47182浏览量
238199 -
语音交互
+关注
关注
3文章
286浏览量
28002
发布评论请先 登录
相关推荐
评论