1 回顾语音识别技术优势及产品落地之路的应用发展-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

回顾语音识别技术优势及产品落地之路的应用发展

讯飞开放平台 来源:djl 作者:汪舰 2019-10-08 08:32 次阅读

什么是语音识别

语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。

语音识别技术历史发展进程

语音识别的研究可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。

但真正取得实质性进展,并将它作为一个重要的课题开展研究则是在60年代末70年代初。计算机技术的发展为语音识别的实现提供了硬件和软件的可能,语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效解决了语音信号的特征提取和不等长匹配问题。这一时期语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

80年代HMM和ANN在语音识别中成功应用。李开复实现了第一个基于HMM的大词汇量语音识别系统Sphinx。90年代随着多媒体时代的来临,大量企业开始投入巨资语音识别系统逐渐从实验室走向实用。00年代以来大数据、涟漪效应和深度神经网络带来了语音识别爆发。

语音识别的过程

首先是声音的输入,输入的音频可以是实时的来自于麦克风,也可以来自于现成的音频文件。然后是音频信号的预处理,包括降噪、回声消除、端点检查和模数转换等等。特征提取,就是从音频信号中提取出对识别有用的信息,将这些信息拿到声学模型中去匹配,会得到这些音频信号的发音信息,比如这里例子中的“科大讯飞”四个字的发音信息。然后把这些发音信息拿到语言模型中匹配,找出最大概率的发这四个音的汉字。这样一个识别的过程就完成了。

这过程中比较核心的部分就是声学模型和语言模型的匹配和处理,HMM(隐马尔科夫模型)和深度神经网络就是在这里发挥作用的。

由于HMM只需要少量的数据就能训练出一个可用的模型,所以在上世界80、90年代,HMM技术在语音识别领域几乎是处于统治地位的,直到移动互联网还有大数据技术的爆发,数据的来源已经完全不是问题的情况下,深度神经网络才逐渐让HMM退居二线。下面我们以HMM为例,讲解一下它在语音识别中是如何发挥作用的。

HMM浅析

首先和大家分享一个我在网上看到的关于异地恋的故事:小明有个女朋友在北京上学。

我们来给出一些假设条件,比如女朋友只有购物散步和宅家里这三种活动(这些叫可观察到的状态),天气也只有多云晴天和下雨三种(这些叫隐藏的状态,就是小明无法直接观察到的状态),如果第一天是多云的情况下,第二天还是多云的概率是0.5、晴天的概率0.3、下雨的概率0.2;再比如今天是晴天的情况下,女朋友去购物的概率是0.5,去散步的概率0.3,宅家里的概率0.2。那么所有上述的假设条件合在一起其实就形成了一个模型,这个模型就叫做HMM模型。

这三个问题在很早以前就有很多算法大师给出了解法,也就是说这些看起来很难解的问题对计算机来说都很快解出来。

那么这些和语音识别到底有什么关系?我将第二个问题和第三个问题抽象一下。

大家看这张PPT,左边这个部分就对应刚刚的第二个问题:已知模型参数和女朋友的活动序列(就是可观察状态链),来求最大概率的隐藏状态链(也就是这三天天气的变化序列)。

而语音识别也是已知一个HMM和一段我们可观察到的波形,来求这段音频包含的最大概率的隐藏状态,这里隐藏状态链指的就是识别结果中的文字。

对于第三个问题,由于缺少了一个已知的HMM模型,所以我们需要先利用已知的历史数据来训练一个可用的模型,然后再来求识别结果。

同样一个模型,同样一套模型参数,各个状态转化和映射概率都没有变,我们把可观察状态换成语音识别的输入波形(或者说是波形特征),把隐藏状态换成语音识别的输出(也就是文字结果),就会发现这个HMM用来做语音识别简直太合适啦。

比如这里的例子,这样三个连续的波形隐含的文字到底是“是十四”还是“四十四”,我们只需要分别把它们的概率算出来,哪个概率大我们就认为是哪个结果。对于HMM模型未知的情况下,我们可以利用带标注的数据按照鲍姆-韦尔奇算法训练一个就可以了,足够的数据就能训练出趋于完美的模型。

注意,这个例子中我们并没有区分声学模型和语言模型,而是将两者放在一起抽象出来一个大的模型,将波形直接映射成文字,而省去类似拼音发音的中间结果。事实上HMM也的确是既可以做声学模型,也可以做语言模型。

讯飞开放平台语音识别

本节公开课说的我们平台的语音识别是专指语音听写的功能,就是将语音转化成文字的功能,而和识别相关的命令词识别和语义理解,会在后面的课程中为大家讲解。

个性化识别指的是语音识别系统具备自动学习并适应用户使用习惯的能力,你用的越多,它越懂你。

例如语言模型的个性化,我们可以将一些不容易识别的生僻的词,比如人名地名等上传到给我们云端,我们根据你上传的信息有针对性的优化你的语言模型,提高这些词的识别率。后面会有视频给大家演示这样的效果。

目前我们讯飞的识别支持中文和英文,还支持中文的21种方言,其中粤语和四川话是免费开放就可以使用的,其他的方言需要通过商务合作后才能使用。

离线听写也是有的,在讯飞输入法和讯飞语记app中都已经使用了。大家要开发Android平台的应用可以借助语记APP提供离线听写能力,来让你自己的应用也具有离线听写的功能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    38

    文章

    1739

    浏览量

    112632
收藏 人收藏

    评论

    相关推荐

    基于语音识别的智能会议系统具备哪些交互功能

    标贝科技专注智能语音交互领域多年,在语音识别语音合成领域有着多项大型企业合作案例,标贝与多个智能会议系统厂商合作,成功将语音
    的头像 发表于 12-20 10:35 23次阅读

    标贝智能语音识别在智能会议场景中的落地案例

    标贝科技专注智能语音交互领域多年,在语音识别语音合成领域有着多项大型企业合作案例,标贝与多个智能会议系统厂商合作,成功将语音
    的头像 发表于 12-20 10:31 71次阅读
    标贝智能<b class='flag-5'>语音</b><b class='flag-5'>识别</b>在智能会议场景中的<b class='flag-5'>落地</b>案例

    语音识别技术的应用与发展

    语音识别技术发展可以追溯到20世纪50年代,但直到近年来,随着计算能力的提升和机器学习技术的进步,这项
    的头像 发表于 11-26 09:20 389次阅读

    ASR语音识别技术应用

    ASR(Automatic Speech Recognition)语音识别技术,是计算机科学与人工智能领域的重要突破,能将人类语音转换为文本,广泛应用于智能家居、医疗、交通等多个领域。
    的头像 发表于 11-18 15:12 545次阅读

    HPLC智能电表有什么技术优势吗?

    HPLC(高速电力线通信)智能电表作为一种先进的智能计量设备,凭借其独特的技术优势,在电力管理领域得到了广泛应用。下面我们将详细介绍HPLC智能电表的主要技术优势。1.高传输速率-高速数据传输
    的头像 发表于 09-26 18:00 463次阅读
    HPLC智能电表有什么<b class='flag-5'>技术优势</b>吗?

    智能玩具用离线语音识别芯片有什么优势

    随着科技的发展,很多智能电子产品和儿童玩具实现了与人类的交互,语音芯片在这些人机交互中起到了不可替代的作用,语音识别芯片在智能玩具中的应用就
    的头像 发表于 09-20 10:00 270次阅读
    智能玩具用离线<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片有什么<b class='flag-5'>优势</b>

    碳化硅功率器件的技术优势

    优势,成为了电力电子领域的一颗璀璨新星。本文将深入探讨碳化硅功率器件的物性特征、技术优势、应用前景以及面临的挑战。
    的头像 发表于 09-11 10:43 287次阅读

    Transformer模型在语音识别语音生成中的应用优势

    随着人工智能技术的飞速发展语音识别语音生成作为人机交互的重要组成部分,正逐渐渗透到我们生活的各个方面。而Transformer模型,自其
    的头像 发表于 07-03 18:24 1083次阅读

    人工智能的语音识别技术详解

    随着科技的飞速发展,人工智能(AI)技术已经渗透到我们生活的方方面面,其中语音识别技术作为AI领域的重要分支,更是以其独特的魅力和广泛的应用
    的头像 发表于 07-01 11:39 1202次阅读

    蓝鹏测控的激光测径仪有哪些技术优势

    具有显著的技术优势,使得其产品在市场上具有较高的竞争力和应用价值。 网站名称:保定市蓝鹏测控科技有限公司 可根据客户需求提供解决方案,定制产品。 欢迎QQ咨询:2087627071 电话
    发表于 05-24 17:25

    高速信号差分线的技术优势

    随着信息技术的飞速发展,高速信号传输已成为现代通信和数据处理中不可或缺的一环。在高速信号传输中,差分线技术因其独特的优势而得到广泛应用。本文将从差分线的基本原理、抗干扰能力、带宽容量、
    的头像 发表于 05-16 16:31 816次阅读

    **十万级口语识别,离线自然说技术,让智能照明更懂你**

    固定词条等。针对这些问题,启英泰伦现已推出成熟的可应用于照明设备的离线自然说方案,该方案已在多家智能照明厂商最新产品上实现应用落地。 照明离线自然说方案采用启英泰伦第三代AI语音芯片(芯片Flash
    发表于 04-29 17:09

    澎湃微离线语音识别应用实例

    随着科技的飞速发展,人机交互的方式也在不断演变。在键盘、触摸屏之后,语音识别技术正逐渐成为人机交互的新宠。从技术路线上来讲
    发表于 03-15 14:11 416次阅读
    澎湃微离线<b class='flag-5'>语音</b><b class='flag-5'>识别</b>应用实例

    车内语音识别技术在智能驾驶中的应用与前景

    一、引言 随着智能驾驶技术的快速发展,车内语音识别技术逐渐成为智能驾驶领域的研究热点。语音
    的头像 发表于 02-19 11:46 799次阅读

    车内语音识别技术:智能驾驶的核心要素

    一、引言 随着科技的飞速发展,智能驾驶已经成为未来出行的趋势。作为智能驾驶的关键技术之一,车内语音识别技术发挥着越来越重要的作用。它不仅提升
    的头像 发表于 02-19 11:42 756次阅读