1 AIoT的语音技术是如何落地的?-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AIoT的语音技术是如何落地的?

h1654155282.3538 来源:沈苗 2019-08-26 17:52 次阅读

AIoT融合AI技术IoT技术,除了实现技术的革新,其主要技术的应用和真正落地也是该领域的重点问题。

是新的技术和生产工艺(例如,早期的汽车)通过被应用和被应用而获得改善,之后在获得进一步的应用和采用,进而创造出正反馈或者收益递增的效用。——《技术的本质》,布莱恩·阿瑟

上篇我们讲到了AIoT并非泛泛而谈的口号,他是有自身的用户价值和商业价值逻辑。从这篇开始我们要讲讲在AIoT用到的主要技术,也是我入门(keng)以来的梳理和沉淀,若有问题也欢迎交流。

我认识在AI领域这样强技术领域,了解其技术原理和技术边界,结合市场需求,才能更高效地输出产品服务。

本篇文章核心内容有以下几点:

首先,我们先从AIoT的产业链入手,从宏观维度对整个AIoT产业有个宏观认知;

其次,这篇文章会先聚焦于语音技术在AIoT领域的技术原理和落地产品服务方法。

其余几大个技术模块我们会在后续的文章中陆续更新。

一、AIoT产业链

AIoT产业链主要包括以下几个部分:

上游:硬件芯片厂商通信模块等;软件:AI技术、IoT技术

中游:操作系统、App、云端服务

下游:渠道(线上 / 线下)

AIoT产业链

从上图我们可以大致了解整个AIoT产业全貌,是一个软硬通吃,涉及模块最全的行业。所以作为产品经理,在这个领域,有很大的发挥空间。

二、AIoT产品都做些什么

不同类型的AIoT产品对技术理解要求不同,如阿里云IoT、腾讯云IoT其业务目标是要做生态,做水电煤,主打PaaS层的输出,直接服务开发者,所以这对产品的技术能力要求就非常高,一般得有几年相关开发经验。

而做前端交互体验的,跟用户直接接触的体验层产品对技术要求就不那么高了,结合产业链越往下游对产品对技术要求越低。结合上面的产业链结构图可以分为三大块:

硬件产品:为整个终端硬件体验负责。需要从硬件定义、设计到最后的量产全链路环节都有深入理解,这块在这儿不展开说,后续讲到硬件产品再深入聊;

软件产品:为整个IoT软件服务体验负责。这个是个大模块,再往细的分有 App产品、系统产品、IoT平台产品,如果还有线上渠道,那还有电商产品等;

AI算法产品:为整个AI体验负责。按照技术链路还可以细分为声学前端产品、ASR产品、NLP产品、TTS产品。关于这块的技术,下面我们具体展开来说。

AIoT产品职能与产业链关系图

三、AIoT之语音技术

对于产品经理来说,了解语音技术主要的技术点,可以:

快速收敛问题,帮助开发提高定位和修改问题效率;

输出稳定产品,了解技术原理和边界,才能快速输出稳定的产品服务。这个无论对于C端用户或B端客户来说都是最基本的需求。

我们这里以用户使用语音中控设备控制灯为例(详情可见以下流程图):

语音控制智能家居流程图

用户发出「打开灯」指令,则会经过以下几个步骤:

第一步 拾音

根据使用场景也分为近场拾音(一般3m以内)和 远场拾音(一般3-5m)。这一部分在技术上称为声学前端。

主要原理是通过单mic或mic阵列能准确获取到用户语音信息,为下一步ASR(语音识别)做准备,主要包括以下几个技术点(但不限于,整个链路涉及到很多技术环节,下面主要将跟产品体验比较相关的主要技术点抽离出来):

VAD(Voice Activity Detection),语音活性检测。使用音频特征等进行分析,确定声音的开始与结束点。对于产品来说经常会遇到某条指令没有识别全,比如「打开灯」只识别到了「打」导致最后没有命中相应技能,无法完成用户意图,这时候可能就是VAD异常截断问题;

AEC(Acoustic Echo Cancellation),回声消除。如果当前设备在用mic拾音的同时又在播放音乐等音频内容,那mic会将这设备播放出去的声音再重拾回来,避免再播放出去有回音。对于产品来说这是考核一个有待音频播放功能的智能语音设备必然考核的体验点,比如播放音乐时经常有回音问题,那可能是AEC算法没做好;

BF(Beam Forming),波速成形。用于将单个方向的语音进行增强,削弱无关的声音,使得声音听起来更加干净。对于产品来说这个是在嘈杂环境下提高识别的核心技术点,如果嘈杂环境里你的产品识别差,可以从这个点入手看看。

第二步 ASR(Automatic Speech Recognition)

这一步主要是将前端拾音的语音信息转化成文本信息,将处理的文本信息丢给下一步NLP(自然语言处理)来做处理。主要考核指标识别率和误唤醒等。关于这点hanniman老师有做比较深入的讲解,这里就不多做说明。

第三步 NLP(Natural Language Processing)

自然语言处理的目的是主要是将文本信息转化成机器语言,明确用户意图,在为下一步,触发用户预期的意图做准备。在产品运营侧主要会分为下面几个部分:

Domain,即所属领域,如 音乐、智能家居分别都算是一个领域。领域相当于类别,比如我想创景一个电视控制技能,就先创建一个电视的Domain;

Intent,即意图,用户想要让机器做的事情。如 以本章节「打开灯」这个例子为例,「打开灯」即为用户的行为意图,但同样一个控制意图可能有不同的说法,比如「打开灯」可以说「把灯打开」或「灯被打开」这时需引入一个东西叫Pattern,他是来解决不同说法或句式的问题,产品运营人员可以配置几个常用的句式或说法,然后通过算法进行枚举和泛化;

Slot,即词槽,在本例中,「打开」和「灯」都是词槽。

第四步 平台转发

语音厂商IoT平台→厂商IoT平台→厂商设备。因为智能家居领域较为特殊,从用户维度来看,一个用户可能会有各种不同品牌的智能家居设备;而从市场维度来看,目前智能家居市场品类繁多,碎片化严重。

以天猫精灵为例,目前已接入了600+品牌。单纯用技能方式对接,不利于厂商运营管理和用户端体验。所以大部分语音厂商还会针对智能家居做一个管理平台。

经过上一步NLP的处理信息传给语音厂商的IoT平台,语音厂商的IoT平台会根据用户已经绑定智能家居品牌和设备能力,在将这些信息传给相应的三方厂商IoT平台,最终将控制信息下达给相应的控制设备,完成整个控制链路。

第五步 TTS(Text To Speech)

顾名思义是将文本转成语音,如果你的中控设备带有Speaker,当整个控制链路完成后,可以播报一个结果语音来提升整个产品体验,完成体验闭环。

四、语音技术*AIoT

以上各项技术以排列组合的方式我们很容易算出可以提供给客户25种不同产品技术方案,而对于C端用户产品服务也不计其数。但对于目前很多公司最大的问题在于:如何在于这「汪洋大海」中找到自己的一片天(就连空调都集成语音能力了,很多人都无法理解)。

以下谈谈我对语音技术之于AIoT落地的看法(以下方法对C和B端同样适用):

首先,效率,万事以高效为先。一切新产品或新技术的应用的第一优先考核指标在于相比原先的服务是否提高效率。什么是高效?高效即做同样的事情谁花的时间最短。以「打开电视后我想看湖南卫视」这个用户场景为例,以下是三种不同类型的电视操作路径对比:

传统电视:遥控器的频道键→左右键切换3-4页数(除湖南本省外,其他外省可能把忽然卫视放到3、4页后)→上下键选择到湖南卫视→点击确定。大概需要操作5-6步;

智能电视(不带语音):我的应用→电视猫App→搜索湖南卫视→点击确定。大概要操作4步;

语音电视:一句话「xxx,我要看湖南卫视」,甚至可以直接免唤醒词。只要1步。

其次,成本,要考量在单位时间内所消耗的能量和成本。基于上一点「做同样事情谁花的时间短」除了这一维度还不够,因为速度快并不代表成本低,所以还要考量在单位时间内所消耗的能量和成本。

比如,你花了20块需要2小时,而花60块钱只能算短到1.5个小时,明显性价比不高。

以集成语音能力的智能空调为例。目前市面上此类空调价位在¥6999~¥9999之间,主打高端市场。而一个语音模组的价格在几十块左右,这个成本完全承担得起,而且还提升了其议价空间。

而比如在小家电领域,客单价普遍比较低的领域,这个成本可能就有很大的成本压力了。所以,目前语音模组更广泛应用于大家电如 电视、空调等。所以除了用户场景,成本维度也是重要的考虑因素;

最后,影响力,要考虑做这件事对外部的影响力。即你的产品与用户/客户的交互反馈,主要分为积极影响和消极影响:

积极影响力,比如,接近真人的TTS体验,自然的人机对话体验;

消极影响力,比如,前几个月的Amazon的Echo鬼声事件。

可以从定性(满意度等)和定量(日活、留存等)角度来衡量,但为了方便下面延展,我们可以简单的把积极影响力记为正数,消极影响力记为负数。

AIoT产品服务公式

总结:我把评判一个AIoT产品服务的好坏,结合三要素,总结为如图所示公式:

AIoT产品服务=效率/成本*影响力

通过这个公式我们可以很容易得出:一款好的AIoT产品服务需要具备高效、低成本以及积极影响力,而且这个服务会随着你的正向影响以乘法叠加的方式增长。

同理,我们也可以很快得到一个差的AIoT产品服务是由什么因素决定的。

为了方便大家理解,我们以上面提到的例子,目前空调集成语音能力这个是个好的AIoT产品服务吗?

首先,语音控制相比空调的物理遥控器确实是更方便,假设切换到制冷模式,物理在初始状态下要按两下「模式」键,而语音只要一句话就能解决,效率提高50%;

其次,对于厂商来说,假设一个模组成本是¥50,目前带语音能力的空调普遍售价在¥6999~¥¥9999之间,以6999的价格和35%的毛利率(目前几家空调大厂毛利在这个水平,高端型号肯定毛利更高)来算差不多只占了1%的成本,完全cover的住;

再来,关于影响力,先不说语音控制在某些场景效率比遥控器高,用户买了一个那么贵的空调,还有语音能力(除了控制,还能问问天气等),虽然可能平时基本不咋用,但是至少还有个炫耀的资本。比如,有客人来,可以很装13地说「我这空调可以语音控制哦」,相比不带语音功能的高端空调,确实有一定的附加值。假设以-5~5来做满意度打分,至少给个3分吧;

最后,通过公式我们可以算出整个空调集成语音能力的AIoT产品服务分数为150分。从这个维度来看,空调集成语音能力是有积极价值的。

五、小结

在《技术的本质》中,作者 布莱恩·阿瑟(复杂性科学奠基人) 认为:

技术,是新的技术和生产工艺(例如,早期的汽车)通过被应用和被应用而获得改善,之后在获得进一步的应用和采用,进而创造出正反馈或者收益递增的效用。

目前AIoT行业还在早期阶段,了解语音技术这个「新技术」可以使我们更加从容。祝各位同仁能用这个「新技术」创造出更多正反馈或者效益递增的效用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音技术
    +关注

    关注

    2

    文章

    226

    浏览量

    21271
  • AIoT
    +关注

    关注

    8

    文章

    1406

    浏览量

    30649
收藏 人收藏

    评论

    相关推荐

    基于启英泰伦语音芯片的语音AIoT应用方案,实现家居联控

    启英泰伦于CI-B03ST01S-BK模组,集成有本地语音芯片和WIFI芯片及天线,可以用于各种家电产品的语音AIoT控制方案。和目前市场上的其他产品相比,该应用方案具有如下特点:1、支持远场远距离
    发表于 11-10 17:06

    AIoT为什么是持续技术创新的必备要素?

    作者:Andrew Grant, Imagination Technologies人工智能资深总监 随着许多技术已经在边缘运行,我们开始看到人工智能(AI)和物联网(IoT)的结合,即人工智能物联网
    发表于 01-29 07:35

    前500名免费,润和联合华为云推出ModelBox AIoT应用开发训练营

    自2017年开始,“AIoT”一词便开始频频刷屏,成为物联网的行业热词。“AIoT”即“AI+IoT”,指的是人工智能技术与物联网在实际应用中的落地融合。当前,已经有越来越多的人将AI
    发表于 10-11 15:02

    英码科技精彩亮相火爆的IOTE 2023,多面赋能AIoT产业发展!

    产品,包括覆盖多层次算力的智能工作站(边缘计算盒子)、AI加速卡等;同时向大家展示自研的AI技术服务——“深元”0代码移植工具链和创新性的行业解决方案,赋能更多AIoT产业生态企业快速具备AI能力
    发表于 09-25 10:03

    AIoT走向落地的关键

    要说2018年的科技界网红,当是AIoT莫属。一边以腾讯、阿里为代表的传统行业巨头纷纷拿出重要资源高调投入AIoT的怀抱;一边以涂鸦智能为代表AIoT的创新企业,不仅逆势成为资本市场的“香饽饽”,还迎来了公司体量上的爆发性增长。
    的头像 发表于 02-19 13:44 3706次阅读

    小米成立AIoT战略委员会,5年100亿All in AIoT落地

    委员会隶属于集团技术委员会,负责促进 AIoT 相关业务和技术部门的协同,推动战略落地执行。 文件显示,任命范典为 AIoT 战略委员会主席
    发表于 03-26 14:28 347次阅读

    AIOT行业未来会是怎样的趋势

    人工智能技术和物联网技术的发展落地共同推动AIoT的发展和成熟。
    发表于 10-11 16:51 2336次阅读

    AIOT技术在智慧社区落地难的原因是什么

    AIot技术逐渐渗透,促使智慧社建设需求发生很大变化。
    发表于 10-29 16:52 1093次阅读

    智能语音产业需要什么技术的推动

    AIoT领域,一项重要的核心技术就是智能语音,对IoT设备影响最大的产品是智能语音,智能语音助手将对IoT设备带来巨大的
    发表于 12-26 11:33 871次阅读

    云知声最佳AIoT语音赋能解决方案破解AIoT之困

    近日,雷锋网发布《产业科技·最具商用价值榜》,云知声荣获城市AIoT单元“最佳AIoT语音赋能解决方案”奖项。 “产业科技 · 最具商用价值榜”前身为“AI最佳成长榜”,于2017年正式发起,已历经
    的头像 发表于 09-21 19:47 1282次阅读

    智能语音落地灯:离线语音控制技术的优势与应用

    离线语音控制技术还使得智能语音落地灯的亮度可以自由调节。根据不同的场景和需求,用户可以通过语音指令对灯的亮度进行调节,从完全关闭到最亮,随时
    的头像 发表于 07-13 15:55 1038次阅读
    智能<b class='flag-5'>语音</b><b class='flag-5'>落地</b>灯:离线<b class='flag-5'>语音</b>控制<b class='flag-5'>技术</b>的优势与应用

    离线语音落地灯带来智能化

    通过离线语音技术的应用,用户只需要通过简单的语音指令,就可以轻松地控制落地灯的开关、亮度调节以及颜色变换等功能
    的头像 发表于 08-28 15:43 694次阅读
    离线<b class='flag-5'>语音</b>给<b class='flag-5'>落地</b>灯带来智能化

    广和通携手多家AIoT产业伙伴推动5G RedCap落地部署

    在世界移动通信大会2024期间,广和通宣布与亚旭电脑、广达电脑、普莱德科技等业界领先的AIoT产业伙伴展开紧密合作,共同推进RedCap终端的落地部署。这一举措旨在加速5G技术在物联网领域的应用,为
    的头像 发表于 02-27 09:42 593次阅读

    AIOT是什么意思?AIOT的应用场景和作用

    准的决策和更自动化的操作。 AIoT的核心理念是将AI技术应用于物联网设备和系统中,使其具备感知、学习、推理和决策等能力,从而实现更加智能化的服务和应用场景。 AIoT的应用场景 1. 智能家居:通过
    的头像 发表于 07-12 15:48 800次阅读
    <b class='flag-5'>AIOT</b>是什么意思?<b class='flag-5'>AIOT</b>的应用场景和作用

    什么是AIoTAIoT现状如何 ?

    落地融合。物联网产生、收集来自不同维度的海量数据并存储于云端、边缘端,再通过大数据分析以及更高形式的人工智能技术,实现万物数据化、万物智联化。其目的是建构一种更高级形式的智能化生态体系,在该体系内,不同智能终端设备之间、不同系统平台之间、不同应用场景之间能够实现互融互通
    的头像 发表于 09-23 10:03 551次阅读