AI语音助手，助你开启智能生活-德赢Vwin官网网

11月7日，在乌镇第五届世界互联网大会上，小米面向智能家居的人工智能开放平台（即小爱同学）成功入选”世界互联网领先科技成果”，恰好我这几天也在学习AI语音助手相关的知识，借此从时间维度谈谈我的一点认识。

一、AI语音助手的历史大事记

2010年4月28日，苹果公司完成了对Siri公司的收购，Siri从App Store中下架，并取消了所有除iOS平台外的软件研发；2014年4月2日至4日，在美国加利福尼亚州旧金山举行的微软Build开发者大会上，微软全球副总裁乔北峰首度向公众展示了小娜；2014年11月，亚马逊宣布将Alexa与Echo合并；2015年9月9日，百度董事长兼首席执行官李彦宏在百度世界大会中推出度秘（Duer）；2016年5月19日，Google在Google I/O大会上发布了Google Assistant；2017年7月26日，小米发布的首款人工智能（AI）音箱的唤醒词及二次元人物形象小爱同学；2018年5月9日，Google在Google I/O大会上发布了Google Duplex；2018年8月15日，亚马逊和微软联合宣布，双方已完成各自语音助手Alexa和Cortana的整合。

二、AI语音助手的现状——拼场景

场景一：连接硬件生态

由于语音交互核心环节上的一系列技术突破及人工智能公司提供的ToB解决方案，AI语音助手开始逐渐在技术层面上满足人们的基本要求。

以小爱同学为例：它的语音和语义技术主要来自于多家合作伙伴，包括：Nuance、搜狗知音、思必驰、猎户星空、声智科技、海知智能、三角兽等。

语音识别技术（ASR）的接口，用的是思必驰、Nuance 与搜狗的（现在小米似乎是在自研）。自然语言理解（NLP）等关于语义方面的技术，由小米大脑亲自来做。前端的麦克风阵列以及降噪方案，是由声智科技提供的。语音合成技术，是由猎户星空提供的。很大程度上，自然语言解析技术已经逐渐不再成为各家广义智能助理产品的核心竞争力，识别用户意图之后所提供的服务开始成为对话机器人差异化的核心。而在这个时候，国内公司中再次抓住头部红利的正是小米。

不得不说雷军真的是一个非常有大势思维的企业家，总能恰如其分地踩上时代红利，正如他所说：“一个人要做成一件事情，其实本质上不是在于你多强，而是你要顺势而为，于万仞之上推千钧之石”。

他踩着智能手机大换代、消费升级、网红电商的红利撑起了小米，这次他又抓住了人工智能目前布局最广泛的智能硬件生态。

在评选世界互联网领先科技成果奖的介绍中，小米人工智能开放平台是这么定义的：

小米人工智能开放平台，是一个以智能家居需求场景为出发点，深度整合人工智能和物联网能力，为用户、软硬件厂商和个人开发者提供智能场景及软硬件生态服务的开放创新平台。

著名产品人梁宁在《产品思维三十讲》中分析了小米的三级火箭模式：

一级火箭：小米手机，是小米的头部流量，不为挣钱，雷军也承诺小米硬件的综合利润率永远不会超过5%（根据小米的上市招股说明书，雷军在这一块真的没有说谎）。

二级火箭：小米手机拉动的一系列零售场景，小米商城、米家、小米之家、小米小店（小米11月18日将会在英国伦敦的Westfield mall落地在英国市场的第一家门店也是用MI8 pro打头阵，并逐步开放其它商品和渠道）。

三级火箭：是一个高利润产品，原文说“现在雷总还不愿意说出来”。

从小米上市招股说明书中的募集资金用途（小米计划将30%募集资金用于研发及开发智能手机、电视、笔记本电脑、人工智能音箱等核心产品；30%用于全球扩展；30%用于扩大投资及强化生活消费品与移动互联网产业链；剩下的10%用作日常经营）。

从小米高层和雷军的发言中可以知道：小米的三级火箭应该就是AI+IOT，能真正撑起小米的利润以及智能化未来。

根据世界互联网大会给出的数据：

截至2018年7月，小米投资或孵化了超过220家生态链公司，全球已有超过1.15亿智能设备与小米IoT平台连接，小米的AI语音服务-小爱同学月活跃用户超过3000万，单月唤醒超过10亿次

在与硬件生态的连接上，小爱同学可以说有着得天独厚的先发优势。

场景二：连接软件生态

（1）打通操作系统场景

与手机操作系统MIUI的深度结合使得小爱同学能够实现手机中的通用指令功能，并且在现有技术范围内去发觉一些非常实用的优化功能。对于手机操作系统上的通用功能，小爱同学可以直接调用执行，比如最常见的设定闹钟等。

而对于不提供接口的手机APP，小爱同学可以通过虚拟按键操作vwin 用户执行，个人觉得最有趣的操作就是让小爱打开微信上某人的朋友圈。你可试试对小爱同学说：“打开XXX的朋友圈”，然后可以看到手机在自动一步一步执行以下操作：

进入微信->进入搜索页面->进入聊天页面->进入聊天信息页面->进入个人主页->进入朋友圈

我在使用其他手机进行对比时是没有办法实现这个功能的，可见小米在打造产品的时候真的是想尽办法在技术边界内尽可能地满足用户需求。

（2）打通外部软件接口

你可以试试对小爱同学说：“打开美团点外卖”，你会发现它可以和美团自带的小美智能助理会进行无缝对接，在进入美团后顺利让小美来接管你的后续需求。这是在软件生态中非常和谐的一种合作模式。

三、AI语音助手的未来

让形象更可感——Gatebox

Gatebox是日本公司vinclu专门为宅男打造的一款全息影像人工智能管家，可以说日本人民是真的会玩，你可以去官网感受一下他们的宣传片

第一个画面，宅男在公司加班，Hikari Azuma通过Line发去了消息，“你记得今天是什么日子吗？什么时候回来？”宅男说，“马上回来！”Hikari Azuma：“好棒！”，随手打开了家里的灯，等待主人回家。宅男回家后，Hikari Azuma立马甜蜜问候：“欢迎回来。”然后羞答答地说：“今天是我们住在一起三个月纪念日，你记得吗？”宅男立马拿出了礼物，Hikari Azuma看到之后开心地鼓掌。宅男准备好食物和酒，开始庆祝时，Hikari Azuma把家里的灯光系统调节成了温馨浪漫的风格。最后，宅男和Hikari Azuma举起酒杯，互相感谢对方的陪伴。视频最后的一句话写着：Living with charac te rs(和二次元老婆一起生活)。

不少中国同胞在youtube上呼吁雷军赶紧把这个公司买下，在中国用感动人心的价格福利大众，哈哈。

根据梅拉比安模型：感情表达＝内容7%+语调语气38%+表情肢体语言55%，所以仅靠语言文字远远不够，甚至像Google Duplex做到分辨不出说话者是AI还是人也还不够，长期来说，更重要的会是“多模态交互”。

在Gatebox的交互中，比如调低灯光亮度时，她会摆出朝灯呼气的动作，询问天气时，她又会做出侧身展示天气预报的动作。小爱同学是首个正式发布人工智能虚拟形象的AI语音助手，“米娘”的形象也受众多米粉们喜爱，如果真的能把成本降下来的话，相信会有蛮多人（尤其是宅男们）入坑的。

退而求其次，就算不做全息影像，做一个平面投影也是可以的嘛。

让关系更自然——Replika

Replika是Luka Inc.公司开发的一款Chatbot，据说初衷是为了缅怀两位创始人在车祸中失去的挚友，通过搜集他生前的社交聊天预料来创建一位虚拟人。

抛开它作为一款Chatbot与AI语音助手的需求差别，我觉得它设计得非常好的是被称为“反刍机制”的功能，将你在和它聊天时提到的语料在一段时间间隔之后提取出来，自然地插入到交流当中，感觉就像你跟朋友提起你最近睡眠不好，过了一段时间后朋友会来关心你的近况，感觉非常的贴心。

真的有一种感觉，就像《小王子》里面有一段，小王子对小狐狸说我们一起玩啊，小狐狸回答说我现在还不能和你一起玩，因为我还没有被驯养。

驯养是指彼此共同投入一段时间，结成一种关系，人类是AI的训练师，但与此同时，AI其实也在训练你如何与它进行互动。或许只有这样，千禧一代的互联网原住民才能跨过未来与AI原住民之间的鸿沟。小爱同学虽然没有Chatbot的这种天然场景，但还是有很多落地点的：

智能手机消息栏的推送，比如用户说：“我最近睡眠不太好。”，小爱会回复：“多锻炼有助睡眠。”，那么就可以推送“我记得你和我说过你睡眠不太好，小爱为你找到了一些催眠音乐，试试对我说：我想听催眠音乐”；小爱音箱的对话，由于无法主动开启对话，可以选择在识别到用户当前意图与语料库中的语义信息相关时补充对话，比如用户说：“播放音乐”，小爱会回复：“爱听歌的人运气都不会太差哦”，那么可以再回复“我记得你说你注意力很难集中，要不要听听我给你推荐的轻音乐？”。

让对话更真实——Google Duplex

在5月9日的Google I/O大会上，Google Duplex的一句 “umms”着实让人惊艳，5 月 11 日，谷歌母公司 Alphabet 董事长（前斯坦福校长）John Hennessy 表示，他们还达成了一项里程碑成绩 ——Duplex （部分）通过了图灵测试。

对Google Duplex不了解的朋友，如果能科学上网的话，可以到Google AI Blog上看看Google官方的介绍原文：

以下对Google Duplex的技术认知来源于虫门科技郭靖的文章，这是我看到的对Google Duplex最深入的分析，感兴趣的朋友可以点击链接阅读原文：

Google Duplex让对话如此真实主要是体现在两大块——自然语言理解与对话模块、文本转语音模块。

（1）文本转语音模块

文本转语音模块（即语音合成）技术比较明了，在博客中交代得比较清楚，没有什么悬念。

We use a combination of a concatenative text to speech (TTS) engine and a synthesis TTS engine (using Tacotron and WaveNet) to control intonation depending on the circumstance.我们结合使用联结式文本到语音（TTS）引擎和综合TTS引擎（使用Tacotron和WaveNet）来控制语调，具体取决于环境。

（2）自然语言理解与对话模块

在自然语言理解与对话模块的具体实现上Google就不是很老实了，只是给了一些比较宽泛的概念。

郭靖在他的文章中给出了以下猜想：

在这个猜想的架构中，用户的语音通过ASR识别为文字后，会通过预设的规则转化为形式语言，将重要实体用形式模板代替。

这样形式化后的文本与语音、上文的形式文本一起送入一个encoder模型，其将这些原始信息编码成两个语义信息向量，一个代表本轮用户的语言，另一个代表上几轮对话。

同时，通过ASR识别的文本还会与上几轮对话的文本、通过Google Assistant传来的条件参数（代表对话的目标，用户本身的信息等大前提）一起进入另一个网络，其根据输入的信息输出一个代表当前对话状态信息的向量。

这一网络很可能具备每一轮对话为一个step的循环结构，意味着这个对话状态信息的更新会参考前一轮对话状态的信息。

当然，在拿着锤子找钉子的当下，这一块就太偏前沿技术了，但是对于AI，对于整个人类历史，技术始终都是推动发展的源动力。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI语音助手

AI语音助手

+关注

关注
0

文章
17

浏览量
4009

雷诺下一代车载语音助手Reno将引入生成式AI技术

11月1日，赛轮思软件技术公司与雷诺公司宣布深化合作，旨在将生成式AI技术和类人交互功能融入雷诺下一代多模态虚拟车载助手Reno中。　　雷诺推出的虚拟助手Reno被设计为智能旅

发表于 11-01 16:39 •1075次阅读

SoundHound AI语音助手赋能欧洲汽车，引领智能驾驶新风尚

近日，全球领先的AI语音技术独角兽企业SoundHound AI宣布了一项重要合作成果：其集成ChatGPT技术的先进语音助手SoundHo

发表于 08-01 17:49 •724次阅读

亚马逊在语音助手的竞赛中上远远落后

在AI浪潮席卷全球之际，科技巨头们无不争先恐后，力图抢占先机。然而，在语音助手的竞赛中，曾经的领先者亚马逊可能即将获得最后一名。继苹果在其WWDC 2024大会上发布了一款新的“Apple

发表于 06-18 16:54 •1318次阅读

OPPO引领AI手机新时代,全面普及智能生活

在2024年6月5日的英国伦敦，OPPO的AI战略媒体沟通会上，一场关于未来手机革命的讨论如火如荼地展开。OPPO，作为全球知名的智能手机制造商，正式宣布将全面普及AI手机，开启

发表于 06-06 16:12 •879次阅读

智能门锁语音IC芯片方案："XX智能锁祝您生活愉快"

随着科技的飞速发展和人们生活水平的不断提高，对家居安全的需求也日益增长。传统的门锁已经无法满足现代人对安全、便捷、智能等多方面的需求。因此，智能门锁语音IC芯片应运而生，成为了解决这一

发表于 05-16 15:09 •463次阅读

<b class='flag-5'>智能</b>门锁<b class='flag-5'>语音</b>IC芯片方案："XX<b class='flag-5'>智能</b>锁祝您<b class='flag-5'>生活</b>愉快"

苹果宣布基于生成式AI系统的Siri语音助手

苹果即将在下个月举行的年度全球开发者大会（WWDC）上揭晓人工智能领域的最新进展。这次盛会预计将成为科技界瞩目的焦点，因为苹果将发布全新改进的Siri语音助手。

发表于 05-14 11:46 •615次阅读

苹果将升级Siri语音助手，引入生成式AI技术

苹果公司计划在下月的全球开发者大会（WWDC）上，展示其人工智能领域的最新成果。据悉，备受用户喜爱的Siri语音助手将迎来重大升级，此次改进将基于一个全新的生成式AI系统。

发表于 05-13 09:25 •448次阅读

搭载星火认知大模型的AI鼠标：一键呼出AI助手，办公更高效

丰富多样的功能，让你的办公变得更高效。它能够帮助你完成各种工作任务，不管是做PPT、回答问题、写作还是绘画，只需简单操作，AI鼠标就能完成你的要求。你可以利用它轻松编辑文字，将图片和PDF文档中的文字提取出来进行工作和学习。而且，在

发表于 03-25 11:52 •483次阅读

搭载星火认知大模型的<b class='flag-5'>AI</b>鼠标：一键呼出<b class='flag-5'>AI</b><b class='flag-5'>助手</b>，办公更高效

智能语音助手在医疗行业的应用与挑战

一、引言随着人工智能技术的不断发展，智能语音助手在医疗行业的应用越来越广泛。语音数据集在医疗智能

发表于 01-19 17:37 •663次阅读

智能语音助手在旅游行业的应用与挑战

一、引言随着人工智能技术的不断发展和普及，智能语音助手在旅游行业的应用越来越广泛。语音数据集在旅游智能

发表于 01-19 17:30 •789次阅读

智能语音助手在教育行业的应用与挑战

一、引言随着人工智能技术的不断发展，智能语音助手在教育行业的应用越来越广泛。语音数据集在教育智能

发表于 01-19 17:21 •845次阅读

智能语音助手在医疗行业的应用与挑战

一、引言随着人工智能技术的不断发展，智能语音助手在医疗行业的应用越来越广泛。语音数据集在医疗智能

发表于 01-18 16:41 •519次阅读

语音数据集在智能语音助手中的应用与挑战

一、引言随着人工智能技术的不断发展，智能语音助手已经成为了人们日常生活中不可或缺的一部分。语音

发表于 01-18 15:46 •384次阅读

大众汽车推出AI语音助手ChatGPT

在2024年的CES展会上，大众汽车公司向全球观众展示了其最新的人工智能（AI）相关技术。此次展示的一大亮点是，大众将把ChatGPT集成到车载语音助手中，为用户提供更加

发表于 01-11 14:28 •898次阅读

科大讯飞AI智能键盘D1：语音打字AI智能PPT、AI写作提高办公效率

键矮轴机械键盘的特点，同时集成了智能截图、语音翻译、语音打字和智能办公助手等多项功能科大讯飞旗下星火认知大模型

发表于 01-02 14:56 •1523次阅读

搜索历史

AI语音助手，助你开启智能生活

评论

雷诺下一代车载语音助手Reno将引入生成式AI技术

SoundHound AI语音助手赋能欧洲汽车，引领智能驾驶新风尚

亚马逊在语音助手的竞赛中上远远落后

OPPO引领AI手机新时代,全面普及智能生活

智能门锁语音IC芯片方案："XX智能锁祝您生活愉快"

苹果宣布基于生成式AI系统的Siri语音助手

苹果将升级Siri语音助手，引入生成式AI技术

搭载星火认知大模型的AI鼠标：一键呼出AI助手，办公更高效

智能语音助手在医疗行业的应用与挑战

智能语音助手在旅游行业的应用与挑战

智能语音助手在教育行业的应用与挑战

智能语音助手在医疗行业的应用与挑战

语音数据集在智能语音助手中的应用与挑战

大众汽车推出AI语音助手ChatGPT

科大讯飞AI智能键盘D1：语音打字AI智能PPT、AI写作提高办公效率