0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

天猫精灵大升级 搭配“火眼”变得能听会看

454398 来源:网络整理 2018-03-28 09:52 次阅读

智能音箱从能听到会看,多模态交互将成为趋势。

8 个月时间,在天猫精灵 X1智能音箱从发售到销量 200 万后,阿里巴巴人工智能实验室举行了 2018 年的第一场发布会(3 月 22 日),而这一次发布的核心产品,有点出乎大家意料。

用一个 49 元的手机支架,和几乎人人都有的智能手机,天猫精灵进行了一次变身,不但变得比以前更加聪明,还拥有了全新的“多模态感知系统”。作为 2017 年的行业黑马,本次发布会上让人激动的这件新品不再是硬件,而是重量级的系统升级——AliGenie 2.0,我们不妨先来看看这段官方视频演示:

AI变奏曲:智能音箱从能听到会看

毫无疑问,当天发布会上的主角正是阿里巴巴人工智能实验室的 AliGenie 2.0,它加入了最新的 AI 视觉系统,并尝试去融入更多情感操作。阿里巴巴人工智能实验室负责人浅雪称之为“天猫精灵火眼”。和去年 7 月推出的 AliGenie 1.0 最大的不同在于,2.0 版本从原本能听能说,变成了如今的能看能听能说。

能看是系统升级的重点,“从触觉到听觉,再到视觉,最后是情感反馈,多模态交互是 AliGenie 2.0 的核心”,对于此次系统升级,浅雪认为它最大的不同是人机交互的变化,尤其是因此产生的与众不同的用户体验。

阿里巴巴人工智能实验室负责人 浅雪

搭载“火眼”的天猫精灵,在原本的天猫精灵 X1 上增加了一个手机支架,通过把手机连接到天猫精灵 App,手机屏幕出现了一只可以交互的“天猫”,通过手触摸,它可以简单和人互动。

这只“宠物猫”拥有 AI 识图能力。依靠手机前置摄像头,天猫精灵有了能“看懂”周围事物的“眼睛”,它可以识别 2D 和 3D信息。具体来说,有三个重要能力加入。

第一,当你手拿儿童故事书,或者识字卡靠近,询问天猫精灵“这是什么”时,它可以“看到”并立即为你朗读卡片和故事书的内容。

其次,通过连接阿里健康的数据信息,天猫精灵有了“判断”药品的能力,可以迅速识别 40000 种中国家庭常用药。当你手拿药品盒子在手机摄像头前询问时,这只“猫”会手拿药盒,告诉你它的名称,功效甚至有效周期。

第三,同时也是最让人惊讶的能力,天猫精灵具备了基础的 3D 图像识别的能力。当手持蔬菜、水果等物品靠近摄像头询问时,它可以很快告诉你这是什么物品。

和前两种的 2D 图像识别不同,3D 识别物体要做到的是不论你用何种角度拿着物品靠近摄像头,它都能判断出物体是什么,按照产品总监释空的解释,这(难度)要比 2D 识别大得多。

因为 3D 识别不仅在考验系统对周围环境光线的适应、同时也要对你手持物体角度进行准确把握,还要有足够的数据信息可以搜寻出物体。比如在你拿着一个已经发霉变色的西兰花时,要想被识别出来,就必须知道这还是西兰花,这对于机器来说并不容易。所以目前,天猫精灵能识别出的蔬菜水果不多,只有几十种,但这种能力却对于将来识别更多物品(包括商品),甚至于人脸都具有重要意义。

此外,发布会很重要的一部分在于天猫精灵的边界扩展,看到前面几个功能也许有人能猜到,阅读故事书,教人读书写字,这是面向儿童的能力。而帮你识别药品,告诉你药品功效,再告诉你还有多久会过期,这是更贴近老人的能力。

因此天猫精灵不但联合了国内 12 家少年儿童出版社,对市面上 117 套儿童读物以及绘本进行了有声读物化,还将通过马云公益基金会将天猫精灵带到更多偏远地区,为当地学校教育以及儿童陪伴问题提供新的解决思路。

尽管发布会还另外带来了阿里巴巴人工智能实验室的路由器、投影仪以及迷你版天猫精灵,但最核心的主角无疑就是全新升级的 AliGenie 2.0 系统。这不由得令人好奇,当国内外厂商纷纷升级了带屏幕的智能音箱时,为何阿里巴巴选择了这样一个“非常规”的升级方式?不是通过卖新的产品,而是用 App 和用户自己的手机,这样一个更加“软着陆”的方式来使用新产品(也是新系统)呢?

殊途同归的多模态交互

一个现状是,带有屏幕的智能音箱价格与人们期望存在差距。市面上带屏幕的智能音箱,少则近千元,多则数千元。可以说在目前阶段,当用户考虑用数千元买一个带屏幕的智能音箱时,他们会犹豫,并会和一些其它成熟产品(如 iPad等)比较其是否值得?

这也是摆在包括浅雪在内的团队成员面前同样的问题,因此需要考虑的就是:如何用极低的成本,尽量做到现阶段能实现的最优体验?团队内部对此曾出现过分歧,用释空的说法,最终他们认为,由于目前阶段带屏幕的智能音箱产品不具有足够的议价,因此就做出了用手机来完成这些的方案。

这让人想起了谷歌在VR推进早期曾大力推行的产品“CardBoard”。

纸板做的廉价 VR 眼镜——Google CardBoard

在 VR 产业刚刚起步阶段,市面上 VR 产品不但价格贵,体验也并不优秀,于是谷歌采取了用廉价纸盒做 VR 眼镜的策略,满足了大家在好奇期的想法,并成功向大众普及了 VR 这一概念,这种方式不得不说是有其必要性的。

“我们最关注的事情是如何让每个用户用最低的成本入门就能完全体验。”浅雪说,这种观点最终指向的目标是给每个人做有用有价值的人工智能,所以尝试出这样的方案在意料之中。

但在大方向上,智能音箱不应该仅仅只有语音交互,应该是语音、视觉、情感多模态交互的观点,这却是 AliGenie 系统,乃至整个智能音箱领域目前达成的一个基础共识。

的确,智能音箱优点很多,但尝试过的用户都会认为它不够完美,声音交互的特性让它在很多场景中不够灵活,而要解决这个问题,利用屏幕也许是一个途径,今年开年来,伴随 CES 2018 展会,我们见到了国内外众多带有屏幕的智能音箱,谷歌甚至组建了一个“Smart Display”联盟,想要让这一趋势迅速蔓延开来。

从左到右,LG、联想、JBL 的 Smart Diaplay 产品

在浅雪看来,阿里人工智能系统 AliGenie 2.0 系统升级,它的“能力比一块屏幕更重要”。目前阶段下,通过一个 App 和手机就能体验到的事情,既能让用户拥有更好的心理预期,又能在吸取经验进一步打磨未来产品,这样的尝试能让更多用户理解,有了屏幕交互的智能音箱不同于 iPad,语音控制和屏幕触控也不是互相替代,而是互补关系。

一旦有了这种体验,大家就会发掘出自己真正需要的到底是怎样的智能音箱。如发布会现场演示的功能一样,教育儿童,可以通过看到卡片和图书来给孩子讲故事;帮助老人,可以通过看到药品盒子就说出功能功效和截止日期。这种轻度体验能在生活中慢慢培养人们对于智能音箱的新的认知。

如果说 2017 年是国内智能音箱竞赛元年,那么站在赛道上的阿里巴巴无疑通过双 11 的 100 万台销量成为了行业黑马。而随着 AliGenie 2.0 的推出,2018 年人工智能产品将更具扩展性,多模态,让人更自如的交互无疑将成为接下来各大厂商关注的重点。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6070

    浏览量

    104079
  • vr
    vr
    +关注

    关注

    34

    文章

    9609

    浏览量

    149303
  • 智能音箱
    +关注

    关注

    31

    文章

    1781

    浏览量

    78246
收藏 人收藏

    评论

    相关推荐

    无需网关,支持猫精灵直接控制,拥有蓝牙mesh 组网功能

    可对接 猫精灵等智能音箱,适用于多种智能家居应用场景。 安信可蓝牙模块主要分为PB系列、TB系列、TG系列,今天给大家带来高稳定性的TB系列。 01产品简介 TB-01/TB-02/TB-03F/TB-04/TB-05 ●关键词:无需网关支持
    的头像 发表于06-24 15:56 299次阅读
    无需网关,支持<b class='flag-5'>天</b><b class='flag-5'>猫精灵</b>直接控制,拥有蓝牙mesh 组网功能

    如何清除ESP32 BLE的Mesh信息?

    猫精灵 猫精灵这边有一个三元组数据,如下所示: Product ID(十进制)Product SecretMac地址 1345F769024ACE5E3A67CC3C3C58B16
    发表于06-18 06:07

    符合BLE 5.0,智能手机Mesh组网,可对接猫精灵的蓝牙模组

    可对接 猫精灵等智能音箱,适用于多种智能家居应用场景。 安信可蓝牙模块主要分为PB系列、TB系列、TG系列,今天先给大家带来高性价比的PB系列。 01产品简介 PB-01/PB-02 ●关键词:采用蓝牙5.0协议、支持通过智能手机组建mesh网络 ●应用场景:主要应用于智
    的头像 发表于06-11 14:25 309次阅读
    符合BLE 5.0,智能手机Mesh组网,可对接<b class='flag-5'>天</b><b class='flag-5'>猫精灵</b>的蓝牙模组

    光速进化!易万兆光模块全面升级

    ·光通信宣布10G SFP+/25G SFP28系列光模块产品进行了全新 升级,旨在为客户提供更优质、更高效、更可靠的光通信解决方案。这次 升级不仅是技术的突破,更是对未来光通信发展趋势的深刻洞察和精准把握。
    的头像 发表于05-29 14:26 179次阅读
    光速进化!易<b class='flag-5'>天</b>万兆光模块全面<b class='flag-5'>升级</b>

    求助,关于cubemx升级和Pack升级问题求解

    cubemx使得stm32开发 变得容易了许多,这是非常难得的,但是关于这个cubemx的 升级和对应pack的安装我有点疑问: 之前我使用cubemxV4.10+F4pack v1.8.0,创建了一个
    发表于05-11 08:02

    IAP在线升级,当STM32f107识别U盘时,U盘使用多次后识别过程会变得很慢为什么呢?

    本人在做IAP在线 升级,当STM32f107芯片识别U盘时候,U盘使用多次后,识别过程会 变得很慢,这是为什么呢?是U盘老化还是芯片原因呢?
    发表于03-21 07:03

    导线精灵——导线覆冰智能识别监测装置

    导线 精灵又叫观冰 精灵、覆冰 精灵,顾名思义,可通过工业摄像机采集的线路覆冰前后图像,通过算法来比较覆冰前后图像的便捷轮廓来预测输电线路覆冰的厚度,了解线路覆冰状态,并且集温度、弧垂、气象、视频等传感
    的头像 发表于01-18 10:33 445次阅读
    导线<b class='flag-5'>精灵</b>——导线覆冰智能识别监测装置

    HLK-B35串口转WiFi模块的应用案例

    HLK-B35串口转WiFi模块,自带2.4G WiFi + BLE5.0 蓝牙,支持AP、STA及BLE混合模式,价格低至个位数,支持接入阿里云,定制版本可接入 猫精灵,在国内外均有多款成熟案例。
    的头像 发表于12-25 10:37 900次阅读

    小Q精灵微气象产品使用说明

    德赢Vwin官网 网站提供《小Q 精灵微气象产品使用说明.docx》资料免费下载
    发表于12-25 09:24 0次下载

    猫精灵诞生记——如何在互联网公司做硬件》宝书读后感

    如下: 三、内容精读 在买第一台 猫精灵之前,那时候正在推方糖,好像就几十块吧,我的想法是, 猫精灵语音音箱才几十块钱,肯定是粗制滥造,我才不愿意买一个“电子垃圾”回家,结果有一次机
    发表于11-20 10:59

    猫精灵诞生记——如何在互联网公司做硬件》+消费电子开发实践的指导性书籍

    首先,非常感谢发烧友论坛能够提供本次书籍评测的活动,并及其的有幸能够获得这次评测的机会。 做为 猫精灵千万用户的其中一员,深切的感受到 猫精灵的快速进步。从2017年上市至今已有超过千
    发表于10-30 22:37

    百度发布全新AI互动式搜索 简单搜索AI升级

    搜索APP。百度旗下简单搜索17日大 升级,简单搜索,首个AI互动式搜索引擎, 能听会看,聪明懂你。全新的百度搜索为用户带来全新的搜索体验。回答更灵活、结论更清晰、更懂逻辑。 在简单搜索不管用户输入的问题有多长有多复杂,简单搜索都会竭尽所能直接给你答案;而且用户可以和搜索对话
    的头像 发表于10-17 12:34 1144次阅读

    猫精灵诞生记——如何在互联网公司做硬件》+ 理论结合实践-难得的介绍硬件产品开发的好书(五星推荐)

    前言 一开始看到本书名《 猫精灵诞生记——如何在互联网公司做硬件》猜测应该是一本讲互联网项目案例的书,可能就拿来当小说看看即可。直到拿到本书看到目录内容,才发现出乎意料,本书实际是一本干货满满
    发表于10-11 22:26

    猫精灵语音模组(MSV-BEM-V01023)分享

    MSV-BEM-V01023模组是一款集成高性能WIFI/BT/MESH模组,支持IEEE 802.11 b/g/n的WiFi协议和BT5.0。模组主要适用于智能家电/智能家居等智能物联网应用,可实现语音控制、蓝牙播放和LE MESH应用。
    的头像 发表于10-08 14:16 818次阅读
    <b class='flag-5'>天</b><b class='flag-5'>猫精灵</b>语音模组(MSV-BEM-V01023)分享

    【书籍评测活动NO.22】猫精灵诞生记——如何在互联网公司做硬件

    升级上,更是团队对硬件的一次重新审视。 《 猫精灵诞生记——如何在互联网公司做硬件》 主要内容本书系统地讲解了智能硬件开发中的各个子系统,全书共有7章,系统地论述了ESD防护设计、EMI设计、热
    发表于08-29 14:34