企业需要了解图像识别、语音识别、聊天机器人、自然语言生成、情感分析如何改变其业务的运营方式。
人工智能技术正在将其自身融入业务的各个方面。重要的一些人工智能技术包括图像识别、语音识别、聊天机器人、自然语言生成和情感分析。
需要明确的是,每种类型的人工智能技术都代表广泛的类别,通常包括数十个甚至数百个基础组件。反过来,通常将这些组件重组为更复杂的应用程序,为企业创造价值。
例如,百货商店人工智能机器人可以在工作中使用图像识别、视频和语音识别技术。图像识别软件将使其能够检查货架上库存的位置、价格和数量;视频将帮助其避免遇到任何障碍,并确定其在商店中的位置;语音识别组件将使其能够引导和娱乐客户。
为了取得这种成就,这些业务中的人工智能技术通常结合了针对整个任务的特定部分量身定制的各种算法和技术。它们包括符号处理、统计分析、神经网络等等。
以下是对五种人工智能技术的深入阐述,这些技术随着时间的推移而发展,从而极大地改变了企业处理、分析和生成数据的方式。
1.图像识别
企业使用图像识别的各种方式包括:在工厂生产线上进行自动检查,在保险中生成损坏估计,在图像中识别物体,对人员进行计数,控制制造过程,检测诸如顾客进入商店等事件以及生成真实世界的模型。
人工智能技术必须找到一种方法,采用各种人工智能算法可以处理的数字来描述世界。在视觉方面,研究人员发现了如何将一张图片划分成一个像素网格,这样每个像素都可以表示为一个数字。在早期,采用一个数字来描述每个像素的亮度。后来,人们发现可以用三个或更多的数字来描述每个像素中不同颜色的亮度。
20世纪60年代,研究人员开始探索如何使用原始形式的光学字符识别(OCR)技术的软件图像识别功能来识别数字文档中的字符。其他研究人员开始探索基于图像的场景解释技术,试图从二维图像重建三维图像。多年来,这些技术已成为机器视觉行业工具包的一部分。
后来,研究人员发现可以将图像识别组织为一个分层过程,以使其更易于解释日益复杂的现象。例如,黑色和白色像素可能被识别为线条和曲线,而线条和波浪形又被识别为数字的一部分。训练算法来学习基于这些曲线图案而不是每个像素的亮度来解释字符的方法要容易得多。类似地,更容易根据图像是否包含两只眼睛和适当形状的耳朵来确定图像是否是猫,而不是根据每个像素中颜色的原始亮度来确定。
这种处理方式有望推进图像识别领域。然而直到2012年左右,随着AlexNet(一种设计用于支持图像识别的八层卷积神经网络)的发展,研究人员才发现如何扩大这个过程以识别成千上万种不同类型的物体。
诸如AlexNet之类的深度学习技术的优点在于,该模型可以自动学习以不需要人类以编程方式指定每个步骤的方式来执行各种图像识别任务。研究人员指出了如何将神经网络应用于不同类型的问题,该功能也促进了深度学习在其他类型的应用程序中的使用。
如今,图像识别用于识别货架上的产品、图片或视频中的人物,生产流水线上的缺陷以及自动驾驶汽车在街道上遇到的物体。随着冠状病毒疫情的出现,很多企业正在开发应用程序以监视社交距离的规则。
对于企业领导者来说,一个关键的见解是,通常有可能通过在应用程序中使用多种类型的图像识别来创造更多的价值。例如,智能文档处理和文档智能结合了一组人工智能技术,其中包括自然语言处理和机器学习,以捕获难以识别的格式中的数据并将其分类。与光学字符识别(OCR)结合使用,智能文档处理可以分析文档的视觉布局,以确定哪个部分代表产品、发票金额或销售条款,并将该信息提供给其他业务应用程序。
值得注意的是,企业中大多数图像识别应用程序都是高度场景相关的。供应商和研究人员经常宣传新的图像识别改进,例如在识别肿瘤方面击败了医学专家的软件。但是在实践中,仅当图像以正确的角度捕获时,人工智能才可以使用一组特定的设备来处理这些放射线图像,而人类则善于分析从许多不同角度捕获的各种图像。
研究人员还发现,在这些图像识别应用程序的一些实现中也潜藏着偏见。为了减少偏见,专家建议对这些应用程序进行数据训练,这些数据代表将要处理的特定类型的图像。
2.语音识别
需要多种算法将语音转换为文本并准备进行数字处理。尽管语音识别系统变得越来越好,但是即使是当今最好的语音识别系统也仍然容易出错,因此在安全关键型应用(例如医疗数据捕获)中需要进行一些验证。
贝尔实验室的研究人员于1952年开发了首个用于识别单个数字的语音识别系统。到1962年,IBM公司推出了Shoebox机器,该机器可以理解16个单词。到1980年代中期,研究人员开始使用统计技术(例如隐马尔可夫模型)来开发可以理解2万个单词的应用程序,但其单词之间会有停顿。第一款消费者听写产品Dragon Dictate于1990年发布,可以根据语音自动键入文字。然后,AT&T公司推出了一种语音识别应用程序,该程序无需人工即可路由呼叫。这些早期的系统或者具有适合特定环境的小型词汇表,需要由单个声音进行大量训练。
研究人员从2010年开始发现了将深度神经网络应用于语音识别的方法。这一增长的主要推动力之一是需要找到更好的方法来代表不同类型智能音箱的声音特征。这要求探索出更好的方法,将原始音频数据转换为人类习惯于收听的独特声音(称为音素)(例如,“汽车”一词中的“c”)。
研究人员还将基本的语音识别结果与更好的场景结合起来,以区分同音异义词(bear/bare)。云计算服务现在提供了各种核心的语音转文本服务,开发人员随后将其融入各种企业工作流程中。
基本的语音识别功能通过云计算服务(如微软Cortana、谷歌Now和苹果Siri)嵌入到现代智能手机和电脑中。亚马逊公司利用语音识别技术推出了一种新的方式,通过Alexa语音服务在智能手机之外连接互联网。这些服务通常在云平台中完成繁重的工作。最近,谷歌公司通过开发更有效的算法来提高标准,这些算法可以在其Pixel手机上本地运行语音识别应用程序。
语音识别技术在企业中的使用正在增加。一些供应商还开始开发用于自动记录电话会议和现场会议的应用程序,以达到合规目的或更好地记录决策过程。自动化语音识别还可以帮助监视呼叫中心的活动,以确保工作人员遵循正确的程序,从而使管理人员不必听到每个呼叫。语音识别应用程序也正用于为国际旅行者自动进行语言翻译。这项人工智能技术的其他商业应用包括家庭自动化、视频游戏交互以及将视频编入索引的自动隐藏式字幕。
3.聊天机器人
对话式人工智能技术允许应用程序以自然的方式与人类交互。第一个聊天机器人Eliza于1964~1966年在MIT人工智能实验室开发。最早的聊天机器人在词汇量和可以允许的交互类型方面受到限制。这些应用程序使用决策树,该决策树根据查询或用户对问题的答案沿各种路径进行操作。在20世纪80年代到90年代,这些技术扩展到了自动电话应用程序,在其中,通过使用IVR技术的拨号音响应或简单词汇来控制交互。
最近,由于用于解释和响应文本查询的更好的自然语言处理技术,以及与其他服务的更好集成,使得企业能够更容易地自动设置能够响应常见问题的聊天机器人,聊天机器人的应用程序激增,接受命令或自定义对给定用户的响应。最近聊天机器人可应用程序的一个关键见解是开发用于表示用户意图和适当响应的应用程序编程框架。
面向外部的聊天机器人可以帮助实现客户交互的许多方面的自动化。它们还允许企业以一种更具吸引力的方式跨各种社交媒体渠道(例如Facebook)进行推广。
企业的应用程序开发和部署方面已经看到了使用聊天机器人技术的爆炸式增长,该技术将聊天机器人与可自动配置应用程序和基础设施并生成报告的操作工具结合在一起。聊天机器人集成使团队可以记录其流程,从而更轻松地应对重复出现的问题,或者确定过去特定流程的执行方式。
聊天机器人工具开始进入业务的其他方面,以帮助记录部门内部或部门之间的各种通信,特别是随着越来越多的公司采用Slack和Microsoft Teams等消息传递应用程序。财务部门可以使用聊天机器人来生成和跟踪重要业务指标的状态。销售团队可以使用聊天机器人收集有关关键客户的数据。
聊天机器人还可以帮助促进其他类型的内部交互。例如,员工可能会询问人力资源聊天机器人,以询问有关其福利状态的问题或要求休假。企业还使用聊天机器人来自动化与IT系统管理的交互,以处理简单问题或自动分类更复杂的问题。
4.自然语言的产生
随着数据量的增长,可能很难为员工或客户确定正确的信息优先级。自然语言生成(NLG)应用程序可以帮助查找、组织和总结给定用户的最适当见解。
根据业务用例的不同,这种人工智能技术有不同的风格。自然语言生成开始作为商业智能和分析应用程序的前端添加,作为Gartner公司创造的一个新的应用程序类别的一部分。这些技术结合了解释纯文本查询和生成纯英语分析的适当摘要的能力。例如,美国航空航天局(USAA)构建了一个自然语言生成(NLG)应用程序,以改进它向商业用户提供的关于不同保险产品销售情况的答案。
这种人工智能技术的另一个特点是改进了向用户展示产品信息的方式。在这些类型的应用程序中,自然语言生成引擎可以根据用户的偏好自定义产品的描述。例如,可能会向更多的技术用户深入介绍诸如新手机耳机之类的产品的技术特性,而会向注重时尚的买家提供有关其外观和感觉的审美描述。自然语言生成(NLG)还可以帮助改善将内容翻译到新市场的方式。
Trulia公司正在使用自然语言生成(NLG)自动生成用于房地产列表的社区描述。自然语言生成(NLG)还被用于为美联社制作基本的新闻文章。Esquire Singapore公司甚至精心制作了一本特刊,里面刊载了人工智能应用的故事。然而,这项人工智能技术还处于起步阶段,专家提醒企业和医疗等关键任务应用需要新型的质量控制。
尽管如此,企业仍可能会受益于自然语言处理框架的各种最新改进。新的自然语言处理指标正在出现,以帮助企业评估给定框架的效用并改善自然语言生成(NLG)应用程序的这些实现。
5.情绪分析
人们在撰写有关事件、品牌、政客和其他事物的文章时,通常会表达出不同的情感类型和强度。情绪分析领域始于20世纪50年代,当时市场营销人员分析了书面文件的语气。但这是一个非常人工的过程。不过,现在几乎每个人都在社交媒体、博客、新闻评论、评论、支持论坛和与公司的通信中留下了情感的数字痕迹。
包括自然语言处理、机器学习和统计在内的各种人工智能技术都用于分析这些数字足迹的情感基调。这些工具有助于跟踪产品或服务的更改如何影响客户,而无需直接询问人们。它也有助于密切关注竞争对手的产品和活动。
情绪分析的另一个用例可以识别所谓的品牌影响者,从而使企业与个人建立更牢固的关系,他们可以就如何改善服务或产品提供更好的建议。
情绪分析还可以帮助确定有关客户或潜在客户可能感兴趣的事物的重要趋势,以便企业可以改善其当前产品或创建新产品以满足这些需求。企业还可以使用情绪分析来确定其品牌可能受损的特定原因,例如等待时间长、质量差或构思不佳。
企业在内部也在业务中使用这项人工智能技术来帮助理解和提高员工的士气和福利。在这个用例中,情绪分析可以分析员工的职位,以帮助理解重要的问题或管理人员的变化可能对他们产生的影响。
更复杂的情感分析应用程序使用人工智能来理解声音和面部表情所传达的情感。该分析可以帮助识别支持电话期间的情绪变化,或评估顾客对商店货架上新产品的看法。Netflix甚至尝试使用面部表情情感分析来改进电影预告片。然而,一些研究人员警告说,情绪分析的这些应用可能会受到可靠性、特异性和概括性问题的影响。
责任编辑:tzh
-
机器人
+关注
关注
211文章
28379浏览量
206912 -
图像识别
+关注
关注
9文章
520浏览量
38267 -
人工智能
+关注
关注
1791文章
47183浏览量
238241
发布评论请先 登录
相关推荐
评论