《自动化学报》—大数据智能决策

大数据智能决策

来源：《自动化学报》，作者于洪等

摘要在全球信息化快速发展的背景下,大数据已经成为一种战略资源.各行各业的决策活动在频度、广度及复杂性上较以往有着本质的不同.决策过程中的不确定性因素增多,决策分析的难度不断加大.传统的数据分析方法以及基于人工经验的决策已难以满足大数据时代的决策需求,大数据驱动的智能决策将成为决策研究的主旋律.该文结合大数据特性,对大数据决策的特点进行了归纳,并从智能决策支持系统、不确定性处理、信息融合、关联分析和增量分析等方面综述了大数据智能决策的研究与发展现状,讨论了大数据智能决策依然面临的挑战,并对一些潜在的研究方向进行了展望分析.

关键词大数据,智能决策,不确定性,信息融合,关联分析,增量式学习

当今社会处于一个信息技术高速发展时期,数据信息的交互、共享与开放程度持续加快,使得各行业领域的数据信息呈爆炸式增长.“大数据时代” 如约而至,并成为当今社会的代名词.大数据以其蕴藏巨大的经济、社会和科研价值受到社会各界的广泛关注[1].2012 年1 月,达沃斯世界经济论坛发布的大数据报告“Big data,big impact:new possibilities for international development” 将大数据列为和货币与黄金同等重要的新经济资产[2].2012 年5 月,联合国发布的Big Data for Development:Challenges& Opportunities 白皮书指出,大数据是联合国和各国政府的一个历史性机遇,利用大数据进行决策,是提升国家治理能力,实现治理能力现代化的必然要求,可以帮助政府更好地参与经济社会的运行与发展[3].在科研领域,大数据正引领数据密集型科学(Data-intensive science) 的到来,形成继实验科学、理论科学以及计算科学之后的第四科学范式[4],有望推动传统科学的假设驱动模式向基于大数据探索的数据密集型方法转变.在全球信息化快速发展的背景下,大数据已逐渐成为世界各国的基础性战略资源,运用大数据推动社会经济发展正成为趋势.

现阶段加快发展智能经济、智能服务和智能制造是我国经济增长的内在需求和必然选择.目前我国处于工业化和信息化的深度融合时期,我国制造业正处于从价值链的低端向中高端、从中国制造向中国创造转变的关键历史时期,发展基于大数据的人工智能新技术是实现从制造大国向制造强国迈进的战略举措.在此背景之下,国家相继出台了“‘互联网+’ 行动计划” 和“中国制造2025” 战略规划,特别是国务院颁布的“促进大数据发展行动纲要” 和“新一代人工智能发展规划” 都将大数据智能作为重点发展方向,大数据的战略资源地位进一步凸显.近年来,以大数据与人工智能技术为基础的“智能制造[5]” 成为推动大数据从概念到落地的重要模式和手段.从大数据的供给需求来看,智能制造的核心要义便是在两化融合的基础上构建智能分析优化系统“工业大脑”,对大数据进行智能化分析进而实现智能决策.

决策存在于人类一切实践活动当中.小到一台机器的操作,大到一个国家的治理,都离不开决策.例如,工业领域的操作优化与资源分配、商业领域的个性化推荐与供应商选择、交通领域的车流控制与路径导航、医疗领域的疾病诊断与治疗策略等都属于决策范畴.随着社会节奏的持续加快,来自各领域行业的决策活动在频度、广度及复杂性上较以往都有着本质的提高.决策问题的不确定性程度随着决策环境的开放程度以及决策资源的变化程度而越来越大.传统的基于人工经验、直觉及少量数据分析的决策方式已经远不能满足日益个性化、多样化、复杂化的决策需求.在当前信息开放与交互的经营环境下,机遇与挑战并存.如何把握机遇,这就需要企业或组织具备出色的决策能力.在这个过程中大数据正扮演着越来越重要的角色.

大数据作为一种重要的信息资产,可望为人们提供全面的、精准的、实时的商业洞察和决策指导.杨善林院士等指出,大数据的价值在于其“决策有用性”,通过分析、挖掘来发现其中蕴藏的知识,可以为各种实际应用提供其他资源难以提供的决策支持[6].美国应用信息经济学家Hubbard 认为“一切皆可量化”,并积极倡导数据化决策[7].纽约大学Provost教授等认为数据科学的终极目标就是改善决策[8].从数据到知识,从知识到决策,是当前大数据智能的计算范式[9],研究大数据的意义就是不断提高“从数据到决策的能力”.随着大数据技术的发展,人们传统的决策模式与思维方式正在发生着变革,基于大数据的决策方式正逐渐成为决策应用与研究领域的主旋律,大数据决策时代已经到来.大数据能够突破事物之间隐性因素无法被量化的瓶颈,充分阐述生产的主客体和生产全过程、全时段的客观状态,通过智能化分析和预测判断来提高企业的决策能力[10].在商业领域,利用大数据相关分析,可以更加精准地了解客户的消费行为,帮助决策者挖掘新的商业模式,制定商品价格,实现供应商协同工作,缓和供需之间的矛盾,控制预算开支.例如,全球零售巨头沃尔玛(Wal-Mart),通过对销售交易大数据的知识获取,成功用于价格策略和推荐活动中的决策支持[11].而在工业领域,为实现智能制造,每个影响生产决策的因素都可以经过工业大数据的预测,以直观明了的量化信息形式加以呈现,方便决策者对制造能力进行整体评估,进而快速有效地制定各项生产决策,优化劳动力投入,避免产能过剩[10].目前,百度的工业大数据监测平台已经应用到汽车、日化等制造行业.三一重工则利用大数据分析技术为智能工程机械物联网提供决策支持,推进了制造服务化的步伐.Google 公司旗下的AlphaGo 以4:1 的总比分战胜世界围棋冠军李世石同样是大数据决策颇具代表性的案例.

基于大数据的科学决策,是公共管理、工业制造、医疗健康、金融服务等众多行业领域未来发展的方向和目标.如何进行大数据的智能分析与科学决策,实现由数据优势向决策优势的转化,仍然是当前大数据应用研究中的关键问题.然而,对大数据的分析和处理在不同行业和领域均存在着巨大的挑战,大数据的大体量、高通量、多源异构性和不确定性等对传统的数据处理硬件设备和软件处理方法均构成前所未有的挑战.目前,机器学习、数据挖掘及统计理论等传统理论方法已经广泛地应用于大数据分析,但多数方法是建立在“独立同分布” 的假设之上,难以应对大数据的不确定性显著、关联复杂、动态增长、来源和分布广泛等问题,多数只能挖掘到底层的数据特征,而对于挖掘高层次的符合人类认知的知识依然无法取得较好的效果,难以高效地将大数据转化为决策价值.基于大数据的智能决策是一门集应用性和科研性于一体的学科领域,目前还存在众多待研究的问题.大数据智能决策在内涵外延、模型理论、技术方法及实施策略等方面还需要人们继续投入更多的研究与实践.

本文旨在综述大数据决策的特点以及大数据决策技术的发展现状,分析大数据智能决策面临的问题与挑战,并对一些潜在研究方向进行展望.文章结构如下:第1 节介绍了大数据的概念及特性,总结了大数据决策的特点; 第2 节从智能决策支持系统、基于不确定性分析的智能决策、基于信息融合的智能决策、基于关联分析的智能决策和基于增量分析的智能决策五个方面综述了大数据智能决策的研究与发展现状; 第3 节讨论了大数据智能决策面临的挑战与发展趋势; 第4 节为结束语.

1 大数据决策

1.1 大数据的概念及特性

由于不同领域的大数据在特性上存在差异,并且人们分析大数据的背景和应用大数据的目的不同,因此不同的领域专家对大数据的定义也各不相同.高德纳咨询公司、维基百科、美国国家科学基金会分别从不同的角度给出了大数据的定义.我国的《工业大数据白皮书(2019 版)》还对工业大数据进行了定义[12].简言之,大数据就是无法在合理时间内利用现有的数据处理手段进行诸如存储、管理、抓取等分析和处理的数据集合[13].

有关大数据的特性,业界普遍将其归纳为4V 特性:一是数据体量(Volume) 大,如一些电商企业日常处理PB 级别的数据已经常态化; 二是数据类型多样(Variety),如在工业大数据中数据类型包含了数值、文本、图片、音频、视频以及传感器信号等;三是大数据的价值(Value) 巨大,但价值密度稀疏,需要通过分析和挖掘来获取数据当中有价值的信息;四是大数据的高通量(Velocity),它除了指数据高速产生以外,还意味着数据的采集与分析过程必须迅速及时,以满足用户“及时、实时” 的决策需求.

在特定领域,大数据还有着特有的性质.如在工业领域,人们还强调大数据的实时性、闭环性、强关联性、多层面不规则采样性、多时空时间序列性等[14]; 在管理与商业领域,人们更关注大数据的商用价值,并提出大数据应用的5R 模型,即相关性(Relevant)、实时性(Real-time)、真实性(Realistic)、可靠性(Reliable)、投资回报(ROI)[13].在科研领域,Wang 等着重分析了大数据的不确定性特征[15].Wu等则从大数据的异构(Heterogeneous)、自治(Autonomous)、复杂(Complex)、演化(Evolving) 四个角度提出了描述大数据特性的HACE 定理[16].

1.2 大数据决策及其特点

决策是人们为实现某一特定的目标,在占有一定的信息和经验(知识) 的基础上,根据主客观条件的可能性,提出各种可行方案,采用一定的科学方法和手段,对解决问题的方案进行比较、分析和评价,并最终进行方案选择的全过程.从本质上来讲,决策通常是目标驱动的行为,是目标导向下的问题求解过程,该过程也广泛地被认为是人类的认知过程.大数据决策便是以大数据为主要驱动的决策方式.随着大数据技术的发展,大数据逐渐成为人们获取对事物和问题更深层次认知的决策资源,特别是人工智能技术与大数据的深度融合,为复杂决策的建模和分析提供了强有力的工具.

随着大数据应用越来越多地服务于人们的日常生活,基于大数据的决策方式将形成其固有的特性和潜在的趋势,在此我们将它们一并归纳为大数据决策的特点.在固有特性方面:大数据的实时产生及动态变化决定了大数据决策的动态性; 大数据的多方位感知意味着通过多源数据的整合可以实现更加全面的决策; 大数据潜在的不确定性也使得决策问题的求解过程呈现不确定性特征.在潜在趋势方面:相关分析或将代替因果分析,成为获取大数据隐含知识更有效的手段; 用户的兴趣偏好在大数据时代将更受关注,更多的商业决策向满足个性化需求转变.基于以上理解,本文对大数据决策的特点进行如下总结:

1) 大数据决策的动态特性

大数据是对事物客观表象和演化规律的抽象表达,其动态性和增量性是对事物状态的持续反映.不可否认的是,人们在决策过程中的每一步行动都将影响事物的发展进程,并全程由大数据所反映.此时决策问题的描述以及决策求解的策略都需要跟随动态数据给予及时调整,通过面向大数据的增量式学习方法实现知识的动态演化与有效积累,进而反馈到决策执行当中.大数据决策的动态特性决定了问题的求解过程应该是一个集描述、预测、引导为一体的迭代过程,该过程须形成一个完整的、闭环的、动态的体系结构.简要来说,大数据环境下的决策模型将是一种具备实时反馈的闭环模型,决策模式将更多地由相对静态的模式或多步骤模式转变为对决策问题动态描述的渐进式求解模式.

2) 大数据决策的全局特性

截至目前,人们已经开发出多种多样的决策支持系统,但多数是面向具体领域中的单一生产环节或特定目标下的局部决策问题,往往无法较好地实现全局决策优化与多目标任务协同.在信息开放与交互的大数据时代,大数据的跨视角、跨媒介、跨行业等多源特性创造了信息的交叉、互补与综合运用的条件,这促使了人们进一步提升问题求解的关联意识和全局意识.在大数据环境下决策分析会更加注重数据的全方位性,生产流程的系统性、业务各环节的交互性、多目标问题的协同性.通过多源异构信息的融合分析,可以实现不同信源信息对全局决策问题求解的有效协同.基于大数据的决策系统,对每个单一问题的决策,都将以优先考虑整体决策的优化作为前提,进而为决策者提供企业级、全局性的决策支持.

3) 大数据决策的不确定性特征

一般而言,决策的不确定性来源于三个方面:一是决策信息不完整、不确定而导致的决策不确定性;二是决策信息分析能力不足而导致的决策不确定性[17]; 三是决策问题过于复杂而难以建模导致的不确定性.大数据决策的不确定性不外乎以上三个方面.在信息不完整和不确定方面,首先,大数据具有来源和分布广泛、关联关系复杂等特性,对于多数企业而言,即便借助各种先进的数据收集手段尽可能地将各种信源数据进行整合,但仍难以保证信息的全面性和完整性; 其次,大数据固有的动态特性决定了大数据的分布存在随时间变化的不确定性; 另外,大数据中普遍存在的噪声与数据缺失现象决定了大数据的不完备、不精确性.在大数据分析能力方面,显然现有的大数据分析处理技术还存在着不足,诸如多源异构数据融合分析、不确定性知识发现及大数据关联分析等方面仍是当前颇具挑战的研究方向.在决策问题建模方面,在一些非稳态、强耦合的系统环境下,建立精确的动态决策模型往往异常困难,比如流程工业中的操作优化决策.现阶段面向大数据的决策问题求解,人们通常使用满意近似解代替精确解,以此保证问题求解的经济性和高效性.这种近似求解方式实际上也反映了大数据决策的不确定性特征.

4) 从因果分析向相关分析转变

在过往的数据分析中,人们往往假设数据的精确性,并通过反复试验的手段探索事物之间的因果关系.但在大数据环境下,数据的精确性难以保证,数据总体对价值获取的完备性异常重要,此时用于发现因果关系的反复尝试方法变得异常困难.从统计学角度看,变量之间的关系大体可以分两种类型:函数关系和相关关系,一般情况下,数据很难严格地满足函数关系,而相关关系的要求较为宽松,在大数据环境下更加容易被接受[18],并能满足人类的众多决策需求.该方面的成功案例有Google 公司的流感预测[19]、啤酒与尿布关联规则的挖掘等.在面向大数据智能化分析的决策应用中,相关性分析技术可为正确数据的选择提供必要的判定与依据,同时将其与其他智能分析方法相结合,可有效避免对数据独立同分布的假设,提高数据分析的合理性和认可度.

5) 决策向满足个性化需求转变

在商业和制造业领域,对用户进行精准营销,满足用户的个性化需求是提升客户价值和实现企业竞争力的经营准则.在大数据背景下,产品和服务的提供以及价值的创造有望更加贴近社会大众的个性化需求.以互联网大数据为基础,企业通过舆情分析、情感挖掘等以用户为中心的数据驱动方法,可以精准挖掘消费者的兴趣与偏好,做出有针对性的个性化需求预测,进而为消费者提供专属的个性化产品与服务.宏观上讲,大数据可以打通企业和消费者之间的信息主动反馈机制.社会大众通过意见的表达,可以迅速转化为商业经营的决策依据,反向指导产品的设计和制造环节,实现生产与市场需求的有效对接.以Netflix[20] 为代表的推荐系统正是一个基于个性化需求的大数据决策系统.随着社会化媒体应用的深入,多元主体参与决策有了更多的便捷性和可能性,决策过程中价值多元的作用更加明显,由此传统自上而下的精英决策模型将会改变,并逐渐形成面向公众与满足用户个性化需求的决策模式.

通过以上有关大数据决策特点的总结,我们不难发现大数据决策有着相较于传统基于小数据分析决策的诸多不同之处.更进一步,大数据决策的特点反应了当前大数据智能决策的研究重点与需求.大数据决策的不确定性、动态性、全局性以及向相关性分析的转变,决定了面向大数据的关联分析、不确定性分析、对增量与多源数据的有效利用都将是大数据智能决策研究中的关键内容.

2 大数据智能决策研究现状分析

从静态决策到动态决策、从单人决策到群体决策、从基于小规模数据分析的决策到基于大数据知识发现的决策,决策理论与方法已经发生了巨大的变化[21],基于大数据的智能决策逐渐成为新时代决策应用及研究的新生力量.大数据智能决策就是用智能计算方法对大数据进行智能化分析与处理,从中抽取结构化的知识,进而对问题进行求解或对未来做出最优判断的过程.该过程需要满足大数据决策在不确定性、动态性、全局性以及关联性上的分析需求.

在面向大数据的决策应用中,关联分析为问题假设的初步分析以及正确数据选择提供必要的判定与依据,它既是一个重要前提也是一种必要的分析手段; 不确定性是大数据决策的显著特征,同时也是大数据智能决策研究的重点与难点; 大数据决策的动态性决定了大数据知识动态演化的重要性,如何有效利用数据的增量性同样是大数据智能决策研究的关键点; 大数据决策追求的全局性,要求大数据智能决策能够将多源信息进行融合与协同以消除信息孤岛.需要指出的是,大数据的关联性、不确定性、增量性和多源性不是相互独立的因素,四者之间存在着潜在的联系,在实际应用中可能并发存在,但从研究的角度出发,一般很难将上述四种因素的分析同时讨论.此外,智能决策支持系统是智能决策分析方法的载体,随着大数据应用的普及,智能决策支持系统的发展也是大数据决策领域备受人们关注的研究方向.结合以上讨论,本节将从智能决策支持系统、基于不确定性分析的智能决策、基于信息融合的智能决策、基于关联分析的智能决策和基于增量分析的智能决策五个方面展开对大数据智能决策研究与发展现状的综述分析.

2.1 智能决策支持系统

决策支持是在管理科学和运筹学的基础上发展而来的一门学科,20 世纪70 年代,Scott-Morton 提出了决策支持系统(Decision support system,DSS)的概念[22].DSS 是以提高决策有效性为目的,综合利用大量数据,有机地结合各种模型,通过人机交互的方式,辅助各级决策者实现科学决策的计算机系统.1980 年,Sprague[23] 将DSS 设计为由用户接口、数据库管理系统、模型库管理系统三部件集成的两库(数据库和模型库) 框架.随着人们对DSS研究和应用的深入,DSS 相继引入方法库管理系统、知识库管理系统和推理机并形成四库(数据库、模型库、方法库和知识库) 框架.经过几十年的发展,DSS 不断与新技术、新学科相互交叉融合,并在体系结构、问题处理模式、功能模块集成等方面发生了巨大变化,其应用也被推广到诸多领域.

智能决策支持系统(Intelligent decision support system,IDSS) 是由DSS 不断升级和演化得来.20 世纪80 年代,专家系统(Expert system,ES)广泛流行,Bonczek 等[24] 将决策支持系统与专家系统相结合,充分发挥DSS 的数值分析能力和ES 的符号知识的处理能力,用于解决定量与定性问题以及半结构化、非结构化问题,有效扩大了DSS 处理问题的范围.这种DSS 与ES 结合的思想即构成智能决策支持系统的初期模型.智能决策支持系统利用人工智能和专家系统技术在定性分析和不确定推理上的优势,以及人类在问题求解中的经验和知识,为决策问题的求解提供了更加广阔的思路.近年来,几乎所有有关决策支持系统的研究都是围绕着人工智能技术的应用而展开的.人工智能方法已经逐渐渗透到IDSS 的体系结构、问题求解方法等各个方面.综合来看,智能决策系统的研究逐渐由过去的决策部件功能的扩展发展到部件的综合集成,由过去的定量模型发展到基于知识的智能决策方法[25].

和许多正在发展中的事物一样,智能决策支持系统是一个发展中的概念.随着社会的发展,信息量的激增,管理、决策日趋复杂,单纯依靠某一个决策者做出的决策往往不够完善,于是Gray 将群决策理论引入DSS,提出了群决策支持系统(Group decision support system,GDSS) 的概念[26],旨在吸收群体的经验和智慧,实现群体对决策问题的共同求解.GDSS 为企业的组织决策提供一种开放与协同的决策环境,达到提高决策质量的目的.GDSS是智能决策支持系统的一个重要研究方向,目前分布式环境下的GDSS 和基于人工智能的群决策方法仍然是该领域的研究热点[27].

传统的DSS 多采用静态模型,决策过程需要用户自主选择方法和模型,系统缺乏主动决策机制.针对该问题,Manheim 等[28] 最早提出了主动决策支持系统(Active DSS,ADSS) 的概念,并给出了相应框架.ADSS 通过建立人类认知模型,在决策问题求解的不同阶段,给决策者提供不同的方法选择,从而形成不同的问题求解路径.ADSS 是基于人类先验知识的,但其前提假设是系统运行在静态的决策环境下,因此在实际应用中ADSS 仍然存在适应性较差的局限性.不过人们对ADSS 的研究为自适应决策支持的提出奠定了基础.为了适应决策环境的变化,Shaw[29] 于1993 年提出了自适应决策支持系统(Adaptive decision support system,Ad DSS)框架,并尝试用机器学习和案例推理等方法从大量历史数据和过往经验中发现与决策问题相关的知识,以此来使系统具有随时间和决策过程变化调整自身行为的能力.在此基础之上,人们对AdDSS 展开了大量的研究,包括系统结构自适应、领域知识自适应、用户接口自适应等,自适应性和自学习能力已经成为智能决策支持系统的一个主要标志.

互联网技术在决策支持领域的应用,使得决策环境出现了新特点,即决策分析中的数据不再集中于一个物理位置,而是分散在不同部门或地区.在此环境下许多大规模的管理决策活动已不可能或者不便于用集中方式进行,而分布式决策支持系统(Distribute decision support system,DDSS) 正是为适应这类决策问题而建立的信息系统.DDSS 将传统集中式DSS 发展为网络环境下的分布式并行处理的方式[30],通过网络连接工作平台和分布式数据库、模型库等,支持分布在各地的DSS 彼此交互,从而使他们共同为决策问题求解提供高效及时的决策支持.在大数据环境下分布式决策支持系统将得到更加广泛的关注,分布式数据仓库、分布式人工智能、分布式并行化决策已经成为当下决策支持领域的重要研究方向.

随着智能体(Agent) 在人工智能领域的深入研究,相关学者将Agent 技术引入了智能决策支持系统,特别是多Agent 理论与技术为分布式决策支持系统的分析、设计和实现提供了新的途径.Bui 和Lee[31] 将决策支持系统中的Agent 应具备的能力归纳为:独立能力、学习能力、协作能力、推理能力、智能性等.目前,多Agent 智能决策支持系统已经成为趋势,通过加入诸如人机交互Agent、模型选择Agent、模型求解Agent 等可以使决策系统减少对专家的依赖,实现系统由“模型驱动” 转为“问题驱动”,提高决策系统的整体智能性.Ghadimi 等[32]提出一种面向供应链可持续供应商选择和订单分配的多Agent 系统方法,通过设计数据库Agent、供应商Agent、决策者Agent 和订单分配Agent,有效提高供应商选择和订单分配质量.

随着云计算(Cloud computing) 技术兴起,基于云计算的智能决策支持系统成为大数据智能决策支持的一个研究方向.云计算通过互联网将虚拟化的数据中心和智能用户终端有机地联系起来,为用户提供了便捷的信息服务环境.在大数据环境下,云计算平台可以为大数据的决策分析提供庞大的存储空间和强大的分布式并行计算能力.决策环境的开放性、决策资源的虚拟化、问题求解的分布式协作性将使得基于云计算的智能决策有着与传统智能决策不同的特征[21].随着移动智能设备和移动互联网的普及,分布式移动云计算环境下智能决策方法成为当前的一个研究热点[33].

随着社会节奏的加快,企业或组织所面临的内外部环境更加复杂,业务问题呈现非线性、不确定性、多维化和实时性等特点,此时继续使用传统IDSS 工具和利用局部数据进行决策分析的方法已经难以获取高质量的决策效果.在大数据环境下,智能决策支持系统应具备大数据的分析处理能力.通过综合运用互联网、云平台和人工智能技术,将大数据的采集、存储、管理、分析、共享、可视化等一系列知识发现技术与现有的智能决策支持技术深度融合,构建形成基于大数据的智能决策支持系统是智能决策应用领域的发展方向.未来基于大数据的决策支持系统有望具备海量数据汇聚融合能力、快速感知和认知能力、强大的分析与推理能力、自适应与自优化能力,可以实现复杂业务的自动识别、判断,并做出前沿性和实时性的决策支持.

2.2 基于不确定性分析的智能决策

不确定性是指客观事物联系与发展过程中无序的、随机的、偶然的、模糊的、粗糙的、近似的属性[34].现实世界的多样性、随机性、运动性,以及人类对事物描述和信息表达的不精确性、模糊性决定了人们所能获取的数据本身存在着较多的不确定性.而在大数据环境下,数据的多源、多样、增量及不完备等特点,加之人们对数据分析处理需求的多样性(如数据融合等),使得大数据从宏观上有着相较于传统数据更多的不确定性.正如Wang 等指出,大数据的不确定性不仅存在于大数据本身,还体现在大数据的处理过程当中[15].因此,关于大数据不确定性信息的表示与处理成为大数据智能决策理论方法研究中不可缺少的一部分.在不确定性理论方法中模糊集、粗糙集、贝叶斯理论、证据理论等在智能决策方法中都起到了关键作用.随着大数据应用的增多,以上方法也逐渐被用于面向大数据不确定性处理的智能决策当中.本小节将从大数据不确定性处理的角度对相关方法进行回顾和综述.

模糊集于上世纪60 年代由Zadeh 提出,通过隶属度函数表达模糊性概念,其本身是一种有效的不确定性信息表示与处理方法.目前模糊集方法已经形成一整套较为完整的理论体系,包括模糊集、模糊逻辑、模糊系统以及它们的扩展形式[35].由于模糊集方法可以在不同信息粒度层次上对不确定性数据进行表示与处理,因此具有较强的可解释性和可理解性.模糊集在大数据中的应用,形成对大数据不确定性的表示与处理的有效手段.在面向大数据的聚类应用中,模糊C-means 算法(FCM) 已经成为一种常用的软聚类方法.文献[36] 将FCM 应用于机器人触觉感知数据的分析,解决机器人触觉识别问题.Chang 等[37] 针对高维度数据聚类问题,提出稀疏正则化FCM 算法.Di Martino 等[38] 将FCM扩展应用于超大型事件数据集中的热点检测,并进一步提出了一种时空FCM 方法,用于面向时空大数据的热点检测与预测问题[39].模糊规则分类系统广泛地应用于模式识别和分类任务,可以为用户提供带有语义标签的可解释分类规则,降低决策失误的风险.Jindal 等[40] 设计了云环境下的模糊规则分类器,用于处理多源异构的远程医疗大数据,实现对病人的远程实时诊断决策.针对面向大数据的模糊分类,Segatori 等[41] 提出了基于Map Reduce 的分布式模糊决策树(FDTs) 计算模型.模糊推理系统还常与神经网络相结合,以提高决策问题求解的自适应性.在电力系统控制领域,文献[42] 将神经网络与模糊推理系统相结合,提出三种自适应神经模糊推理系统,用于太阳能发电企业控制决策中的短时电力预测问题.Jindal 等[43] 针对疾病诊断决策中的分类问题,提出了用于医疗大数据维度约简的模糊神经分类器方法,有效提高疾病诊断准确率.更多有关模糊集在大数据决策方面的研究可以参见文献[35].从现有的基于模糊集方法的大数据决策文献来看,模糊集方法是适用于大数据不确定性分析的有力工具,其数据表示的多粒度特性符合人类的认知习惯,可以满足更多特定领域的大数据决策需求.

粗糙集由波兰数学家Pawlak 于1982 年提出.粗糙集使用具有精确概念的上近似集和下近似集对一个不精确概念/知识进行近似表示与度量,其独特之处在于不需要主观先验知识,可以直接对数据进行分析与推理,并揭示潜在规律.目前,粗糙集及其扩展理论已经成为处理不精确、不一致、不完备信息的有力工具,并广泛用于数据挖掘、知识获取以及各类决策问题的求解.为满足粗糙集方法的大数据决策分析需求,已有较多学者从粗糙集的并行化开展了研究.基于粗糙集的多粒度思想,Qian 等[44] 提出基于MapReduce 的粗糙集的并行化层次属性约简方法.Li 等[45] 设计了并行化优势粗糙集近似计算方法.针对大数据常见的不完备特性,Abdel-Basset等提出将中性集(Neutrosophic sets) 和粗糙集相结合的方法来处理智慧城市大数据的不完备性问题[46].El-Alfy 等基于遗传算法研究了面向决策粗糙集的大规模数据集的并行化属性约简方法,并成功用于网络入侵检测[47].Banerjee 等通过粗糙集理论和蚁群算法解决大数据中的不确定性和最优特征抽取分析问题,提出了面向移动大数据的评价决策分析方法[48].针对大规模多模态数据的属性约简问题,Hu 等给出了多核模糊粗糙集方法[49].为降低多粒度决策粗糙集在大数据分析中的时间复杂度,同时使其满足大数据的半监督特性,Qian 等提出了局部多粒度粗糙集方法[50-51].

近年来,由决策粗糙集发展而来的三支决策理论[52] 成为一种更为一般化且符合人类认知的不确定性决策工具,正受到越来越多的关注.在基于Web 的医疗决策支持系统中,Yao 等将博弈论粗糙集(GTRS) 用于面向医疗数据的不确定性分析,通过生成三支决策规则,提高系统整体决策质量[53].Yu 等研究了面向多视图数据的不确定性聚类问题,并提出一种主动三支聚类方法[54].Zhang 和Yang等[55] 基于区间值决策粗糙集提出一种三支群决策模型.针对现实中有用信息随时间不断增长,Li等[56] 提出了代价敏感序贯三支决策,并将其应用于人脸识别.Qian 等[57] 基于多粒度思想,提出一种更为一般化的多粒度序贯三支决策模型.

基于贝叶斯理论的方法已经在人工智能领域中的不确定性推理、计算机学习等方面取得了许多成果.对于不同规模大小的贝叶斯网络,可以分别采用精确推理和近似推理算法进行分析,并提供决策支持.Lake 等[58] 通过一个基于贝叶斯的BPL(Bayesian program learning) 模型来建模实现人类层次的概念学习.Sturlaugson 和Sheppard[59] 研究了连续时间贝叶斯网络中的不确定推理.Abadpour[60] 利用贝叶斯推理构造了模糊可能性聚类算法的目标函数.胡支军等[61] 研究发现对项目价值事前估计不确定性的贝叶斯建模可以在风险项目投资组合决策中给出更加精确的价值估计.Hao 等[62] 研究了不确定性环境下动态决策中的信息权重确定问题,提出基于直觉模糊贝叶斯网络的动态属性权重确定方法,同时构建了面向风险决策问题的动态直觉模糊决策概念框架.贝叶斯网络同样适用于不完备数据的处理,Feng 等先后提出了不完备数据环境下基于贝叶斯网络的岩爆灾难预测方法[63] 和隧道挤压预测方法[64].

证据理论(Dempster-shafer theory) 通过引入信任函数,把不确定与不知道区分开来,能够在先验概率未知的情况下,以简单的推理形式,得到较好的结果.例如,Zhang 等[65] 采用证据推理方法研究了不确定环境下的多属性决策分析问题.Sun 和Wang[66] 针对基于属性描述的知识,通过组合证据来解决多属性融合问题.Troiano 等[67] 应用D-S 证据理论挖掘用户的偏好信息用于推荐决策.杜元伟等[68] 将头脑风暴方法中的基本原则引入到主观证据的提取过程之中,并在此基础上结合证据理论提出了主观证据融合决策方法.

由于专家知识总是有限的,并且能够以符号逻辑表示并用来推理的知识更为有限,所以许多专家知识并不是一开始就已经具备,更多的还是在决策过程中学习得到的.因此,人们将人工智能中的仿生方法引入到决策过程中,并取得了很好的效果.仿生方法是一类重要的人工智能方法,能够适应现实环境中普遍的不确定性,解决那些无法精确定义或建模的决策问题.神经网络、进化算法、蚁群算法等均被用于对存在大量不确定性信息的学习,并得到较好的决策效果.例如,Bukharov 等[69] 基于神经网络和遗传算法构建了一个决策支持系统,该系统采用区间神经网络来处理不确定数据,使用遗传算法来选择最重要的输入.Yu 等[70] 结合与或图和粗糙集等方法将蚁群优化算法应用于属性约简、约简选择以及Web 服务选择中.

此外,概率推理、赋值代数、连接分析、聚类分析等方法也常常应用于不确定性决策分析中.上述理论与方法为智能决策问题的求解提供了有力的支持,但是有关不确定环境下面向复杂大群体决策等方面的求解方法仍然有待进一步的研究.

2.3 基于信息融合的智能决策

多源信息融合是人类所固有的一种基本功能.人类可以本能地将各种感知器官所探测的信息与先验知识进行综合,进而对周围的环境和正在发生的事件做出准确的估计.“盲人摸象” 的故事告知我们,单凭一种感官获得的感知信息,难以获得对客观事物的全面认知,而通过对不同度量特征的融合处理可以将多源信息转化成对环境有价值的解释.多源信息融合就是对人脑综合处理多源信息功能的vwin [71],以实现自动的或半自动的将不同来源和不同时间点的信息转化为统一表示形式,进而为人们提供有效决策支持的一系列技术方法[72].

在大数据环境下,数据的分布式存储与交互式共享会更加普遍,而具有分布式和分散控制的自治数据源是大数据应用的主要特征之一[16].此时,多源信息融合是提升大数据价值不可或缺的技术手段.从决策应用的角度来看,社会经济活动中的企业或组织在决策时需要收集大量的数据,汇集不同的观点,才能制定出符合客观规律的决策.随着数据获取便利性的增加,信息的全面性和多源信息的协同作用将更多地被人们关注,而越来越多的决策任务的开展,将寻求多源数据甚至是跨平台、跨区域、跨领域数据的参与.例如,在城市规划决策中,政府部门需要结合路网结构、交通流量、城市人口分布以及POIs 数据进行综合分析[73]; 在医疗诊断中,有时专家需要将多家医疗机构的诊断结果进行融合分析;在工业生产过程中,可以借助火眼图像、槽音频以及其他监控数据来综合判断铝电解槽过热度状态[74].多源信息融合对于大数据决策的意义可以归纳为两方面:一方面,信息融合有利于进一步挖掘数据价值,从众多分散、异构的数据源获取隐含价值信息,丰富决策的内涵; 另一方面,通过多源数据的交叉引证,可以降低大数据潜在的噪音、数据缺失、信息不一致和语义模糊等不确定性因素[72],提高决策的置信度.

简单来说,信息融合是一种概念框架.在不同需求和应用场景下,信息融合所面对的问题不同,人们提出的模型方法与技术手段也各不相同.信息融合技术最早以多传感器数据融合(Multi-sensor data fusion) 的概念出现在军事领域.上世纪70 年代美国国防部联合指挥实验室(Joint Directors of Laboratories) 提出了颇具代表性的JDL 模型[72],旨在将来自不同源的数据信息进行多层面的融合处理,来提高目标识别、身份评估、战况评估和威胁评估的准确性.在此之后,信息融合技术不断地被丰富和拓展,并发展成为涉及信号处理、信息理论、统计学、人工智能、机器学习的多学科研究领域.

从信源之间的关系来看,学者们把信息融合的类型划分为互补型、竞争型及合作型[75-76].互补型中的各信源互不依赖,各信源感知目标/场景的不同方面,通过信源融合来获取目标的全局信息; 竞争型中的各信源描述相同目标/场景的同一方面,多源信息融合用于冗余校准和增强信任; 合作型中各信源之间相互依赖,从不同角度感知目标,多源信息融合用于获得全新的信息.从信息融合的抽象层次来看,人们常把融合划分为数据层融合、特征层融合及决策层融合[75].数据层融合也称作像素层或信号层融合.由于数据层融合一般面向等价信源的数据[75],因此其常用融合机制为竞争型.数据层融合因尽可能多的保持了现场数据,其具有信息损失小的优点,但由于要对现场数据进行整体传输和集中处理,导致其有通信负载大、计算代价高、处理时间长、抗干扰能力差的缺点.决策层融合也称作语义层融合,其操作对象是规则或知识.决策层融合依赖于人们对数据特征意义和关系的理解,是一种高层次的和更符合人类认知的融合方式.由于决策层融合不受信源数据形式差异的限制,使其融合机制也更加灵活,它可以面向竞争型、合作型和互补型的融合需求.由于决策层融合传输和处理的是规模较小的知识,因此其具有通信负载小,抗干扰能力强,融合中心计算代价低的优点,不过在各信源的知识获取阶段仍需花费一定的计算代价且产生一定的信息损失,使得决策层融合存在信息损失相对较大且整体计算代价不一定会低的问题.特征层融合的操作对象是从数据中抽取的特征属性,常用融合机制有竞争型、互补型及合作型,其优缺点介于数据层融合和决策层融合之间.Gravina 等[75] 总结了不同层次下数据融合对比情况,见表1.

表1 不同层次下数据融合对比情况表
Table 1 Comparison of data fusion under different levels

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

在大数据时代,信息来源更加广泛,数据交互更加频繁,大数据的多源分布现象普遍存在.随着社会媒体网络、躯体传感网络、智能推荐系统、城市计算等新兴技术领域的崛起,人们对数据融合技术的需求进一步加大.然而复杂的大数据环境对信息融合任务的开展构成诸多挑战.覃雄派等[77] 指出随着大数据的增长,对大数据进行分析的基本策略是把计算推向数据,而不是移动大量的数据.吴信东指出大数据应用的自治数据源和分布式控制的特点使得整合多源数据进而集中式挖掘的方法会因传输代价高昂以及隐私暴露等问题而不可取[16].为实现对城市大规模人群聚集事件的有效预测,Huang 等[78] 通过对多源大数据的知识融合,提出一种基于大数据融合的人群聚集预警方法.Lin 等[79] 基于邻域粒化的方法,提出一种多信源决策规则表示方法,进而通过一致性度量原则计算各信源权重,实现多源决策规则的融合.Zheng[73] 指出大数据时代的信息融合任务会更多地面向跨领域数据.然而跨领域数据在表示、分布、尺度上普遍存在的模态差异,这对传统数据层融合方法构成巨大挑战.虽然已有相关研究工作将深度神经网络(Deep neural network,DNN)用于多模态数据的统一特征表示[80-81],并在一定程度上解决了多源数据特征层融合问题,但是基于DNN 的融合方法的效果取决于参数调整的好坏,最优参数的寻找依然是一项耗时耗力的过程.另外,对于DNN 中间层特征表示依然存在可解释性问题.针对上述问题,Zheng[73] 提出跨领域大数据融合范式(如图1 所示),即对各个数据源分别进行知识提取,在知识层面实现多源信息语义融合.语义层的信息融合可以大体分为基于多视图的数据融合、基于相似性的数据融合、基于概率依赖的数据融合以及基于迁移学习的数据融合[73].

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

图1 跨领域大数据融合范式[73]
Fig.1 The paradigm of cross-domain big data fusion[73]

在大数据多源信息融合任务中,如何对信源进行评价与选择同样是一项挑战性问题.Xu 等首次提出了使用内部信任度和外部信任度两个指标来评估信源的可靠性方法,实现对冗余和不可靠信源的过滤,并通过将原始数据转换为三角模糊信息粒,实现基于粒计算的多源数据融合[82].但上述方法仅适用于多源同构数据集,难以适应多源异构数据环境.目前对信源的评价选择问题依然是信息融合领域的一个开放性研究课题.多源数据信息潜在的不完备、不一致、冲突、语义模糊等不确定性是多源信息融合所要解决的最根本问题,相关学者已尝试将概率论、粗糙集、模糊集、可能性理论以及D-S 证据理论等应用到数据融合当中,并分别在特定领域取得了较好的效果.Khaleghi 等对以上各种融合方法的优缺点做了详细分析,读者可以参阅文献[72].

2.4 基于关联分析的智能决策

在现实世界中,诸多看似没有关系的事物之间其实存在有普遍关联,而这些普遍关联往往在一些问题求解中起到关键作用.相关分析便是一种发掘事物之间普遍关联的数据驱动方法.自19 世纪80 年代Galton 通过研究人类身高遗传问题首次提出“相关” 概念以来[83],相关分析便引起人们的关注,并逐渐成为一种决策分析的重要手段.作为度量事物之间协同关系和关联关系的有效方法,大数据的相关分析能够满足人类的众多决策需求.例如,Google 公司的趋势系统,通过对互联网搜索数据的关联分析,实时预测了2009 年美国H1N1 流感的爆发[19].沃尔玛通过对用户消费数据的关联分析,发现啤酒与尿布间的关联关系.需要特别指出的是,相关关系有别于因果关系.在大数据时代基于相关关系挖掘的数据分析具有重要的价值.李国杰院士等指出,对于简单封闭的系统,基于小数据的因果关系分析是可行的,但对于开放复杂的巨系统(大数据环境),传统的因果关系分析难以奏效[84].首先,大数据环境下数据结构、数据关系错综复杂且存在很多噪音,人们很难在变量间建立精确的函数关系并在此基础上探讨因果关系,寻找因果关系的代价高昂;其次,大数据的动态与演化特性,决定了变量间的因果关系具有时效性,环境状态稍有变化,探寻到的因果关系或已失效.然而相关关系的要求较为宽松,可以帮助人们更加快捷、高效地发现事物之间的内在关联.

从决策应用的角度来看,大数据相关性分析对大数据智能决策的推动作用主要体现于以下两个方面.一方面,相关性分析技术不仅用于发现变量之间的潜在关联,而且还用于判定分析变量之间伪相关、假关联.试想,通过对一组数据的回归分析,可以学到一个精度较高的回归模型,但如果数据之间是伪相关的,那么学到的模型将导致错误的科学推断及毫无价值的预测结果.在面向大数据智能化分析的决策应用中,由于数据混杂且体量大,如何选择与问题相关且正确的数据来开展分析是一项极为重要的问题.在该环节,相关性分析可以为问题假设的初步分析以及正确数据的选择,提供必要的判定与依据.在这一方面,牛津大学Mayer-Schonberger 教授等也给出了相同的观点:“建立在相关分析法基础上的预测才是大数据的核心”[85].另一方面,在实际应用中,相关性分析不是一个独立的环节,而是需要将其与其他模型方法进行有机结合,进而提高数据分析过程的合理性以及分析结果的认可度.目前,较多的数据挖掘与机器学习方法仍建立在数据的独立同分布假设之上,显然独立同分布只是一种理想假设,这样的分析结果存在较大的局限性且不能充分反映数据中蕴含的真实知识.近年来,为提高数据分析的合理性和准确性,越来越多的学者将相关分析纳入到智能信息处理当中,诸如多准则/属性决策[86-87]、分类[88]、聚类[89-90]、多标签学习[91-92] 等,均取得了较好的效果.综合来看,大数据相关分析已经成为大数据智能决策中的一项关键应用技术.

传统相关分析中的相关系数法往往会忽视很多变量间隐含的逻辑关系,难以对非线性相关关系和非函数相关关系进行准确测量,这些局限性限制了传统相关分析法在处理大数据问题时的应用范围.近年来,相关学者从典型相关分析、基于互信息的相关分析、基于距离的相关分析展开了对非线性相关关系的研究,此外在伪相关以及时序数据延迟相关方面也取得了较多研究成果.以上几个方面对大数据相关性分析提供了理论依据,下述内容是以上几点代表性研究成果的介绍.

目前典型相关分析(Canonical correlation analysis,CCA)已经较多地应用在大数据分析当中,它不仅可以揭示大数据间的关联关系,还可以提取大数据中的低维特征.具有代表性的应用有数据降维[93]、特征融合[94]、数据流挖掘[95]、跨模态检索[96]等.在典型相关分析的非线性拓展方面,Yin[97] 基于互信息对CCA 进行了扩展.Lai 和Fyfe[98] 基于核方法提出了非线性CCA.Hardoon 等[99] 使用Kernel 典型相关分析方法来学习图片和问题描述之间的语义表示.针对传统典型相关分析在大数据PB级数据规模时不再适应的情况,杨静等[100] 提出一种基于云模型的大数据CCA 方法.

互信息作为相关分析的度量,其优势在于能有效地刻画变量之间的非线性关系[18],能够有效探测数据的内在结构和规律,因此在大数据相关分析中日益受到重视.Reshef 等[101] 通过互信息定义了最大信息系数(Maximal information coefficient,MIC) 用来衡量两个变量间的相关性,可以对变量间的非函数相关关系进行有效识别.MIC 被认为具有通用性和均等性,并适用于大规模的数据集,但由于其仅针对两个随机变量的相关分析,因此在实际应用中还存在一定的局限性.Nguyen 等[102] 根据MIC 方法,提出了更为一般化的相关分析方法,即最大相关分析(Maximal correlation analysis,MAC),扩展了MIC 的应用范围,实现对两组变量之间的非线性相关关系的准确测量.

基于距离的相关系数(Distance correlation coefficient) 由Sz´ekely 等于2007 年提出[103],可以提供比皮尔逊相关系数更多的信息.基于距离的相关系数从特征函数的距离视角考察了两个随机向量之间的非线性相关关系,为高维数据的非线性相关分析提供了有效的度量准则.Mart´ınez-G´omez 等[104]将基于距离的相关系数应用于高维巨量的天体物理数据集中,用于发现变量之间的非线性关联关系,从而实现特征的提取,增强分类及模式识别的效果.Davis 等将基于距离的相关系数用于时间序列分析当中[105].基于距离的相关系数从特征函数视角构造相关性度量方法,不但可以度量非线性相关性,而且可以度量任意两个不同维度的随机向量的相关性.但是,距离相关系数涉及高维向量间的距离计算及矩阵点乘运算,具有较高的时间复杂度.如何提高计算效率是基于距离相关系数分析方法的未来研究方向[18].

时序数据的延迟相关性(Lagged correlation)是时间序列数据挖掘领域的一个重要研究内容.延迟相关是时序数据之间普遍存在的现象.例如,国际原油价格走势常常会影响到国内成品油的价格行情,但是这种相关性并不会立即表现出来,而是存在一定的延迟.在时间序列的相关性判定中,既要判断数据之间是否存在时差(也称作“时间弯曲”),又要考虑数据之间是否具有真实的相关性.曲线排齐法(Curve registration) 是对延迟序列进行矫正的常用方法.经典的曲线排齐方法包括位移排齐法、特征点排齐法、连续单调排齐法等.针对BRAID方法(一种位移排齐法) 在最大延迟相关点较大时准确率不高的问题,林子雨等[106] 提出了三点预测探查法(TPFP),该方法可有效处理最大延迟相关点位置较大的情形,并可应对延迟突变问题.姜高霞和王文剑[107] 构造了基于时间序列相关系数特征的相关性判定方法,并基于光滑广义期望最大化算法提出一种基于相关系数最大化的曲线排齐模型.针对基于采样的曲线排齐法中均匀采样存在的缺陷,张文凯等[108] 提出了基于非均匀采样的相关系数最大化曲线排齐方法.此外动态时间弯曲法(Dynamic time warping) 也是时下较为流行的时移序列排齐方法[109].

伪相关(Spurious correlation)是指不具有相关关系的两组数据却具有较高样本相关系数的一种统计现象.该现象将产生误导性的统计推断.关于伪相关的产生原因,学界普遍认为是由其他未见因素(共有因素) 的影响而产生.伪相关的判定问题和如何降低潜在伪相关的影响是相关分析应用中的重要问题,并且多需要结合数据的背景知识来分析.在生态系统研究当中,Baldocchi 等[110] 针对冠层光合作用和生态系统呼吸之间可能存在的潜在伪相关性,通过改变数据汇总和集成的采样方法和时间尺度,来验证不同采样方法对以上两者之间伪相关度的影响.在基于元社区结构的物种分类研究当中,Clappe等[111] 分析了由空间自相关(独立发生) 引起的物种分布和空间环境之间的伪相关问题,并基于空间约束空模型(Spatially-constrained null model) 提出一种新的方差分解方法,用于从环境数据中校准空间自相关带来的伪相关贡献.Gao 等[112] 提出一种新的两个非独立变量之间伪相关性的判定方法,通过引入一个“纯” 伪相关指标,并将其与伪相关指标进行回归分析,实现对区域径流悬沙年产量与径流深度之间伪相关性判定,并进一步分析表明伪相关性受变量易变性的显著影响.在大数据环境下,数据的海量性、高维性、动态及不确定性等增加了发现伪相关的难度,特别是大数据的高维特征将显著增加伪相关的可能性[113],因此面向大数据的相关分析,不可一味地追求对数据相关性探寻,而忽略了对伪相关的分析与判断.

2.5 基于增量分析的智能决策

增量性是大数据的固有特性之一.现实生活中广泛分布的传感与监控设备、实时互联的社会媒体等都构成了大数据动态增长的在线场景.基于大数据决策的数据分析,不单要从历史大数据中获取知识,更多的是要对新增数据进行动态知识发现.传统机器学习方法对历史大数据的挖掘与分析往往是建立在数据隐含规律对未来预测有效性的假设之上,或假定决策状态始终处于决策模型的闭环之内.显然现实世界的复杂多变性决定了从历史数据中获取的知识多数只具备历史有效性,在实用性较强的决策应用领域,特别是对决策时效性要求较高的工业控制领域和智能交通领域等,实时动态的增量式知识获取是保证决策质量的必要条件.近年来随着大数据应用的普及,更多专家学者开始关注大数据的增量式学习问题.分类或聚类也是实现决策分析任务的常见方法.在这类典型的基于机器学习的决策应用中,增量性主要体现于三个方面:一是数据样本的增量; 二是样本特征描述信息的增量; 三是类别的增量与数据分布的变化.

在数据样本增量方面.针对以往增量式学习均假设新增样本是独立且同分布的,Xu 等[114] 研究了依赖采样方法对增量式支持向量机算法的影响,并提出了一种基于马尔科夫重采样的增量式支持向量机算法(MR-ISVM),实现ISVM 学习效率的显著提高.Gu 等[115] 基于代价敏感铰链损失的支持向量机(CSHL-SVM) 构建了数据块增量式学习算法,实现在线场景下的分类模型的快速更新.粗糙集方法是处理不确定性数据的有效决策工具.目前已经有专家学者基于粗糙集的决策方法进行了有关增量式知识发现的研究.Chen 等[116] 将变精度粗糙集方法引入集值序信息系统,研究了变精度集值序信息系统下的近似集增量更新方法.为应对决策信息系统中数据对象的动态增加问题,Li 等[117] 提出基于优势粗糙集的增量式近似集更新方法,该方法可以有效解决多准则决策中的动态增量问题.针对数据样本的增量以及数据中潜在的不确定性,Yu[118] 提出了三支聚类计算框架,并进一步提出了基于树的增量式三支聚类模型,该模型为不确定性大数据的增量式聚类计算提供了新思路.Hu 等[119] 通过粗糙集表示聚类问题中数据的不确定性,形成一套基于粗糙集的增量式模糊聚类集成方法,实现对不确定性数据的增量式聚类计算.

在样本特征描述信息的增量方面.Hu 等[120] 基于互信息的差异生成策略和特征增量树生长机制提出一种特征增量随机森林(FIRF) 学习方法,解决老年人健康护理中因传感器增加形成的数据特征增量问题.Huang 等[121] 在分布式信息系统下基于属性一般化提出了增量式粗糙近似集更新方法.Jing等[122] 研究了多粒度视角下的知识粒表示方法,针对大规模动态增量决策信息系统,提出了多粒度增量式属性约简方法,有效避免数据增加过程中对等价类的重复计算.针对层次化多准则分类问题中属性值在不同粒度层次上的动态更新,Luo 等[123] 通过属性值分类对知识粒进行细化和粗化,实现知识粒的动态特性的形式化表示,并在此基础上提出了层次化多准则决策系统下的优势粗糙集增量式学习方法.面向属性增量的聚类算法可以为基于无监督数据的决策活动提供有益帮助,不过现阶段面向属性增量的聚类研究依然较少.

在类别的增量与数据分布的变化方面.传统的增量式机器学习方法常假设训练数据和新增数据符合相同的模式,却较少考虑新数据所属类别的增加与数据分布变化情况,这使得传统增量式机器学习方法难以适应实际生产中的大数据环境.现实中的诸多因素会导致模型在学习阶段只能接触到有限的数据类别,而在测试和实际应用阶段的数据却包含了在学习阶段未曾出现的类别.该类场景下的学习问题被称作开集学习(Open-set learning) 问题,意在寻求对已知类识别的同时,能有效识别未知新类.Da 等[124] 尝试从无标签数据中获取更多分类信息,并基于支持向量机的大边缘准则和半监督学习中的低密度分离器技术,提出了基于无标签数据增广类学习框架及相应的支持向量机方法,用于开放空间下的样本预测.Ristin 等[125-126] 基于随机森林算法提出了最近类平均森林算法和支持向量机森林算法,研究了大规模图像分类中数据类别增加的增量式学习问题.J´unior 等[127] 将最近邻分类器扩展应用到开集学习当中,提出一种开集最近邻方法.在基于神经网络的图形识别领域,使用数据集增广技术是应对开集识别问题的一种方法,Neal 等[128] 提出一种反事实图像生成的数据增广方法,并通过训练后的生成对抗网络生成开集训练样本,用于对开集图像识别任务的学习.通过在深度网络中引入新的模型层OpenMax 并结合元识别(Meta-recognition)算法来估计未知新类的概率,Bendale 和Boult[129]提出一种深度网络开集识别方法,实现深度网络对高置信度欺骗图像以及相似于训练样本的对抗图像的识别.分布外图像检测问题同样可看作是一类特殊的开集学习问题.Liang 等[130] 针对基于神经网络的分布外图像检测问题,提出了基于神经网络的分布外检测器,通过控制温度标定并结合添加输入扰动的方法,增加分布内图像与分布外图像之间的Softmax 分数间隔,在无需重新训练网络的情况下,有效降低分布外样本的误判率.目前已有的开集学习的研究主要关注了如何检测到新类,然而如何进一步区分新类同样具有重要的实际意义和研究价值,目前该方面的研究还较少.

在流式数据和时间序列数据的实时处理任务中,如何将新增数据的分布变化纳入学习任务当中是一项极其重要的研究工作.基于概念漂移(Concept drift) 的增量式学习方法是应对上述问题的有效途径之一.Ahmad 等[131] 将概念漂移方法用于流式数据的非监督学习当中,有效提高了在线异常检测的精度.针对传统DSS 中的静态数据分析方法在发生概念漂移时无法做出正确决策的问题,Dong 等[132]研究了数据驱动决策支持系统中的概念漂移问题,提出一种基于数据分布的概念漂移检测方法,为数据流提供更好、更精细的经验分布,使得DSS 可以在适当的时间调整决策知识以适应不断变化的环境.Lobo 等[133] 使用核密度估计构建了一种进化多样化生成方法,用于在线学习中概念漂移后学习策略的快速适应.

3 挑战问题与发展趋势

诚然大数据可以为人们带来更加科学全面的决策支持,但大数据智能决策的应用研究还处于初期阶段,并仍面临诸多挑战.在此,我们讨论大数据智能决策面临的一些问题挑战,并指出潜在的应对方法或未来的发展趋势.

3.1 大数据多样性带来的挑战

多样性是构成大数据复杂性的主要因素之一,也是大数据智能决策面临的主要困难.当一项综合决策需要整合多方面数据时,不同来源的大数据在类型、分布、频率及密度上可能各不相同,这对多源大数据融合分析、多源信息协同决策等构成巨大的挑战.现阶段对于处理大数据的多源异构性,已经有一些研究成果,但多数还是面向具体场景和特定一些类型的大数据.解决多源异构大数据的协同分析问题,消除信息孤岛进而实现通用性、鲁棒性更好的大数据智能决策,是目前大数据智能决策的一个关键性研究课题.

多源大数据之间的关系普遍为互补型或合作型,通过数据层面的融合决策不一定那么有效.目前在特征层实现异构数据的融合方法中,有很多基于DNN 的优秀成果.然而,基于DNN 的方法只克服了多样性中的数据类型多样,而对于分布、频率等多样性还无法应对.需要指出的是,任何决策都是有风险代价的,数据分析过程的可解释性对于决策者而言至关重要,然而可解释性却是DNN 的短板.基于粒计算的DNN 可解释性研究可望成为大数据智能分析的一个潜在研究方向.

通过语义层/决策层实现多源数据的综合利用是解决数据异质性较好的方法,可以有效避免各种异质性问题.在大数据环境下,分布式自治数据源是大数据应用的一大特点[16],去中心化将成为一大趋势.通过分布式知识获取与协同的方法可以有效实现多源异构数据的协同感知与交互.所谓协同,可解释为对不一致信息的冲突分析.研究基于粗糙集、模糊集和群体智能决策的冲突分析方法如何应用到大数据决策是未来的一个发展方向.

3.2 大数据动态性带来的挑战

日益加快的人、机、物之间的交互活动,使得数据的快速增长成为大数据显著特性之一.从决策需求的及时性和准确性来看,大数据的动态性对现有的增量式机器学习方法构成巨大的挑战.例如,在流式数据处理中,如何在发生概念漂移时及时调整数据分析策略并实现知识库的自适应更新,仍是一项挑战性的研究任务.

针对大数据动态增量问题,可以考虑形成一个训练学习、执行预测、漂移检测、漂移理解、漂移自适应的多步骤自适应学习模型.这类模型的重点和难点在于漂移理解与漂移自适应.在漂移理解方面可以融入高层次的、符合认知的方法,可以采用粗糙集、模糊集、商空间等粒计算方法建立不同粒度层次下的漂移认知模型,实现符合人类认知的层次化概念漂移理解.针对漂移自适应问题,可以通过构建有效的知识距离度量方法来度量概念漂移距离与方向,同时综合运用进化计算与神经网络等方法构建与问题相符的参数自适应模型,实现对学习模型的演化更新.

3.3 大数据极弱监督性带来的挑战

大数据的快速增长性也决定了大数据的极弱监督性甚至是非监督性.大数据分类学习中的极弱监督性带来的问题通常表现在两个方面:一是因标记稀缺而不能正确详尽地反映出整体数据集的特点,导致学到的学习器泛化能力弱.二是标记稀缺使得构造多分类器时多样性不足,导致集成学习不能奏效.大数据的极弱监督性决定了以聚类算法为特点的无监督学习方法在大数据增量问题上的研究具有巨大的决策应用价值.不过大数据的增量性不仅体现于数据样本的增加,还体现于属性的增加.针对大数据属性增量式聚类问题仍然缺乏有效的方法.

针对大数据的极弱监督性,可以充分利用多视角信息、相似领域信息、先验知识等,采用大数据耦合与关联分析、大数据与经验知识相融合等技术增加额外的监督信息.三支决策[134] 体现了一种渐进决策的思想.我们可以设计三支聚类模型逐步地、有效地利用少量标签信息或者领域专家知识.根据数据类型与问题求解需求,采用合适的粒计算方法构建多粒度聚类分析算法模型,也可望为大数据属性增量式聚类带来新的解决思路.

3.4 大数据不确定性带来的挑战

不确定性是当前人工智能技术研究中的关键问题,同时也是贯穿于大数据智能决策整个过程的核心问题.目前研究较多的就是获取大数据中的不确定性知识.然而不确定性的形式众多,难以用统一的形式化方法表达,也无法凭单一的技术手段来获取大数据中的不确定性知识.不确定性知识发现的研究难度大、价值高,一直是各领域知识发现研究所面临的核心困难问题.

要实现复杂数据中不确定性知识的高效获取,需要为描述不确定性概念知识提供合适的数学模型,建立不确定性知识空间中的计算模型,实现对不确定性知识空间的认知和理解,进而从数据中高效动态获取满足约束要求的知识.粒计算[135-136] 是一种基于认知科学的智能信息计算范式,它适用于近似求解具有不确定性和层次结构的问题,可以达到对问题的简化、提高问题求解效率等目的.从多粒度计算的角度来看,不确定性和确定性是信息在不同粒度层面上的不同表示形式,在某一层次上的不确定性问题可能是其他层次上的确定性问题[34].通过研究大数据在不同粒度层次上的粒度寻优与粒度切换方法可望实现对不确定性信息的有效处理.此外,粒计算往往从实际问题的需求出发,用可行的满意近似解替代精确解,提高问题求解效率.

3.5 大数据隐私问题带来的挑战

目前大数据隐私保护问题已经被广泛关注[16].诸如企业供应链数据、银行交易数据、患者医疗数据、导航用户轨迹数据等均构成了隐私保护的敏感信息范畴.大数据的应用过程中往往不可避免地触及到敏感数据的传输、交互与分析处理,特别是在跨平台、跨企业、跨领域数据的决策分析中,用户隐私数据暴露问题显得尤为突出.现阶段,由于缺乏有效的隐私保护手段,多数拥有数据的企业不愿或不能将数据公开,这在很大程度上放慢了大数据研究与应用的落地.目前,有关大数据应用中的隐私保护还没有标准化的处理手段,在技术层面和管理层面数据隐私都面临严峻的挑战.有学者提出通过制定数据访问与分享的隐私保护策略,比如设置一定的访问资格和权限,或采用匿名数据的方法[137].对于设置数据访问权限的方法,难点在于对安全认证和访问控制机制的设计以及对用户信用的把握; 而采用匿名数据的方法,将显著增加数据的不确定性,为数据分析带来更多困难[7,16].

隐私信息一般是以最细粒度原始数据的形式存在的[136].根据粒计算的观点,数据是知识在最细粒度上的表现,知识是数据在不同粒度层次上的抽象[138-139].面对复杂大数据,数据、信息、知识都可以被粒化,并映射到不同的粒度层次上.此时的计算单元从原有的最细粒度的“数据” 转变为具有认知特征的、规模较小的“知识粒”,经过粒化后的知识粒隐藏了细节信息,从而可以实现大数据隐私信息有效保护.

3.6 特例状况带来的挑战

众所周知,基于机器学习的大数据智能化分析处理方法本质上是建立在对大数据的统计分析基础之上的.在完全信息环境下,通过对大数据的智能化分析可以很好地预测、判断大数据已经覆盖的事物状态,但现实中的决策环境多是开放性的,事物的状态是千变万化的,因此即便是经过长期积累的大数据也无法保证信息的完全性.比如在航天领域中的故障、交通行业中的事故等多数都是特例.并且由于现实条件的约束人们往往无法通过反复试验的方法来获取覆盖各种特例的大数据进行学习预测,因此对特例状况的预测和判断是实际应用中的一大挑战.

对于特例状况的学习,有望借助平行系统和平行学习的方法进行解决.平行系统的概念是由中科院自动化所王飞跃研究员于2004 年提出[140],通过利用大型计算模拟、预测并诱发引导复杂系统现象,构建一种软件定义的人工系统[141].平行学习利用计算实验方法进行预测学习,通过人工系统,依据原始“小数据” 生成大量的人工合成数据.将人工合成数据与原始的小数据一起构成解决问题的所需的“大数据”,通过学习提取,得到应用于某些具体场景或任务的知识,进而用于平行控制和平行决策.平行系统和平行学习可以满足人们对特例状况模拟与预测学习的需求,在一定程度上可能会解决特例对大数据智能决策带来的挑战.

3.7 大数据认知困难带来的挑战

从本质上讲,决策活动是人类的一种认知活动,认知过程是所有决策过程的共性.现阶段的人工智能技术与机器学习方法对于大数据的处理以及知识的获取多数还处于对事物的感知层面,如特征提取,模式识别、预测、回归、聚类等,它们在实质上都是对事物的分类认知.然而分类仅是人类的一种低层次认知,其功能本质在于对事物的区分、辨别与归类.单纯依靠对事物的分类还不足以构成一项完整的决策.决策是任务和需求驱动的问题求解过程,需要决策者在的分类认知的基础之上,继续赋予研究对象以价值尺度认知或功能偏好认知,并最终做出选择的全过程.让机器拥有意识和理解能力才是人工智能最根本的目标,在这方面人工智能刚走出了决策认知的第一步(即分类认知),而偏好认知还多依赖于人的参与.在实际应用中,只有不断提高对大数据快速的、完整的认知能力,才能实现高效及时的大数据智能决策.

陈纯院士指出,当前大数据智能正从规则的学习推理方法,到数据驱动的知识挖掘方法,迈向数据驱动与知识引导的新时代.将数据驱动的机器学习方法与人类的常识先验与隐式直觉相结合,可以实现可解释、更鲁棒和更通用的人工智能[9].郑南宁院士指出,由于人类生活环境的高度不确定性和脆弱性以及面临问题的开放性,任何智能程度的机器都无法完全取代人类,因此有必要将人类的认知能力或类人认知模型引入人工智能系统,形成混合增强智能形态[142].张钹院士指出,人类在问题求解中具有天生的知识驱动能力、对不确定性问题的处理优势和对全局整体的感知能力; 传统机器学习具有在数据分析处理中的数据驱动能力、高速计算能力,二者结合是未来信息处理的发展趋势[143].因此,人机结合的智能形态有望构造出更加有效的认知计算方法.在今后的大数据智能决策的应用与研究中,人机结合的增强智能有望实现对大数据更加有效的处理,并创造出更好的结果.

4 结束语

在全球信息化快速发展的背景下,大数据以其蕴含的巨大价值正受到社会各界的广泛关注.发展基于大数据的人工智能新技术,实现基于大数据的智能决策是推动发展智能经济、智能服务、智能制造的关键手段.现阶段,智能决策理论方法在大数据驱动的模式下快速发展,并逐渐形成一系列围绕多源异构大数据智能化处理的新方法和新趋势.为了深入了解大数据智能决策的发展现状,文章对大数据的特性以及大数据决策的特点进行了归纳总结,并着重从智能决策支持系统的发展、不确定性信息处理、信息融合、关联分析以及增量分析五个方面综述了当前大数据智能决策的发展现状.最后文章讨论了大数据智能决策仍然面临的问题与挑战,展望了一些潜在的方法及研究方向.作为一门快速发展的开放性学科领域,大数据智能决策在内涵外延、模型理论、技术方法及实施策略等方面还需要人们继续投入更多的研究与实践.希望本文对大数据智能决策的相关介绍与探讨能够对读者提供有益的借鉴和帮助.

审核编辑：符乾江

阅读全文

机器学习(130422) 机器学习(130422)
大数据(136504) 大数据(136504)
深度学习(119795) 深度学习(119795)

科达嘉电感器在大数据与人工智能领域被广泛应用

近年来，大数据与人工智能成为科技领域的热门话题。大数据为人工智能提供了大量的数据作为输入，使得人工智能算法和模型能够通过学习做出更准确的预测和决策。

2024-02-29 13:56:24

209

科达嘉电感器广泛应用于大数据及人工智能领域为AI赋能

2024-02-23 17:29:39

569

安科瑞变电站综合自动化系统在山东凯瑞英材料科技有限公司的应用

管理机及网络交换机实时采集微机保护装置、智能操控装置、多功能仪表等二次设备数据，实现整个厂区供配电系统的全面电力监控与自动化管理，能大大提高变电站运行的可靠性、安全性、提高供电质量，实现无人或少人值班

2024-02-20 11:12:04

大数据技术是干嘛的大数据核心技术有哪些

大数据技术是指用来处理和存储海量、多类型、高速的数据的一系列技术和工具。现如今，大数据已经渗透到各个行业和领域，对企业决策和业务发展起到了重要作用。本文将详细介绍大数据技术的概念、发展背景，以及大数据

2024-01-31 11:07:26

530

在自动化生产领域中研华工控机应用分享

等。通过工控机，可以实现生产过程的自动化和高效运行。 2. 数据采集和监测：工控机用于实时采集和处理生产线上的数据，包括温度、压力、湿度、速度等参数。这些数据可以用于监测生产过程的状态，帮助运营人员进行实时决策和故

2024-01-25 14:41:16

200

华众自动化研发的高精度3D传感器测量集成系统再升级

近日，深圳市华众自动化工程有限公司（简称“华众自动化”）正式签约入驻国内领先的大数据科创管理平台——企知道科创空间。

2024-01-23 09:36:39

357

CASAIM与LG化学越南工厂达成全自动化智能测量技术合作，助力汽车锂电池相关零部件全自动化测量及质量管控

近日，CASAIM与LG化学越南工厂达成全自动化智能测量技术合作，CASAIM将为LG化学越南工厂提供最新一代的CASAIM-IS全自动化测量系统解决方案，助力LG化学越南工厂实现汽车锂电池相关

2024-01-16 15:47:43

工业智能化控制方案：引领自动化时代，开启智能工业新篇章

随着人工智能、物联网和大数据等前沿技术的迅猛发展，企业实现自动化和智能化的速度和规模也在不断加快。据中商情报网的数据显示，到2022年，我国工业自动化市场规模将达到2807亿元，并预计到2023年市

2024-01-16 11:04:18

218

自动化PLC水厂如何实现数据采集智能化管理

目前，自动化技术已在水厂行业得到广泛应用，可以实现对各水处理设备及工艺的自动化控制，从而达到现场无人值守的目的，既保障了及时、安全供水，又解放了人力、节约供水成本。虽然水厂已经实现自动化，但仍未

2024-01-09 16:23:24

122

Modbus转ethercat网关在农业中的应用主要体现

的控制系统，通过Modbus协议实现远程控制和自动化操作。这有助于提高农业生产效率，降低人工成本。智能农业决策支持系统：Modbus转ethercat网关可以采集大量的农业数据，包括气象数据、土壤数据、生产

2023-12-31 08:42:25

分布式IO工业自动化数据采集与分析的核心

工业自动化生产的效率。在传统的工业自动化生产中，设备的控制和监测通常采用集中式控制方式，这种方式存在着设备连接复杂、数据传输速度慢、故障率高和扩展性差等问题。而分布式IO采用分布式控制方式，将设备按照

2023-12-28 14:47:02

“汇川杯”全国智能自动化大赛东北赛区说明会成功举行

"汇川杯"全国智能自动化创新大赛由中国自动化学会主办、苏州汇川技术有限公司承办，12月16日下午14:00，首场大赛说明会在东北赛区承办院校哈尔滨工业大学活动中心

2023-12-20 18:40:02

368

电源测试怎么自动化？电源模块自动化测试系统如何实现？

纳米软件在电测行业深耕十余年，在行业的大背景下，为了进一步完善自动化测试，开发出了新的智能化的电源模块自动化测试系统ATECLOUD-POWER，实现自动化测试，自动采集、统计、分析测试数据，提高测试速度。

2023-12-15 14:40:39

273

罗克韦尔自动化助力上海宝鹿实现生产线自动化改造

罗克韦尔自动化在工业自动化、信息化和数字化转型领域的先进技术和丰富经验，上海宝鹿完成了“数智”车间的建立，不仅实现了产线的自动化与节能增效，更成功迈向更可持续的“数智”转型与发展之路。此次自动化生产线改造项目旨在

2023-12-15 08:25:02

184

LabVIEW与Tektronix示波器实现电源测试自动化

的自动化和数据处理的智能化。通过LabVIEW编程环境连接Tektronix示波器，可以精确设置测试参数，如电压、电流波形等，确保每次测试的一致性和准确性。自动化系统对捕获的数据进行处理和分析，如电源

2023-12-09 20:37:39

Get职场新知识：做分析，用大数据分析工具

为什么企业每天累积那么多的数据，也做数据分析，但最后决策还是靠经验？很大程度上是因为这些数据都被以不同的指标和存储方式放在各自的系统中，这就导致了数据的分析口径和标准不一致，无法在同一个分析软件上做

2023-12-05 09:36:05

浅析中国工业自动化与智能化应用

自动化驱动产品与智能操控系统主要用于工业自动化中的设备自动化领域，其中自动化驱动产品是实现设备单机自动化的核心部件；智能操控系统是在设备单机自动化的基础上，实现设备生产作业过程的自动化，即设备操控的远程化或自动化。

2023-12-01 10:11:07

187

自动化图像测量仪

中图仪器VX8000自动化图像测量仪改变了影像仪采用光栅尺测量的定律，采用远心成像技术+高像素工业相机结合，并采用智能算法，从而达到快速测量的效果。VX8000自动化图像测量仪具有操作简单、测试

2023-11-10 13:35:07

工业自动化系统中PLC数据采集网关有什么功能

工业自动化是在不需要人工干预的情况下实现自动化生产和过程控制的系统。实现生产和过程控制自动化的装置称为自动化控制系统，如可编程逻辑控制器PLC。PLC作为高端智能装备的重要组成部分，是实现工业自动化、数字化、网络化和智能化的关键。

2023-11-09 17:26:17

248

自动化控制系统的基本知识

工业自动化是机器设备或生产过程在不需要人工直接干预的情况下，按预期的目标实现生产和过程控制的统称。实现生产和过程控制自动化的装置称为自动化控制系统。自动化控制系统作为高端智能装备的重要组成部分

2023-11-09 16:45:54

1044

机器人和自动化学习机会

Hine Automation和ROOTS Education在合作创造主题更加相关、更易获得的机器人和自动化学习机会。此次合作是一项积极举措，旨在确保半导体行业拥有所需的训练有素的劳动力，以解决技能短缺问题并在未来几年蓬勃发展。

2023-11-07 16:08:42

150

自动化工程及自动化项目一般步骤

德赢Vwin官网网站提供《自动化工程及自动化项目一般步骤.doc》资料免费下载

2023-11-03 09:29:46

中科慧眼荣获2023中国自动化学会技术发明奖二等奖

近日，中科慧眼核心团队以“智能汽车双目感知系统”项目荣获2023中国自动化学会（CAA）技术发明奖二等奖。

2023-11-01 18:27:51

457

农业物联网自动化灌溉之一体化智慧泵房

一体化智慧泵房：这是一个高度整合的泵房解决方案，将管中泵、电机、控制器及其他关键设备集成于一个紧凑的系统内，提高效率并降低成本。利用先进的信息技术、大数据、物联网等技术实现泵房的智能化运作，能进行远程控制、自动化运行、故障诊断等。

2023-10-31 10:29:57

215

基于RFID的车辆自动化智能管理系统研究

德赢Vwin官网网站提供《基于RFID的车辆自动化智能管理系统研究.pdf》资料免费下载

2023-10-24 10:52:12

基于大数据分析的5G智能工厂如何实现

、应用和未来的发展前景，以及它们如何相互结合，推动智能制造的未来发展。 大数据分析是指通过对海量数据进行分析，挖掘出其中有价值的信息和知识，以指导业务决策和创新的过程。与传统数据挖掘相比，大数据分析处理的数据规模更大、类

2023-09-25 17:08:42

292

过程自动化控制和运动自动化控制的原理详解

工业自动化从原理上可分为过程自动化与机械(运动)自动化。

2023-09-25 10:52:36

662

智能配电室自动化系统

随着经济的发展和用电量的增加，许多企业和用户对电力系统的稳定性和可靠性提出了更高的要求，推动了智能配电室自动化系统的发展。通信技术、物联网技术、人工智能等技术的进步为智能配电室自动化系统提供了更好

2023-09-22 14:33:38

839

AI智能呼叫中心

、数据驱动决策以及人力成本节约，旨在深入剖析其核心优势和对企业的重要意义。一、自动化处理AI智能呼叫中心通过引入自然语言处理(NLP)、机器学习和自动化技术，使得呼叫中心的处理过程更加高效和准确，AI

2023-09-20 17:53:17

物联网应用之智慧档案馆八防十防一体化平台

学习等算法对监控数据进行智能分析，实现异常检测、预测预警等功能。 大数据分析：通过对大量数据的挖掘和分析，提取有价值的信息和知识，为档案馆的优化管理和决策提供支持。智能决策：通过智能算法和数据

2023-09-14 10:33:35

大数据如何应用于业务和决策？

大数据已经成为当今商业和决策制定中的一个关键因素。随着互联网的普及和技术的不断进步，我们生产的数据量呈指数级增长。这些数据不仅包括来自社交媒体、传感器、移动设备等各种来源的信息，还包括过去难以存储

2023-09-08 11:00:34

233

决策树的生成资料

量、峰峰值、过零（正和负）、原始和过滤后的传感器数据峰值检测（正和负）。如果在所选的特征中观察到不同的模式，则可以使用决策树进行分类。考虑图 1 中所示的加速度数据示例。

2023-09-08 06:50:22

Brocade SANnav实现更智能、自动化、可操作的洞察

德赢Vwin官网网站提供《Brocade SANnav实现更智能、自动化、可操作的洞察.pdf》资料免费下载

2023-09-07 10:37:16

工厂自动化解决方案和调试

工厂自动化 提高生产效率，产品利用率高得多，减少人工手工作业，节约能源和资源。云计算新技术、预测分析、机器学习使能源及公用事业公司能够建立数字化客户模型。智能制造可减少空气污染，实现弹性运转，改善人们生活。

2023-09-07 07:21:18

琅菱涂料自动化产线的优势

涂料指的是能够包裹在被涂覆材料的表面，形成保护、装饰等作用的连续薄膜，它的成分通常含有油脂、树脂等内容，还会选择是否添加辅助剂、颜料等合成类化学元素。涂料自动化产线是集乳化、分散研磨、细化冷却、过滤

2023-09-06 18:04:24

319

自动化光纤通道数据中心

德赢Vwin官网网站提供《自动化光纤通道数据中心.pdf》资料免费下载

2023-08-30 15:32:05

未来趋势：将AI和ML融入自动化闭环控制

通过提高自动化程度加强工厂车间的信息控制，可以帮助制造商做出更好的决策。

2023-08-15 11:11:46

253

人工智能大数据是什么

首先，我们需要了解人工智能大数据的定义。通俗地说，人工智能大数据就是将人工智能技术和大数据技术相结合，通过分析和处理海量的数据，从中发掘潜在的价值，提供智能化的解决方案。

2023-08-13 10:57:17

1820

什么是人工智能与大数据

人工智能与大数据在不同领域中都扮演着至关重要的角色。在技术领域，人工智能和大数据可用于智能交互和自动化流程、机器学习和自然语言处理，以及用于增强和安全性方面的应用重要工具。

2023-08-13 09:41:31

1307

大数据属于人工智能吗

大数据属于人工智能吗 大数据是一种新兴的技术，它可以帮助我们处理海量的数据，提供准确的分析和预测。许多人认为，大数据和人工智能有着密切的关系。那么，大数据属于人工智能吗？这是一个复杂的问题，需要

2023-08-12 17:44:21

1623

人工智能和大数据哪个好

人工智能和大数据哪个好人工智能和大数据是当前科技领域最为火热的两个话题，吸引了越来越多的关注和研究。随着技术的不断发展和应用，这两者已经成为了现代社会中不可缺少的一部分，对于企业和个人的发展都有

2023-08-12 17:44:09

619

大数据和人工智能哪个好

大数据和人工智能哪个好随着技术的不断发展，大数据和人工智能成为了当前最热门的话题之一，而且这两项技术也各有优缺点。下面我们将探讨一下大数据和人工智能哪个更好。一、大数据的优点 1、数据规模

2023-08-12 17:39:51

1106

大数据是人工智能吗

大数据是人工智能吗随着互联网技术和数据采集技术的发展，数据量不断增大，大数据应运而生。大数据技术的出现，使得数据分析的速度和效率大幅提高，同时也为人工智能的发展提供了基础支撑。那么，大数据

2023-08-12 17:12:45

844

人工智能与自动化的区别

人工智能与自动化的区别人工智能（AI）和自动化（Automation）是两个很常见的词汇，但是很多人却误认为这两个概念是一样的或者仅仅是小小的差别，实际上，AI和自动化有着明显的区别。本文将对

2023-08-09 18:03:01

2952

人工智能与大数据的区别与联系

人工智能与大数据的区别与联系随着互联网时代的到来，大数据产生和存储引发了业界的广泛关注，而随着人工智能（AI）技术的发展，特别是深度学习和自然语言处理技术的成熟，人工智能领域正在成为一个重要的技术

2023-08-09 18:01:39

1460

工业物联网之“设备数据采集与控制+大数据存储分析+APP无代码应用开发”

数字化管理、智能化生产提供基础数据支持，赋能工厂管理者高效决策。什么是数据采集？工业数据采集是利用泛在感知技术对多源设备、异构系统、运营环境、人等要素信息进行实时高效采集和云端汇聚。包括设备接入、协议

2023-08-07 20:53:23

人工智能与大数据的关系和影响

人工智能和大数据是密不可分的。大数据提供了足够的数据让机器学习，从而使人工智能更加聪明、精确和准确。同时，人工智能也能够为大数据提供更高效的处理手段，例如自动分类、识别和分析。

2023-08-03 17:45:02

1264

自动化正在变成一个软件行业？柔性自动化未来何去何从？

自动化发展日趋偏向软件化智能化，非标行业未来朝标准化发展已经是大势所趋。近年来，柔性自动化逐渐被大厂接受认可，其原因既是柔性自动化产线能满足目前转变极快的市场行情，也是因为自动化相较于人工而言更高效稳定。柔性自动化在面对小批次多品种的产品时，展现出来的优势是非常明确的。

2023-08-02 15:28:10

436

从工业的自动化走向智能化简析

在工业界，传统自动化方案均是将知识灌入机器人系统，通过编程的形式实现自动批量处理事务的功能。

2023-07-26 16:48:11

1301

浅谈机器智能系统中自主程度的分级

机器智能系统具有多种形式和功能，如机器学习算法、自动化决策系统等。这些系统涉及到数据处理、推理、决策等多个环节，并且可能受到不同程度的人工设计、规则设置或训练数据的影响。

2023-07-23 15:24:56

404

一款数据库自动化提权工具

一款用Go语言编写的数据库自动化提权工具，支持Mysql、MSSQL、Postgresql、Oracle、Redis数据库提权、命令执行、爆破以及ssh连接等等功能。

2023-07-19 14:57:33

337

决策树(2)#大数据分析

大数据分析

学习硬声知识发布于 2023-07-11 18:26:31

决策树(1)#大数据分析

大数据分析

学习硬声知识发布于 2023-07-11 18:26:06

国产工控机：推动工业自动化的智能转型

于轨道交通、智能医疗、银行、政务、物流、网络安全等各个领域。我国工业自动化产业起步较晚，技术发展较为缓慢。随着自动化技术得到国家的大力支持，技术发展取得了迅速进展。工业自动化通过合理的设计和采用最新技术，能够精

2023-07-11 14:14:26

241

大数据智能拓客系统

大数据智能拓客系统是为了帮助各行业可以快速的开发市场，获取客源，提高业绩，针对企业需求专门研发的一整套智能系统，可以获取全国地区各个行业的客户信息，不管是终端客户还是厂家、渠道商、批发商都能轻松找到

2023-07-05 14:36:31

417

Facebook群组自动化python – 网络自动化

德赢Vwin官网网站提供《Facebook群组自动化python – 网络自动化.zip》资料免费下载

2023-07-05 14:26:57

基于数据平台流量的自动化测试

1 背景与挑战 1.1 数据平台业务背景数据平台利用大数据智能分析、数据可视化等技术，对公司内外部经过采集、建设、管理、分析的多源异构数据进行呈现和应用，实现了数据共享、日常报表自动生成、快速

2023-06-28 16:28:37

440

电商数据分析攻略，让你轻松搞定数据分析！

商行业共性分析需求打磨而成，旨在帮助电子商务公司更好地了解和满足他们的客户需求，以实现业务增长。一、方案特点奥威BI电商数据分析方案的特点是其高度自适应性和智能化。它可以自动识别有效数据，并自动

2023-06-27 09:22:14

SMT 4节点智能家居自动化PCB

德赢Vwin官网网站提供《SMT 4节点智能家居自动化PCB.zip》资料免费下载

2023-06-26 10:49:00

智能办公自动化系统的创建

德赢Vwin官网网站提供《智能办公自动化系统的创建.zip》资料免费下载

2023-06-25 15:35:36

自动化数据采集仪 MCU

HMU-6000自动化数据采集仪是用于采集振弦、RS485输出的传感器信号,拥有超低功耗，超小体积，超大存储，超简洁配置。自动化数据采集仪将测量、传输、供电功能集成在采集仪内，采集仪为金属外壳，有效

2023-06-25 15:34:35

379

大数据的人工智能区别

大数据与人工智能一个比较明显的区别就在于大数据是需要变得有用之前进行清理、结构化和集成的原始输入，而人工智能则不同，它是要输出，也就是就是处理数据产生的智能，所以由此看出，他们两者就有着本质上的区别。

2023-06-08 16:57:43

723

采用AI智能分析的智慧采购系统，你见过吗？

，存在采购效率低、成本高等情况。……广凌招标采购内控管理系统，提出“智慧采购”概念，通过大数据、云计算、人工智能等技术的应用，实现采购流程的数字化、自动化、智能化管

2023-06-05 15:31:10

359

CASAIM自动化检测设备自动扫描变速箱三维尺寸检测方案

随着大数据的发展，数据的真实性以及排躁性愈发重要，自动化扫描检测解决方案因时而生，CASAIM智能制造在此领域内已进行大量研发创新。为了更好地实现标准化的三维扫描检测，CASAIM智能制造以机器代替人工，打造高效、标准化的自动化检测设备。

2023-06-02 16:38:11

415

自动驾驶决策概况

文章目录1. 第一章行为决策在自动驾驶系统架构中的位置 2. 行为决策算法的种类 2.1 基于规则的决策算法 2.1.1 决策树 2.1.2 有限状态机（FSM） 2.1.3 基于本体论

2023-06-01 16:24:31

实验室设备如何实现远程控制和自动化管理？

、大数据等信息技术，将实验室的设备、门禁、电源、空调、摄像头等进行智慧物联，实现实验室设备的智能化、自动化管理。01远程物联控制设备通过广凌实验室智能中控，对实验

2023-05-26 14:45:36

520

工业自动化：PLC、DCS、RTU、PAC、SCADA

在现代世界中，工业自动化几乎无处不在。自动化系统允许制造、工程、建筑、发电和其他处于经济核心的流程以提高效率和生产力。今天的工业自动化正在经历一个新的重大发展热潮，这是由人工智能(AI)、云计算、大数据、物联网(IoT)等创新技术推动的。

2023-05-23 16:36:21

2061

如何使用MQTT和ESP8266的家庭自动化系统？

在本视频中，我们将看到在 ESP8266 上使用 MQTT 的家庭自动化系统。对于这个项目，我们将使用 Adafruit.io mqtt 服务器。对于描述中共享的代码、原理图和 Gerber 文件链接。

2023-05-22 07:19:25

工业自动化设备有哪些

工业自动化设备有哪些工业革命是自动化技术的助产士。正是由于工业革命的需要，自动化技术才冲破了卵壳，得到了蓬勃发展。同时自动化技术也促进了工业的进步，如今自动化技术已经被广泛的应用于机械制造、电力

2023-05-19 10:58:09

2568

工业自动化是做什么

工业自动化是做什么的工业自动化是在工业生产中广泛采用自动控制、自动调整装置，用以代替人工操纵机器和机器体系进行加工生产的趋势。在工业生产自动化条件下，人只是间接地照管和监督机器进行生产。工业自动化

2023-05-19 10:55:55

720

大数据分析的重要性

大数据分析有助于找到问题的解决方案，如降低成本，节省时间并降低决策风险。通过结合数据分析和机器学习，企业可以通过以下方式获益匪浅：

2023-05-10 15:34:41

617

什么是柔性自动化？

什么是柔性自动化，柔性自动化生产技术简称柔性制造技术，它以工艺设计为先导，以数控技术为核心，是自动化地完成企业多品种、多批量的加工、制造、装配、检测等过程的先进生产技术。

2023-05-06 18:03:43

1969

一个自动化的测试流程

一个自动化的测试流程。

2023-05-04 17:48:40

大数据是什么大数据存储的概念大数据应用场景有哪些

大数据的成功管理取决于几个方面，例如数据的收集、存储、处理、分析和可视化。在大数据的处理过程中，各种技术和算法也被不断地应用于解决各种问题。大数据技术将继续发展和应用于各种领域，成为管理和处理信息的有效手段。

2023-05-03 09:23:00

2652

人工智能时代背景下，如何发展与应用自动化测试？

人工智能时代为自动化测试提供了机会和挑战。在发展自动化测试方面，是人工智能领域下的一个应用方向，和无人驾驶、机器人等一样，都是AI技术的应用场景。从技术的发展角度看，自动化测试一共经历了四代

2023-04-25 20:08:28

303

工业自动化是什么意思

工业自动化是什么意思工业自动化是在工业生产中广泛采用自动控制、自动调整装置，用以代替人工操纵机器和机器体系进行加工生产的趋势。在工业生产自动化条件下，人只是间接地照管和监督机器进行生产。工业自动化

2023-04-24 10:34:23

1023

工业自动化是做什么的工业自动化技术应用

　工业自动化是指利用先进的技术和设备，通过自动化、计算机技术及控制工程，对工厂、企业、生产流程和设备进行智能化、数字化、网络化管理，以提高生产率、生产过程的可持续性和效率的方法。

2023-04-23 11:10:49

4022

工业自动化行业发展前景工业自动化发展趋势

工业自动化行业在近年来快速增长，有着良好的发展前景。以下是其主要发展前景：　　1. 技术发展：随着数字化和物联网技术的不断发展和进步，工业自动化将进一步推进。机器人、人工智能等新技术

2023-04-23 10:51:31

8297

自动化编程前景怎么样自动化编程软件有哪些

　自动化编程技术目前应用广泛，涉及制造业、能源、医疗、建筑、交通等各个领域。随着智能制造和工业4.0的发展，自动化编程技术在未来将会有更多的应用，因此其前景广阔。

2023-04-19 16:01:44

2216

自动化技术应用自动化技术在机械制造中的应用

工业自动化是自动化技术应用的一个最为重要的方向。其具体运用的方面有：　　计算机辅助设计（CAD）和计算机辅助制造（CAM）综合办公自动化（OA）（例如：门禁系统、资讯科技稽核）过程控制与自动化仪器仪表人工智能技术

2023-04-19 15:45:04

1355

自动化技术学什么自动化技术员工作内容

自动化专业是学电路知识、数字电子技术、自动控制原理、计算机技术和软件技术等。　　自动化专业需要学习的基本知识：自动化控制理论、电路原理、电力电子技术、数字电子技术、信号与系统分析、传感器技术、网络与通信技术、高级语言程序设计以及化学工程、力学和管理学等方面的知识。

2023-04-19 15:37:29

1930

自动化设备是做什么的自动化设备组装

自动化设备就是一种通过计算机程序和机电一体化技术实现自动化生产和操作的设备。它们可以帮助企业和个人完成生产和操作过程中的一系列任务和操作，并提高生产效率、优化产品质量和降低生产成本。　　以下

2023-04-19 15:26:30

6015

什么是自动化测试框架

自动化测试框架，即是应用于自动化测试所用的框架。按照框架的定义，自动化测试框架要么是提供可重用的基础自动化测试模块，如：selenium 、watir等，它们主要提供最基础的自动化测试功能，比如打开一个程序，模拟鼠标和键盘来点击或操作被测试对象

2023-04-18 14:44:48

536

大数据杀熟什么意思大数据杀熟的危害

大数据杀熟是指在使用大数据分析技术分析用户数据后，通过识别出那些倾向于比其他用户更愿意为同样的服务或产品支付更高价格的用户，并将更高的价格或费用加在他们的账单上。其背后的原理是：这些用户愿意为这些

2023-04-16 14:33:22

8062

大数据技术有哪些大数据前景

大数据从字面意思来理解，就是海量数据的结合，从数据分析全流程的角度，大数据技术主要包括数据采集与预处理、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容：

2023-04-14 17:45:11

3640

大数据是什么意思大数据应用

类型复杂、数据质量不一等。　　大数据（big data），或称巨量资料，指的是所涉及的资料量规模巨大到无法透过主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

2023-04-14 17:14:10

3484

变电站自动化系统是什么

变电站二次设备主要包括控制、测量、信号、保护、远动装置和自动装置。因此，变电站自动化是自动化技术、通信技术和计算机技术等技术在变电站领域的综合应用。变电站自动化可以收集到较为齐全的数据和信息，具有计算机高速计算能力和判断功能，能够方便地监视和控制变电站内各种设备的运行及操作，实现运行管理的智能化。

2023-04-13 14:58:17

851

如何区分电气自动化与过程自动化

大家常说的工业自动化控制，一般都是指两个方面：电气自动化与过程自动化。电气自动化控制是以跟随控制和位置动作控制为主线，如机械手，加工中心，数字机床，注塑机，自动化装配线和保证线等。

2023-04-13 11:23:41

870

配电自动化终端的分类

配电自动化终端是配电自动化系统的执行单元，也是配电自动化系统的重要组成部分，主要对配电系统中的开关设备进行监视与控制，具有故障定位与隔离、系统保护等功能。

2023-04-12 15:08:21

4160

应用配电自动化终端的意义

在配电网自动化的环节，位于基础层的配电终端是一个非常重要的组成部分。配电自动化系统的实时数据、故障自动处理的判据、开关设备的运行工况等数据都来源于配电终端，故障隔离、负荷转移、恢复非故障区段的供电、对馈线上开关的分/合操作也都是通过配电终端来执行。

2023-04-12 15:03:59

795

大数据技术主要学什么

工程师、大数据可视化工程师等。 大数据专业介绍或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据是指无法在一定时间范

2023-04-12 13:53:34

6157

变电站自动化系统优缺点变电站自动化系统结构

变电站自动化系统是以计算机技术、自动控制技术及通信技术为核心，对变电站及配电系统各个环节进行自动化控制和数据处理的系统。其优缺点如下：

2023-04-11 09:45:21

819

配电自动化系统有哪些功能作用？

的安全。　　4.故障诊断和自愈：配电自动化系统可以通过智能算法或模型来分析供配电系统发生故障的原因，并能够实现自愈，使整个系统在最短时间内从故障中恢复过来。　　5. 数据分析与处理：采用大数据技术对数据

2023-04-10 17:19:37

配电自动化系统有哪些通信方式？通信过程是怎样的？

。　　配电自动化系统的通信过程　　配电自动化系统的通信过程可以简单描述如下：　　1. 数据采集：配电自动化系统通过各种传感器、智能电表等设备，实现对供配电系统的实时数据采集和监测，如电压、电流、功率因数等

2023-04-10 17:10:23

配电自动化系统主要由什么组成？有哪些特点？

　　配电自动化系统是指通过现代化的自动化技术，使供配电系统实现自动化、高效化和智能化的管理和运行。它包括数据采集、实时监测、远程控制、保护和自愈等多种功能，对提高供配电系统的可靠性和经济性、优化

2023-04-10 17:04:59

智能配电网自动化系统解决方案

智能配电网自动化系统解决方案配电自动化系统利用计算机技术、自动控制技术、现代电子技术、通信技术及网络技术，并使用高性能智能配电设备，将配电网实时信息、离线信息、用户信息、电网结构参数、地理信息进行

2023-04-07 14:53:20

892

配电自动化的现状及发展趋势

配电网自动化智能电网投资重中之重：配电网作为输配电系统的最后一个环节，其实现自动化的程度与供用电的质量和可靠性密切相关。配电自动化是智能电网的重要基础之一。从投资构成上我们预计，智能电网的投资构成

2023-04-07 09:53:22

2755

1118

已全部加载完成

搜索历史

《自动化学报》—大数据智能决策

评论