0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心
发布

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据分析学习的挑战:复杂性、不确定性及涌现性

454398 来源:alpha007 作者:alpha007 2022-11-17 10:19 次阅读

来源:ST社区

科多分享的大数据分析学习与研究的新挑战:对于习惯结构化数据研究的统计学来说,大数据分析显然是一种崭新的挑战。

挑战来自何方?来自于大数据的复杂性、不确定性和涌现性三个方面,其中复杂性最为根本。

大数据的复杂性

复杂性是大数据区别于传统数据的根本所在,它主要表现为类型复杂性、结构复杂性和内在模式复杂性三个方面,从而使得大数据的存储与分析产生多方面的困难。对于大数据的类型与结构的复杂性这里不再赘述,但它们决定了数据模式的多样化,使得刻画数据特征的模式不断变化、呈几何级数增加。统计学尽管长期以来研究复杂现象的数量特征,但所涉及的数据是结构化的,模式是固定化的,比起大数据要简单得多。

因此,学习大数据,我们不仅要熟悉各种类型的数据模式,还要善于把握它们之间的相互关系与作用,善于综合利用各方面的知识(包括文本挖掘、图像处理、信息网络技术、心理学、社会学等等)加以研究。已有一些学者提出利用网络来描述异质数据间的关系,同时提出了目标数据的“元路径(Meta-Path)”概率刻画模式。同时,由于非结构化数据通常比结构化数据包含更多的无用信息和垃圾信息,因此需要运用特定的方法来去伪存真、去粗存精,例如通过搜索引擎从非结构化数据中检索出有用的信息等等。

大数据的不确定性

网络大数据通常是高维的,以往的统计学习方法往往难以产生令人满意的效果。复杂性必然带来不确定性。

大数据的不确定性表现为数据本身的不确定性、模型的不确定性和学习的不确定性,从而给大数据建模和学习造成困难。数据的不确定性既包括原始数据的不准确,也包括数据处理过程中由各种因素所造成的在不同维度、不同尺度上的不确定性。例如阿里巴巴数据官曾经介绍,区淘宝网上购物者的性别特征就可以有十几种判断。虽然传统的统计学方法主要研究不确定性数据,但传统数据的不确定性明显不同于大数据的不确定性,面对海量、高维、多类型的不确定性数据,传统的统计方法显得力不从心,无论是数据的采集、存储、建模还是查询、检索和挖掘,都需要创新方法。大数据的不确定性必然带来数据处理与分析模型的不确定性,但要解决这一点非常困难,有人提出了“可能世界模型”,认为应该在一定的结构规范下刻画出数据的每一种状态,但这同样极其困难,在实际应用中不可能存在这样一种通用的模型结构,只能采取简化的模型,例如独立性假设、同分布假设等等,尤其是概率图模型已在数据相关性建模等方面得到了广泛的应用。

模型的不确定性又必然带来大数据学习的不确定性,使得模型参数的学习很难找到最优解,找到一个局部最优解都很困难,通常只能采用近似的方法来替代。

随着多核CPU/GPU的普及以及并行计算框架的研究,碎片化方法被普遍认为是解决网络大数据问题的可行方法,但需要做的工作仍然非常多。近些年来,统计学习领域的非参数模型方法提供了一种自动学习思路,但计算过程依然复杂,如何应用到网络大数据以及大数据培训中仍然是个问题。

大数据的涌现性

涌现性是网络大数据有别于其他数据的关键特性,是大数据动态变化、扩展、演化的结果,表现为模式的涌现性、行为的涌现性和智慧的涌现性,其在度量、研判与预测上的困难使得网络数据难以被驾驭。

涌现性的背后是各种信息的交互作用,是产生新的人类行为方式、以及社会经济规律的重要基础。模式的涌现性是指网络数据由于多尺度、异质性而表现出来的、在属性和功能等方面既存在差异又相互关联的特定模式特征,这种涌现性结果对于研究社会网络模型、理解网络瓦解原因具有重要意义。行为的涌现性则与数据的时序性有关,是社会网络中个体行为基于时序分布的统计结果,表现为较大相似性个体之间容易建立社会关系,使得网络在演化过程中自发形成相互分离的连通块。这种涌现性对于研究更多的社会网络模型、理解行为涌现规律具有重要意义。例如,著名网络科学家巴拉巴斯(Barabasi)通过研究发现,人们发送邮件的数量存在着特定的时间分布特征。智慧的涌现性是指网络数据在没有全局控制和预先定义的情况下,来自大量个体的自发语义通过互相融合和连接可以形成为有特定意义的通用语义,整个过程随着数据的变化而持续演进。这种涌现性对于理解网络语义的形成与变化具有重要意义。

总体而言,尽管近些年与大数据研究密切相关的数据库、数据挖掘、机器学习智能工程等领域都取得了很大的进展,但由于大数据的复杂性、不确定性和涌现性,使得相关研究成果难以被直接应用于学习大数据的分析研究之中。传统的分析方法不能准确表示网络大数据在异构性、交互性、时效性和突发性等方面的特点,传统的“假设—模型—验证”的统计方法受到了质疑,而从“数据”到“数据”的第四研究范式还没有真正建立,因此亟需一个新的理论体系来指导,建立新的分析模型。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大数据
    +关注

    关注

    64

    文章

    8788

    浏览量

    136923
收藏 人收藏

    评论

    相关推荐

    机器学习数据分析中的应用

    随着 大数据时代的到来, 数据量的爆炸 增长对 数据分析提出了更高的要求。机器 学习作为一种强大的工具,通过训练模型从
    的头像 发表于07-02 11:22 247次阅读

     相对于人工的不确定性,机器人码垛有何优势

    在现代工业生产中,码垛是一项至关重要的任务,它涉及到将不同形状、大小和重量的物品进行有序地堆叠,以便于后续的运输和储存。然而,传统的人工码垛方式存在着诸多 不确定性,这些 不确定性可能源自工人的疲劳
    的头像 发表于06-19 14:45 130次阅读

    什么是嵌入式实时系统的确定性?简析EDMS中的确定性

    ETAS Deterministic Middleware Solution点击跳转(EDMS,前身为AOS) 确定性中间件解决方案,是一个中间件框架,旨在面向汽车领域内应用程序的独特 挑战和需求
    的头像 发表于04-15 11:22 726次阅读
    什么是嵌入式实时系统的<b class='flag-5'>确定性</b>?简析EDMS中的<b class='flag-5'>确定性</b>

    硬件工程师在可靠设计中所面临的挑战及解决之道

    Course硬件电路可靠 设计HardwareEngineer硬件电路工程师在进行可靠 设计时,常常会陷入一系列烦恼之中。这些 挑战包括成本、时间压力、可靠 预测的
    的头像 发表于03-23 08:16 456次阅读
    硬件工程师在可靠<b class='flag-5'>性</b>设计中所面临的<b class='flag-5'>挑战</b>及解决之道

    FMEA与智能机器人:提升机器人可靠与安全的关键

    随着科技的飞速发展,智能机器人已经深入到我们生活的方方面面,从工业生产到家庭服务,从深海探险到太空探索,处处都有它们的身影。然而,随着应用的日益广泛,机器人系统的 复杂性不确定性也在增加,如何确保
    的头像 发表于03-22 11:07 392次阅读

    确定性网络技术如何提高网络的可靠

    确定性网络技术通过采用时钟同步、流同步和时序一致 、带宽保障和流量控制、 数据包复制与排除等机制,提高网络的可靠 ,适用于工业自动化、车辆网络等对通信质量有严格要求的领域。TSN技术的引
    的头像 发表于01-12 16:50 858次阅读
    <b class='flag-5'>确定性</b>网络技术如何提高网络的可靠<b class='flag-5'>性</b>?

    三星电子急签WOLED订单:为应对LCD供应不确定性

     尽管去年三星电子从LG Display购买的W-OLED电视面板数量有限,但随着市场 不确定性的上升和供应链问题的加剧,三星电子正在调整策略,寻求更多元化的供应来源。
    的头像 发表于01-03 15:10 685次阅读

    Get职场新知识:做分析,用大数据分析工具

    综合 分析。但现在有了 大数据分析工具,一切问题都可迎刃而解。 大数据分析工具,顾名思义就是专门为 分析海量 数据而开发的一类工具。这类工具具有极强
    发表于12-05 09:36

    消除热电偶温度测量中的不确定性(使用AD594/AD595)

    德赢Vwin官网 网站提供《消除热电偶温度测量中的 不确定性(使用AD594/AD595).pdf》资料免费下载
    发表于11-23 11:34 0次下载
    消除热电偶温度测量中的<b class='flag-5'>不确定性</b>(使用AD594/AD595)

    乌卡时代确定性稀缺,企业多云战略最需看中什么?

    双十一刚过,云服务商宕机导致大面积故障的新闻就引爆全网,再一次引发全网关于云计算安全可靠的大讨论。 在一个充满着 复杂性、不稳 定性不确定性的乌卡时代,云故障频发似乎已发展成一种“常态”,让企业对于云
    的头像 发表于11-23 10:28 183次阅读

    缓冲ADC系列消除信号调理的复杂性

    德赢Vwin官网 网站提供《缓冲ADC系列消除信号调理的 复杂性.pdf》资料免费下载
    发表于11-22 15:01 1次下载
    缓冲ADC系列消除信号调理的<b class='flag-5'>复杂性</b>

    缓冲ADC系列消除了信号调理的复杂性

    德赢Vwin官网 网站提供《缓冲ADC系列消除了信号调理的 复杂性.pdf》资料免费下载
    发表于11-22 10:55 0次下载
    缓冲ADC系列消除了信号调理的<b class='flag-5'>复杂性</b>

    大规模确定性网络技术分析与展望

    确定性网络可以分为不同的技术路线,不同的技术路线往往从不同的层次切入来构建 确定性网络,借助分层技术图谱可以清晰、快速地理清各个技术路线相关技术间的关系,其中不同技术工作或适应在不同的网络层次和网络
    的头像 发表于11-06 16:26 1311次阅读
    大规模<b class='flag-5'>确定性</b>网络技术<b class='flag-5'>分析</b>与展望

    基于Transformer和深度证据学习的立体匹配框架

    作者在各种 数据集上评估了所提出的ELFNet,包括Scene Flow ,KITTI 2012和KITTI 2015 和Middlebury 2014 。此外,作者进行 不确定性分析,探讨模型性能和 不确定性之间的关系。
    发表于09-18 18:29 277次阅读
    基于Transformer和深度证据<b class='flag-5'>学习</b>的立体匹配框架

    如何设计水下推行器的能源系统?这篇文章将带您深入了解

    水下环境的 复杂性不确定性对推行器的能源系统提出了更高的要求。本文将深入探讨如何设计一款适合水下环境的高效能源系统。
    的头像 发表于09-15 14:28 314次阅读