1 企业如何实现对工业大数据的预处理?-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

企业如何实现对工业大数据的预处理?

格创东智 2018-12-05 09:36 次阅读

数据分析,包括大数据分析,在企业的业务中,特别是在传统的商务行业,已有多年的应用实践,在消费者市场的营销中已成了必不可缺的技术。随着工业互联网和智能制造的兴起和发展,工业大数据技术也越来越受到各方关注。在“中国制造2025”的技术路线图中,工业大数据是作为重要突破点来规划的,而在未来的十年,以数据为核心构建的智能化体系会成为支撑智能制造和工业互联网的核心动力。

对制造企业而言,不论是新实施的系统还是老旧系统,要实施大数据分析平台,就需要先弄明白自己到底需要采集哪些数据。因为考虑到数据的采集难度和成本,大数据分析平台并不是对企业所有的数据都进行采集,而是相关的、有直接或者间接联系的数据,企业要知道哪些数据是对于战略性的决策或者一些细节决策有帮助的,分析出来的数据结果是有价值的。

比如企业只是想了解产线设备的运行状态,这时候就只需要对影响产线设备性能的关键参数进行采集。

再比如,在产品售后服务环节,企业需要了解产品使用状态、购买群体等信息,这些数据对支撑新产品的研发和市场的预测都有着非常重要的价值。

因此,建议企业在进行大数据分析规划的时候针对一个项目的目标进行精确的分析,比较容易满足业务的目标。明确目标以后,就要着手开始搜集数据并进行预处理了。本期格物汇将跟大家介绍,企业如何实现对工业大数据的预处理。

数据采集

首先我们看看数据是如何获取的,在现实生活中,我们所面对的问题,往往都是抽象复杂的。我们来看如下两个例子:

如何提升产品的良率

可能这是制造业最为普遍的一个问题,如果我们要分析解决这个问题,常常就会问到:什么产品?有多少条产线在生成?经过了哪些机台?影响产品良率的因素有哪些?我们可能会提出很多很多这样的问题,解决这些问题需要对相关业务知识非常了解,尽可能多的找出与问题有关的数据。

如何进行人脸识别

这问题更加复杂一些,虽然我们每个人的大脑每天都在做人脸识别,但是大脑如何工作的却异常难懂。我们可能需要做很多科研工作,去挖掘到底哪些数据会影响到人脸识别的正确率。如果这些数据本身没有,很可能还需要进行测量采集,比如两眼之间的距离,嘴的宽度和长度等等。当然,我们还会评估采集的成本,并对这些数据有效性进行评估,验证我们的成本是否值得去花费精力测量。

数据预处理简介

数据采集以后,数据往往存放在数据库或文件系统中,我们需要把他们导入到算法模型中进行训练,得到我们想要的模型。但是我们的数据往往杂乱无章,总的来说,数据一般存在如下几类问题:


数据类型多种多样

我们的数据中常常出现字符型,时间型,数字型等多种数据类型。其中:字符型是无法代入模型计算的,所以我们根据需要,可以对字符型数据进行编码转换。常用的编码方法有:

数字编码:对于有大小比较的字符型数据,可以直接转换成数字编码。比如:

Onehot编码:对于没有大小比较的字符型数据,可以使用Onehot独热编码。比如:

时间类型往往是一类特殊的数据,把时间简单看成一个实数的话,往往不符合逻辑。对于带时间的数据,我们通常使用时间序列的分析方法进行分析。有时候我们更加关注的是两列时间的差值,这时我们可以构建时间差值列作为新的变量加入模型之中。

数字型往往是导入模型进行训练的主要部分,数字型又可以细分为离散型和连续型,因为离散与连续的数据分布显著不同,我们可以对其进行分开处理。数字型之间各个列常存在量纲差异,有的数据可能很大,有的数据可能很小,我们需要去除数据量纲,防止模型对数据较大的列进行偏倚(数据值较大时通常方差也较大)。常用的数据去量纲的方法有最大最小值归一化法,均值标准差标准化法等等。


数据格式不对

我们期望数据格式是表结构,矩阵格式,或者是张量格式。然而我们拿到的数据往往不是格式化的数据,比如机台的日志数据,图像数据,音频视频数据。我们需要对上述数据转换,把数据格式转换成我们想要的格式。

数据中存在异常

数据中还会出现缺失值,异常值等异常,这些情况也会强烈影响到模型的训练,我们需要对空值进行补值。如何补值需要我们对数据非常了解,才能推断出该用什么值来补值,才不会改变原有的数据分布。一般的补值方法有:0值补值,均值补值,中位数补值,按上一个数补值,移动平均补值,线性插值,相关列补值法等等,对于缺失值比例较大的列,可以采取直接删除的方法。异常值则需要创建规则,对异常值进行识别,再用正常的值进行替换,故异常值也有类似于缺失值的替换方法。

本文作者:格创东智OT团队

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大数据
    +关注

    关注

    64

    文章

    8882

    浏览量

    137392
  • 智能制造
    +关注

    关注

    48

    文章

    5549

    浏览量

    76312
  • 工业互联网
    +关注

    关注

    28

    文章

    4320

    浏览量

    94096
收藏 人收藏

    评论

    相关推荐

    缓存对大数据处理的影响分析

    缓存对大数据处理的影响显著且重要,主要体现在以下几个方面: 一、提高数据访问速度 在大数据环境中,数据存储通常采用分布式存储系统,数据量庞大
    的头像 发表于 12-18 09:45 94次阅读

    上位机系统优化技巧 上位机如何处理大数据

    1. 数据预处理大数据处理过程中,数据预处理是至关重要的第一步。这包括
    的头像 发表于 12-04 10:27 164次阅读

    Minitab 数据清理与预处理技巧

    Minitab是一款功能强大的统计分析和质量管理软件,在数据分析过程中,数据清理与预处理是至关重要的环节。以下是一些在Minitab中进行数据清理与
    的头像 发表于 12-02 16:06 298次阅读

    小鹏汽车荣获2024年机械工业大型重点骨干企业

    近日,由中国机械工业联合会主办的“2024年机械工业大型重点骨干企业发展论坛暨机械、钢铁产业链融通发展大会”在北京举行,小鹏汽车荣获“机械工业大型重点骨干
    的头像 发表于 08-05 10:26 502次阅读

    机器学习中的数据预处理与特征工程

    在机器学习的整个流程中,数据预处理与特征工程是两个至关重要的步骤。它们直接决定了模型的输入质量,进而影响模型的训练效果和泛化能力。本文将从数据预处理和特征工程的基本概念出发,详细探讨这
    的头像 发表于 07-09 15:57 393次阅读

    工业大数据云平台在设备预测性维护中的作用

    ,只有保证设备的安全稳定运行才能保障生产的持续,质量的可靠,提升企业产品竞争力。 因此,企业就需要加强对设备状况的及时把握,并一定程度上实现工业设备预测性维护。为此,数之能提供的
    的头像 发表于 06-28 15:31 243次阅读

    特征工程与数据预处理全解析:基础技术和代码示例

    在机器学习和数据科学的世界里,数据的质量是建模成功与否的关键所在。这就是特征工程和数据预处理发挥作用的地方。本文总结的这些关键步骤可以显著提高模型的性能,获得更准确的预测,我们将深入研
    的头像 发表于 06-26 08:28 476次阅读
    特征工程与<b class='flag-5'>数据</b><b class='flag-5'>预处理</b>全解析:基础技术和代码示例

    信号的预处理包括哪些环节

    信号预处理是信号处理的一个重要环节,它对信号进行一系列的操作,以便于后续的分析和处理。信号预处理的目的是提高信号的质量,减少噪声,保留有用的信息,以及满足后续
    的头像 发表于 06-03 10:35 2916次阅读

    工业路由器如何助力企业实现数字化转型?

    工业路由器在企业数字化转型中扮演重要角色,具有高效数据传输、灵活组网和强大数据处理能力等特点。它能够实现设备互联、提供稳定网络连接、支持多种
    的头像 发表于 04-24 14:33 281次阅读

    工业大数据发展面临的问题

    工业大数据作为工业与数字经济之间的桥梁纽带,对加快工业数字化转型、推进数实融合,支撑新型工业化建设意义重大。
    的头像 发表于 04-16 11:52 533次阅读

    C语言中的预处理

    所有的预处理器命令都是以井号(#)开头。它必须是第一个非空字符,为了增强可读性,预处理器指令应从第一列开始。
    发表于 03-01 12:16 899次阅读
    C语言中的<b class='flag-5'>预处理</b>器

    大数据技术是干嘛的 大数据核心技术有哪些

    大数据技术是指用来处理和存储海量、多类型、高速的数据的一系列技术和工具。现如今,大数据已经渗透到各个行业和领域,对企业决策和业务发展起到了重
    的头像 发表于 01-31 11:07 3382次阅读

    数据预处理和特征工程的常用功能

    机器学习最基础的5个流程,分别是数据获取,数据预处理,特征工程,建模、测试和预测,上线与部署。
    的头像 发表于 01-25 11:26 745次阅读

    GPU:大数据时代的强力引擎

    精度和方案开发速度。无论是图像识别、语音文字处理、机器翻译(MT),还是自动驾驶、虚拟现实(VR)和增强现实(AR)等行业应用,GPU在大数据存储、清洗、预处理以及
    的头像 发表于 01-04 08:27 682次阅读
    GPU:<b class='flag-5'>大数据</b>时代的强力引擎

    基于工业大数据和物联网的智能工厂如何实现

    在中国制造2025及工业4.0技术的加持下,离散制造业的流程工业实现生产设备网络化、生产数据可视化、生产现场无人化等现金数据应用,做到横向与
    的头像 发表于 12-25 15:32 560次阅读