1 什么是大数据采集和预处理-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是大数据采集和预处理

汽车电子技术 来源:码农与软件时代 作者: 码农与软件时代 2023-02-15 14:22 次阅读

大数据导论

理顺大数据的演进路线

数据湖是个啥?

一般情况下,大数据处理的流程为:数据采集和预处理、数据存储、数据分析和数据可视化。

数据采集与预处理便是大数据流程的第一步。

首先来看, 数据是如何产生的

(1)为满足企业业务目标的达成,企业通常会建设IT系统,IT系统承载企业业务处理的同时,必然会产生交易记录、付款记录等等,这些都会保存在数据库中;

(2)为了更好地预测消费者的需求,购物网站通常也会记录消费者的网页浏览时长、点赞、收藏、购买喜好等,这些都会记录在日志文件中;

(3)为了满足消费者获取信息的便捷性,各大门户网站、短视频网站等都提供了大量的Web网页供用户浏览,Web网页中呈现大量的文本、音视频等;

那么,这些数据产生后,都 以什么形式存在

(1)以文件的形式存在,如csv文件、图像文件、视频文件、日志文件;

(2)以数据库的形式存在,如关系型数据库MySql\\oracle、非关系型数据库MongoDB;

(3)以Web网页的形式存在,如新浪、搜狐、知乎等;

(4)以实时数据的形式存在,如物联网络中各种传感器监测到的数据;

这样,具象化的数据采集就变成从数据库、Web网页、文件、物联传感器等地方获取。因数据存在形式的差异,采用的获取方法也不尽相同:

(1)文件、Web网页的抓取,通常采用直接编程的方式获取,如网页爬虫;

(2)实时消息的获取,则采用相应的协议,如MQTT、Coap、HTTPS;

(3)对数据库数据的获取,则更多采用SQL的形式提取出来;

获取的数据,还存在什么问题

获取的原生数据,可能会存在数据缺失、数据重复、数据类型和值都不对等问题,需要对数据进行加工处理,这一过程被称为“数据清洗”;

如果数据源是多个,并且要装入到同一数据仓库时,则需要进行“数据集成”;

数据集成后,往往需要更高粒度的抽象,擦除一些细节数据,如原有按交易时间记录的数据,现在需要按天进行统计,此时需要进行聚类处理,称之为“数据转换”;

同时,注意到大数据可能涉及到隐私问题,也需要去除隐私数据,这一过程称为“数据脱敏”;

而数据清洗、数据集成、数据转换、数据脱敏这一系列的过程,称为 数据预处理

经过预处理后的数据放在哪?

可以将其放入数据仓库中,如Hive\\HDFS;

也可以将其放入数据湖中,不但可以存储原始数据,也可以存储结构化、半结构化、非结构 化的数据,并且还能支撑数据的分析。具体可参考《数据湖是个啥?》

数据的采集与处理是繁琐的,也是有迹可循的,聪明的研究人员实现了一系列 工具或框架

(1)网页爬虫系统:Apache Nutch、Crawler4j、Scrapy;

(2)日志收集工具:Flume、Logstash、Filebeat、Fluentd;

(3)多源异构数据采集工具:Sqoop、Datax。

同时,也形成大数据采集的方法论,如ETL。

ETL也就是Extract-Transform-Load,对应为提取-转换-加载,充当了数据源与数据仓库之间的数据流转管道。其基本思想是:从日志、数据库、Web页面中提取数据,并数据进行转换,按照预先规划的Schema,将数据加载到数据仓库中去。

Kettle(水壶)、Sqoop(SQL-to-Hadoop)、DataX是ETL工具的代表。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据采集
    +关注

    关注

    38

    文章

    6052

    浏览量

    113617
  • 数据存储
    +关注

    关注

    5

    文章

    970

    浏览量

    50892
  • 大数据
    +关注

    关注

    64

    文章

    8882

    浏览量

    137391
收藏 人收藏

    评论

    相关推荐

    一文汇总大数据四大方面十五大关键技术

    本文针对大数据的关键技术:大数据采集大数据预处理大数据存储、大数据分析挖掘四大方面的15大关
    发表于 11-11 15:46 1.1w次阅读

    如何使实时数据采集处理系统保持数据的高速传输

    当前,越来越多的设计应用领域要求具有高精度的A/D转换和实时处理功能。在实时数据采集处理系统设计中,一般需要考虑数据采集以及对采集数据
    的头像 发表于 12-17 09:10 6744次阅读
    如何使实时<b class='flag-5'>数据采集</b><b class='flag-5'>处理</b>系统保持<b class='flag-5'>数据</b>的高速传输

    基于串行通信的虚拟仪器数据采集

    A/D转换和预处理,通过RS-232串行口与主机进行信息传送,插拔方便。主机通过数据处理软件对数据进行处理和分析。用户可以通过主机的软件界面对单片机(从机)进行控制,使之能按照不同的要
    发表于 03-09 15:52

    高速数据触发采集预处理

    各位大侠,本人在做数据采集处理时碰到了如下问题:使用NI的采集卡,每次触发采集500个数据点,外触发信号频率为200KHz,并对100次触
    发表于 08-11 23:42

    一种基于FPGA和DSP的高速数据采集设计方案介绍

    的信号处理任务越来越繁重,对数据采集处理系统的要求也越来越高。特别是在移动通信领域,基站和手机的物理信道处理都是实时信号处理。实时信号
    发表于 07-05 06:41

    微机检测与转换—数据采集处理

    实验 微机检测与转换——数据采集处理实验目的:传感器实验课程中,数据采集和分析处理是最为主要的部分,随着现代科技的发展,
    发表于 03-06 16:12 970次阅读

    基于SOPC的数据采集处理系统设计

    基于矿井地震勘探中对数据采集处理的高性能要求,本文采用SOPC (可编程片上系统)技术设计了多通道数据采集处理系统。系统采用24位模数转换芯片实现高精度
    发表于 05-23 10:50 1469次阅读
    基于SOPC的<b class='flag-5'>数据采集</b>与<b class='flag-5'>处理</b>系统设计

    大数据的核心有哪些?

    大数据技术的体系庞大且复杂,基础的技术包含数据采集数据预处理、分布式存储、NoSQL数据库、
    发表于 05-22 14:22 7872次阅读

    交通轨迹大数据预处理方法及其实验分析

    交通轨迹大数据预处理方法及其实验分析
    发表于 06-27 15:00 6次下载

    大数据技术及应用介绍1

    大数据技术体系发展至今,不断充实完善,与互联网、物联网、人工智能等其他信息通信技术融合交汇,现已较为成熟。围绕数据资源的全生命周期过程** ,大数据基础技术包含大数据采集技术、
    的头像 发表于 03-29 14:14 1621次阅读

    大数据技术有哪些 大数据前景

    大数据从字面意思来理解,就是海量数据的结合,从数据分析全流程的角度,大数据技术主要包括数据采集预处理
    的头像 发表于 04-14 17:45 4185次阅读

    每日一课 | 智慧灯杆之大数据预处理技术介绍

    2.大数据预处理技术大数据预处理技术主要完成对已接收数据的辨析、抽取、清洗等操作。(1)抽取:因获取的
    的头像 发表于 04-07 14:38 674次阅读
    每日一课 | 智慧灯杆之<b class='flag-5'>大数据</b><b class='flag-5'>预处理</b>技术介绍

    每日一课 | 智慧灯杆之大数据采集技术简介

    大数据是一种从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。
    的头像 发表于 03-14 14:52 810次阅读
    每日一课 | 智慧灯杆之<b class='flag-5'>大数据采集</b>技术简介

    大数据采集系统分为几类

    和应用场景. 1. 概述 大数据采集系统是实现数据收集、处理和存储的关键环节。随着大数据技术的快速发展,大数据采集系统也在不断演进和创新。本
    的头像 发表于 07-01 15:44 1476次阅读

    数控机床数据采集如何实现?

    数控机床数据采集过程是一个从物理连接到数据处理的完整链条,涉及设备连接、数据采集预处理和传输的复杂过程,包含通信协议匹配、设备配置、数据采集
    的头像 发表于 11-18 17:52 253次阅读
    数控机床<b class='flag-5'>数据采集</b>如何实现?