什么是大数据采集和预处理-德赢Vwin官网网

大数据导论

理顺大数据的演进路线

数据湖是个啥？

一般情况下，大数据处理的流程为：数据采集和预处理、数据存储、数据分析和数据可视化。

数据采集与预处理便是大数据流程的第一步。

首先来看， 数据是如何产生的 ？

（1）为满足企业业务目标的达成，企业通常会建设IT系统，IT系统承载企业业务处理的同时，必然会产生交易记录、付款记录等等，这些都会保存在数据库中；

（2）为了更好地预测消费者的需求，购物网站通常也会记录消费者的网页浏览时长、点赞、收藏、购买喜好等，这些都会记录在日志文件中；

（3）为了满足消费者获取信息的便捷性，各大门户网站、短视频网站等都提供了大量的Web网页供用户浏览，Web网页中呈现大量的文本、音视频等；

那么，这些数据产生后，都 以什么形式存在 ？

（1）以文件的形式存在，如csv文件、图像文件、视频文件、日志文件；

（2）以数据库的形式存在，如关系型数据库MySql\\or acle、非关系型数据库MongoDB；

（3）以Web网页的形式存在，如新浪、搜狐、知乎等；

（4）以实时数据的形式存在，如物联网络中各种传感器监测到的数据；

这样，具象化的数据采集就变成从数据库、Web网页、文件、物联传感器等地方获取。因数据存在形式的差异，采用的获取方法也不尽相同：

（1）文件、Web网页的抓取，通常采用直接编程的方式获取，如网页爬虫；

（2）实时消息的获取，则采用相应的协议，如MQTT、Coap、HTTPS;

（3）对数据库数据的获取，则更多采用SQL的形式提取出来；

获取的数据，还存在什么问题 ？

获取的原生数据，可能会存在数据缺失、数据重复、数据类型和值都不对等问题，需要对数据进行加工处理，这一过程被称为“数据清洗”；

如果数据源是多个，并且要装入到同一数据仓库时，则需要进行“数据集成”；

数据集成后，往往需要更高粒度的抽象，擦除一些细节数据，如原有按交易时间记录的数据，现在需要按天进行统计，此时需要进行聚类处理，称之为“数据转换”；

同时，注意到大数据可能涉及到隐私问题，也需要去除隐私数据，这一过程称为“数据脱敏”；

而数据清洗、数据集成、数据转换、数据脱敏这一系列的过程，称为 数据预处理 。

经过预处理后的数据放在哪？

可以将其放入数据仓库中，如Hive\\HDFS；

也可以将其放入数据湖中，不但可以存储原始数据，也可以存储结构化、半结构化、非结构化的数据，并且还能支撑数据的分析。具体可参考《数据湖是个啥？》

数据的采集与处理是繁琐的，也是有迹可循的，聪明的研究人员实现了一系列 工具或框架 ：

（1）网页爬虫系统：Apache Nutch、Crawler4j、Scrapy；

（2）日志收集工具：Flume、Logstash、Filebeat、Fluentd；

（3）多源异构数据采集工具：Sqoop、Datax。

同时，也形成大数据采集的方法论，如ETL。

ETL也就是Extract-Transform-Load，对应为提取-转换-加载，充当了数据源与数据仓库之间的数据流转管道。其基本思想是：从日志、数据库、Web页面中提取数据，并数据进行转换，按照预先规划的Schema，将数据加载到数据仓库中去。

Kettle（水壶）、Sqoop（SQL-to-Hadoop）、DataX是ETL工具的代表。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据采集

数据采集

+关注

关注
38

文章
6052

浏览量
113617
数据存储

数据存储

+关注

关注
5

文章
970

浏览量
50892
大数据

大数据

+关注

关注
64

文章
8882

浏览量
137391

一文汇总大数据四大方面十五大关键技术

本文针对大数据的关键技术：大数据采集、大数据预处理、大数据存储、大数据分析挖掘四大方面的15大关

发表于 11-11 15:46 •1.1w次阅读

如何使实时数据采集处理系统保持数据的高速传输

当前，越来越多的设计应用领域要求具有高精度的A／D转换和实时处理功能。在实时数据采集处理系统设计中，一般需要考虑数据采集以及对采集数据的

发表于 12-17 09:10 •6744次阅读

如何使实时<b class='flag-5'>数据采集</b><b class='flag-5'>处理</b>系统保持<b class='flag-5'>数据</b>的高速传输

基于串行通信的虚拟仪器数据采集器

A/D转换和预处理,通过RS-232串行口与主机进行信息传送,插拔方便。主机通过数据处理软件对数据进行处理和分析。用户可以通过主机的软件界面对单片机(从机)进行控制,使之能按照不同的要

发表于 03-09 15:52

高速数据触发采集预处理

各位大侠，本人在做数据采集与处理时碰到了如下问题：使用NI的采集卡，每次触发采集500个数据点，外触发信号频率为200KHz，并对100次触

发表于 08-11 23:42

一种基于FPGA和DSP的高速数据采集设计方案介绍

的信号处理任务越来越繁重，对数据采集处理系统的要求也越来越高。特别是在移动通信领域，基站和手机的物理信道处理都是实时信号处理。实时信号

发表于 07-05 06:41

微机检测与转换—数据采集处理

实验微机检测与转换——数据采集处理实验目的：传感器实验课程中，数据采集和分析处理是最为主要的部分，随着现代科技的发展，

发表于 03-06 16:12 •970次阅读

基于SOPC的数据采集与处理系统设计

基于矿井地震勘探中对数据采集与处理的高性能要求，本文采用SOPC （可编程片上系统）技术设计了多通道数据采集与处理系统。系统采用24位模数转换芯片实现高精度

发表于 05-23 10:50 •1469次阅读

基于SOPC的<b class='flag-5'>数据采集</b>与<b class='flag-5'>处理</b>系统设计

大数据的核心有哪些？

大数据技术的体系庞大且复杂，基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、

发表于 05-22 14:22 •7872次阅读

交通轨迹大数据预处理方法及其实验分析

交通轨迹大数据预处理方法及其实验分析

发表于 06-27 15:00 •6次下载

大数据技术及应用介绍1

大数据技术体系发展至今，不断充实完善，与互联网、物联网、人工智能等其他信息通信技术融合交汇，现已较为成熟。围绕数据资源的全生命周期过程** ，大数据基础技术包含大数据采集技术、

发表于 03-29 14:14 •1621次阅读

大数据技术有哪些大数据前景

大数据从字面意思来理解，就是海量数据的结合，从数据分析全流程的角度，大数据技术主要包括数据采集与预处理

发表于 04-14 17:45 •4185次阅读

每日一课 | 智慧灯杆之大数据预处理技术介绍

2．大数据预处理技术大数据预处理技术主要完成对已接收数据的辨析、抽取、清洗等操作。（1）抽取：因获取的数

发表于 04-07 14:38 •674次阅读

每日一课 | 智慧灯杆之大数据采集技术简介

大数据是一种从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术，它们成为大数据采集、存储、处理和呈现的有力武器。

发表于 03-14 14:52 •810次阅读

大数据采集系统分为几类

和应用场景. 1. 概述 大数据采集系统是实现数据收集、处理和存储的关键环节。随着大数据技术的快速发展，大数据采集系统也在不断演进和创新。本

发表于 07-01 15:44 •1476次阅读

数控机床数据采集如何实现？

数控机床数据采集过程是一个从物理连接到数据处理的完整链条，涉及设备连接、数据采集、预处理和传输的复杂过程，包含通信协议匹配、设备配置、数据采集

发表于 11-18 17:52 •253次阅读

搜索历史

什么是大数据采集和预处理

评论