数据采集与预处理【大数据导论】

news2025/1/13 15:50:03
各位大佬好 ,这里是阿川的博客,祝您变得更强

在这里插入图片描述 个人主页:在线OJ的阿川

大佬的支持和鼓励,将是我成长路上最大的动力在这里插入图片描述

阿川水平有限,如有错误,欢迎大佬指正在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

数据采集与预处理前 必看
【大数据导论】—大数据序言
【大数据导论】—大数据、人工智能、云计算、物联网、区块链序言
【大数据导论】—大数据基础知识
【大数据导论】—大数据应用

目录

  • 大数据步骤
    • 其中数据采集
    • 其中数据清洗
    • 其中数据转换
    • 其中数据脱敏

大数据步骤

  • 数据采集
  • 数据清洗
  • 数据处理
  • 数据分析
  • 数据可视化
    在这里插入图片描述

其中数据采集

在这里插入图片描述
通过数据采集,可以获取传感器、互联网、日志文件、企业系统等数据,再通过数据预处理(数据清洗 数据转换 数据脱敏),从而便于后一步的分析
在这里插入图片描述
被采集数据类型
在这里插入图片描述

  • 结构化数据
  • 半结构化数据
  • 非结构化数据
    在这里插入图片描述

大数据特点

  • 数据量大
  • 数据类型丰富
  • 处理速度快
    在这里插入图片描述

数据采集比较
在这里插入图片描述

数据采集特点

  • 全面性
    在这里插入图片描述

  • 多维性
    在这里插入图片描述

  • 高效性
    在这里插入图片描述

主要数据源
在这里插入图片描述

  • 日志文件数据
    在这里插入图片描述

  • 传感器数据
    在这里插入图片描述

  • 互联网数据
    在这里插入图片描述

  • 企业业务系统数据
    在这里插入图片描述

数据采集工具

  • Chukwa

  • Flume

  • Scribe
    在这里插入图片描述

  • 分布式消息订阅分发

    • Kafka
      • 实时在线处理低延迟
      • 批量离线处理高吞吐量
        在这里插入图片描述
  • ETL
    实现大规模数据加载
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 网络数据采集
    通过网络爬虫、API接口从网站上获取非结构化数据信息且储存为统一的本地结构化数据文件
    在这里插入图片描述
    当中网络爬虫

    • 爬虫节点
    • 控制节点
    • 资源库
      在这里插入图片描述

    控制节点与爬虫节点关系
    在这里插入图片描述
    在这里插入图片描述

    网络爬虫的类型

    • 通用网络爬虫(又称全网爬虫
      主要为
      门户站点搜索引擎
      大型Web服务提供商采集数据
      在这里插入图片描述

      通用网络爬虫结构
      页面爬行
      页面分析
      连接过滤
      页面数据库
      URL队列
      初始URL集合
      在这里插入图片描述
      爬行策略
      深度优先策略
      广度优先策略
      在这里插入图片描述

    • 聚焦网络爬虫(又称主题网络爬虫
      选择性爬取预先定好的主题相关页面的网络爬虫
      在这里插入图片描述
      爬虫步骤
      过滤主题无关链接
      有用链接放入等待抓取URL队列
      根据一定搜索策略
      选择下一步抓取的网页URL
      在这里插入图片描述

    • 增量式网络爬虫
      已下载的网页采取增量式更新只爬行新产生或已发生变化网页爬虫保证所爬行页面是尽可能新的页面
      在这里插入图片描述

      爬行策略

      • 广度优先策略
      • PageRank优先策略
        在这里插入图片描述

      优点

      • 有效减少数据下载量
      • 及时更新已爬行的网页
      • 减少时间和空间耗费
        在这里插入图片描述
    • 深层网络爬虫
      利用一些关键词,将搜索表达后的页面提取出来
      在这里插入图片描述
      基本功能模块
      爬行控制器
      LVS控制器
      解析器
      响应分析器
      表单分析器
      表单处理器
      在这里插入图片描述
      内部数据结构

      • URL列表
      • LVS表
        在这里插入图片描述

      爬虫框架

      • Scrapy爬虫
        在这里插入图片描述
        基于Python实现的框架,该框架可以运行在Linux、Windows、macOS上,该框架速度快、扩展性强、使用简便可以运行在本地或者云端,用户只需要开发几个模块,就可以实现爬虫效果,常常被用于监测、数据挖掘、自动化测试
        在这里插入图片描述
        在这里插入图片描述
        市面上基于Python的爬虫框架还有Crawley、Portia、Newspaper、Python-goose、Beautiful Soup、Mechanize、Selenium、Cola
        在这里插入图片描述

      反爬机制

      • 数据是宝贵的资源,拥有数据方不愿意他人获取自己的数据,为了保护企业网站和网站数据,从而运用了反扒技术
        在这里插入图片描述
        缺点:反爬机制过于严格,可能会误伤到真正的用户请求
        在这里插入图片描述

其中数据清洗

按照一定的规则,发现并纠正含有错误值、缺失值、异常值、可疑数据,使的数据变成干净的数据的步骤
在这里插入图片描述

数据清洗步骤

  • 检查数据一致性
  • 处理缺失值重复值异常/无效值数据类型有误数据

在这里插入图片描述

当中

  • 处理缺失值
    在这里插入图片描述

    1. 估算

      • 样本均值
      • 中位数
      • 众数
        在这里插入图片描述
    2. 整例删除
      直接剔除缺失值,但可能导致有效样本量大大减少,更适合关键变量缺失因为这样异常值或缺失值的样本比重很小
      在这里插入图片描述

    3. 变量删除
      变量缺失值很多删除该变量对问题影响不大,从而减少共分析的变量数目且没有改变样本量
      在这里插入图片描述

    4. 成对删除
      采用一些特殊码替换缺失值且保留全部变量和样本,从而最大限度地保留可用信息
      在这里插入图片描述

  • 处理异常/无效值
    根据每个变量合理的取值范围和相互关系检查数据是否合乎要求

  • 处理重复值
    对于数据要进行重复性检验,否则重复值的存在会影响数据分析和挖掘结果的准确性

数据清洗注意事项

  1. 注意数据类型转换,数据类型会影响到后面的数据处理分析环节,所以要明确每个字段的数据类型
    在这里插入图片描述

  2. 优先缺失值、异常/无效值和数据类型转换操作最后重复值处理
    在这里插入图片描述

  3. 在对缺失值、异常/无效值进行处理时候,要根据业务需求进行填充处理(统计值填充、零值填充、前后值填充)
    在这里插入图片描述

  4. 进行数据清洗前,要对数据表进行查看,要了解表的结构,从而发现要处理的值
    在这里插入图片描述

  5. 数据量大小关系决定着数据处理方式,当总数据量较大,选择直接删除处理;当总数据量较小认真对数据进行处理
    在这里插入图片描述

  6. 当数据导入数据表之后,需要将所有列一个个进行清洗,从而保证数据处理的彻底性
    在这里插入图片描述

其中数据转换

数据转化成适合处理的形式
在这里插入图片描述

数据转换策略

  • 平滑处理
  • 聚集处理
  • 数据泛化处理
  • 数据规范化处理
  • 属性构造处理

当中

  • 平滑处理
    除去数据中的噪声(被测量的变量随机错误的变化
    在这里插入图片描述
    平滑处理方法
    在这里插入图片描述

    1. 分箱
      平滑数据点的近邻点一组排序数据进行平滑处理排序后的数据分配到若干个箱子中
      分配方法有

      • 等高方法
        每个箱子中元素个数相同
        在这里插入图片描述
        例子:
        在这里插入图片描述

      • 等宽方法
        每个箱子的间距 取值相同
        在这里插入图片描述
        例子:
        在这里插入图片描述

    2. 回归
      可以使用拟合函数数据进行平滑处理
      在这里插入图片描述

    3. 聚类
      通过聚类分析方法,可以帮助发现异常数据
      在这里插入图片描述

  • 聚集处理
    对数据进行汇总操作

    1. 获得每月或每年总额
    2. 构建数据立方体
    3. 进行多粒度分析
      在这里插入图片描述
  • 数据泛化处理
    更抽象的概念取代低层次的数据对象
    例如:
    用街道属性来取代城市、国家

    在这里插入图片描述

    用年龄属性来取代年轻、中年、老年

    在这里插入图片描述
    适用场景

    1. 神经网络
    2. 基于距离计算的最近邻分类
    3. 聚类挖掘的数据预处理
      在这里插入图片描述
  • 数据规范化处理
    属性值按比例缩放,使之落入一个特定的区间,从而消除数值型数据大小不一而造成结果偏差
    方法
    在这里插入图片描述

    • Max-Min
      被转换的数据进行线性转换
      在这里插入图片描述
      例子
      在这里插入图片描述
      注意:当有新的值加入或删除的时候,可能会导致新的最大值或最小值
    • Z-Score
      不同量级的数据 统一转化成 同一量级的数据不需要知道数据集中的最大值最小值对离群点规范化效果好统一用计算出的真实值衡量不受数据量级的影响,从而保证数据间的可比性消除量级给分析带来的不便
      在这里插入图片描述
      例子
      在这里插入图片描述
      注意规范化处理 需要数据分布符合正态分布且该处理会消除数据具有的实际意义
    • 小数定标
      通过直观简单移动数据值的小数位数达到规范化的目的
      在这里插入图片描述
      例子
      在这里插入图片描述
      注意:小数定标法并没有消除属性间的权重差异
  • 属性构造处理
    根据已有属性集构造新属性后续数据处理直接使用新增的属性
    例如
    利用质量、体积属性构建出新属性密度
    在这里插入图片描述

其中数据脱敏

给定的规则策略下,对敏感数据进行变换修改,从而在很大程度上解决敏感数据非可信环境中使用问题
在这里插入图片描述

数据脱敏原则
在这里插入图片描述
当中

  • 开发、测试以及大数据类业务不受脱敏的影响

  • 数据一致性和有效性

  • 数据漂白
    抹去数据中的敏感内容

  • 保持原有的数据特征
    数据脱敏前后必须保证数据特征的保持
    例如:身份证
    在这里插入图片描述

  • 业务规则数据关联性
    数据脱敏时数据关联性(主外键关联性、关键字段的业务语义关联性)及业务保持不变
    在这里插入图片描述

数据脱敏方法

  1. 数据替换
    设置的固定虚构值替换真值
    在这里插入图片描述

  2. 无效化
    对数据值的截断、加密、隐藏
    在这里插入图片描述

  3. 随机化
    随机数据代替真值
    在这里插入图片描述

  4. 偏移和取整(重要)
    随机移位改变数字数据
    在这里插入图片描述

  5. 掩码屏蔽
    针对账户类数据(银行卡号、身份证号)部分信息进行脱敏
    在这里插入图片描述

  6. 灵活编码
    需要特殊脱敏规则时可采用灵活编码满足各种可能的脱敏规则
    在这里插入图片描述

好的,到此为止啦,祝您变得更强

在这里插入图片描述
想说的话

学习来源厦门大学林子雨老师的 《大数据导论》(反反复复学习了5遍哈并且做了相应的练习 然后才进行的这篇博客的书写)
实不相瞒,写的这篇博客要写六个小时以上(加上自己学习和纸质笔记,共八小时吧),很累希望大佬支持一下

在这里插入图片描述

道阻且长 行则将至
个人主页:在线OJ的阿川大佬的支持和鼓励,将是我成长路上最大的动力 在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1981830.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux 中的特殊文件权限:SUID、GUID 和 Sticky

注: 机翻,未校。 Special File Permissions in Linux: SUID, GUID and Sticky Bit You see an s instead of x in the file permissions? Linux has some special file permissions called SUID, GUID and Sticky Bit. Know more about them. 在文件权…

了解MVCC

概念 MVCC,全称Multi-Version Concurrency Control,即多版本并发控制,是一种并发控制的方法,维护一个数据的多个版本,使得读写操作没有冲突,快照读为MySQL实现MVCC提供了一个非阻塞读功能。MVCC的具体实现…

C++新手入门学习教程(完整版)

以下教程覆盖了 C 学习的各个方面,适合初学者循序渐进地学习。学习过程中,建议初学者多做练习和项目,以加深对理论知识的理解。希望这个教程能为你提供一个清晰的学习路径。 目录 第一章:C 简介 1.1 C 的历史与演变 1.2 C 的特…

低代码: 系统开发准备之确定一般开发流程,需求分析,技术架构

概述 低代码系统开发之前,我们首先要进行一些准备我们首先知道我们软件开发的一般流程同时,我们还要知道,我们整个系统平台的需求如何之后,我们要基于需求进行设计,包含UI设计与系统架构设计 一般开发流程 系统开发…

数据库典型例题1-画ER图

1.question: solution: 2.画图步骤&#xff1a; 1.圈实体 2.写出实体间关系&#xff0c;确定实体画图位置 3.圈出每个实体的属性 4.画图&#xff0c;注意特殊实体和属性 3.注意点 <1 弱实体 弱实体&#xff1a;一个实体必须依赖于另一个实体存在---->实体双线菱形弱…

centos Python3.6升级3.8

CentOS系统上升级Python3.6到3.8版本。 步骤 1. 更新系统 在开始升级Python之前&#xff0c;首先需要确保系统是最新的。可以使用以下命令更新CentOS系统&#xff1a; sudo yum update 2. 安装依赖项 升级Python之前&#xff0c;需要安装一些依赖项。运行以下命令安装这些依赖…

Common Lisp精解【1】

文章目录 概述什么是 Common Lisp概念历史 应用领域1. 人工智能2. 自然语言处理3. 数据分析4. 系统编程5. Web开发6. 教育与研究7. 其他领域 基础 参考文献 概述 以下内容来自文心一言的自动生成 什么是 Common Lisp Common Lisp&#xff08;缩写为CL&#xff09;是Lisp编程语…

Unity使用Modbus协议

最近一直在工业领域干活&#xff0c;学习下Modbus协议&#xff0c;这里做个记录&#xff0c;理解不对的地方希望大佬指出修正。 一、先上测试工具和Unity脚本。 1.测试工具使用的 Modsim32 2.Unity测试脚本如下 /* 0x01&#xff1a;读线圈 0x05&#xff1a;写单个线圈 0x0F…

计算机组成原理 —— 指令流水线影响因素分类

计算机组成原理 —— 指令流水线影响因素分类 结构冒险结构冒险的原因 数据冒险&#xff08;同步&#xff09;数据旁路的原理数据旁路的类型数据旁路的例子 控制冒险控制冒险的类型控制冒险的例子解决控制冒险的方法示例分析分支预测的策略 超标量和超流水超标量&#xff08;Su…

关于计算机的思考

本文是《Python入门经典以解决计算问题为导向的Python编程实践》一书中第一部分“关于计算机的思考”的笔记&#xff0c;后附上思维导图。 关于计算机的思考 一、为什么要研究计算机科学1、重要性2、“计算机科学”更强调计算而不是编程3、从”通过编程解决问题“的思路出发&a…

RPC通信的简单流程

远程调用者假设需要调用Login方法&#xff0c;将调用的信息通过muduo库&#xff0c;同时进行了序列化和反序列化&#xff0c;发送到Rpcprovider上&#xff0c;RpcProvider通过对象和方法表来确定需要调用哪个服务对象的哪个方法。 UserRpcServiceRpc和UseRpcServiceRpcStub是继…

去中心化社交:探讨Facebook在区块链平台上的实践

随着区块链技术的崛起&#xff0c;社交平台也面临着前所未有的变革。作为全球最大的社交平台之一&#xff0c;Facebook&#xff08;现名Meta Platforms&#xff09;正在积极探索如何将区块链技术融入其平台&#xff0c;以引领去中心化社交的新时代。本文将从不同角度探讨Facebo…

leaflet.motion台风路径动画绘制

在气象领域中&#xff0c;对台风的准确可视化呈现对于灾害预警和防范具有重要意义。本文将深入探讨一段使用 JavaScript 实现台风可视化功能的代码。原本只是简单的绘制台风的路径&#xff0c;但是后面的需求要求显示台风各个历史节点的动画绘制&#xff0c;于是难度增加了&…

《安全历史第4讲——从古代驿站体系看软件安全管控》

在古代&#xff0c;车、马都很慢&#xff0c;信息传递很不顺畅&#xff0c;中央的政令又是如何传达至地方的呢&#xff1f;实际上&#xff0c;很多朝代都有专门的驿站制度&#xff0c;可以保障全国各地的信息传递&#xff0c;对于维护统治和稳定有着关键作用。 若将国家比作一个…

OZON刚需产品哪些好卖,OZON刚需热卖产品

OZON平台上的刚需热卖产品涵盖了多个领域&#xff0c;这些产品通常能够满足消费者的基本需求或提升生活品质。以下是一些在OZON平台上表现良好的刚需热卖产品类别及其特点&#xff01; OZON刚需热卖产品地址&#xff1a;D。DDqbt。COm/74rDTop1 防蚊修复网 Скотч сет…

二次注入(2018网鼎杯comment)

一、2018网鼎杯comment 该题主要考察二次注入 1.二次注入概念&#xff1a; 攻击者构造恶意的数据并存储在数据库后&#xff0c;恶意数据被读取并进入到SQL查询语句所导致的注入。防御者可能在用户输入恶意数据时对其中的特殊字符进行了转义处理&#xff0c;但在恶意数据插入…

【LeetCode Cookbook(C++ 描述)】一刷二叉树之递归遍历(DFS)(上)

目录 二叉树的实现LeetCode #144&#xff1a;Binary Tree Preorder Traversal 二叉树的前序遍历递归解法「遍历」思路「分而治之」思路更多例子&#xff1a;求二叉树最大深度 迭代解法Morris 遍历 LeetCode #94&#xff1a;Binary Tree Inorder Traversal 二叉树的中序遍历迭代…

亲民且友好的Top期刊,最快46天录用!

本期小编解析一本超亲民超友好的Top期刊&#xff0c;发文量大&#xff0c;编辑处理速度极快&#xff08;近期案例46天录用&#xff09;&#xff0c;毕业有高分区发文要求的小伙伴&#xff0c;赶紧码住这一本神刊&#xff01; 期刊简介 Knowledge-Based Systems (KBS) 出版社 …

AI智能测评应用平台项目分享

大家好&#xff0c;我是程序媛雪儿&#xff0c;今天咱们聊个我新学的项目&#xff0c;AI智能评测应用平台系统。 咱们先了解一下这个系统是干嘛的。 一、业务分析 大致业务流程是应用制作者在创建应用页面填写应用信息&#xff0c;依次添加题目和评分规则生成测评应用&#xff…

信息学奥赛初赛天天练-56-CSP-J2019完善程序2-双关键字排序、计数排序、前缀和、前缀自增、后缀自增、数组下标自增

PDF文档公众号回复关键字:20240805 1 完善程序 (单选题 &#xff0c;每小题3分&#xff0c;共30分) 计数排序 计数排序是一个广泛使用的排序方法。下面的程序使用双关键字计数排序&#xff0c;将 n 对 10000以内的整数&#xff0c;从小到大排序。 例如有三对整数 (3,4)、(2,…