《大数据分析》期末考试整理

news2024/12/28 19:24:04

一、单项选择题(1*9)

1.大数据发展历程:出现阶段、热门阶段和应用阶段  P2

2.大数据影响        P3

1)大数据对科学活动的影响

2)大数据对思维方式的影响

3)大数据对社会发展的影响

4)大数据对就业市场的影响

3. 人类在科学研究上先后经历了实验理论计算数据思维四种范式        P3

4.大数据特征:数据量大、数据类型繁多、数据产生速度快数据价值密度低        P5

5.ETL:提取转换加载        P7

6.大数据处理框架可分为三类:批处理系统流处理系统混合处理系统        P12

7.Requests状态码:200 成功,404 失败

8.正则表达式:

9.Scrapy命令:P88

10.pandas一维数组、二维数组、方法的使用

在pandas库中有两个最基本的数据类型,即Series和DataFrame。其中Series代表一维数组,DataFrame代表二维数组。P277

sum()                对每一列求和

sum(1)              对每一行求和

df- * / ()             做减法、乘法、除法

append()           对行或列扩充

reindex()           重新简历一个新的索引对象

drop()               丢弃不需要的数据值

sort_index()   对数据值 排序

idxmin              统计最小值索引

idxmax             统计最大值索引

cumsum           对数据值进行累加

11.python的使用

二、填空题(1*12)

1.命令:pip install beautifulsoup4

2.大数据类型:结构化数据非结构化数据半结构化数据

3.大数据存储是将数量巨大且难以收集、处理、分析的数据集合持久化到计算机中

4.大数据框架是可以进行大数据分析处理工具的集合,主要用于负责对大数据系统中的数据进行计算。

5.大数据获取方式包括爬虫爬取、用户留存、用户上传、数据交易和数据共享

6.UA:UserAgent

7.Scrapy是使用Python语言编写的开源网络爬虫框架,也是一个为了爬取网站数据,提取结构性数据而编写的应用框架,简单易用并且是跨平台的。

8.目前实现数据抽取的方式:关系库中的数据抽取非关系库中的数据抽取

数据抽取的关键技术:时间戳、触发器方式、全量删除插入

9.大数据分析与挖掘的主要内容:可视化分析和数据挖掘算法的选择

三、判断并改错(3*5)

1.Request对象用于描述一个HTTP请求,由Spider产生

2.Response对象用于描述一个HTTP响应

3.云数据库并非是一种全新的数据库技术,而只是以服务的方式提供数据库功能。

4.元组数据的元素不能改变,只能读取

5.Spider在项目中名称必须独一无二

6.Python的整型类似于Java的BigInteger类型,它的长度不受限制

7.Python区分整型和浮点型的唯一方式就是看有没有小数点

8.Python中布尔类型可以被当作整数来对待

9.min-max标准化方法是对原始数据进行线性变换

四、简答题(4*2)

大数据发展历程:出现阶段、热门阶段和应用阶段  P2

大数据影响        P3

1)大数据对科学活动的影响

2)大数据对思维方式的影响

3)大数据对社会发展的影响

4)大数据对就业市场的影响

大数据对思维方式的影响:

1.人们处理的数据从样本数据变成全部数据

2.人们不得不接受数据的混杂性,放弃对精确性的追求

3.人类通过对大数据的处理放弃对因果关系的渴求,转而关注相关关系

大数据特征:数据量大、数据类型繁多、数据产生速度快数据价值密度低        P5

大数据与云计算的联系:

        大数据与云计算都较好地代表了IT界发展的趋势,二者相互联系,密不可分。云计算就是计算机硬件资源的虚拟化,而大数据是对海量数据的高效处理。

区别:

        1.在概念上两者有所不同,云计算改变了IT,而大数据改变了业务。然而大数据必须有云作为基础架构才能得以顺畅运营

        2.大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是一个进阶的IT解决方案。而大数据是CEO关注的,是业务层的产品,大数据的决策者是业务层。

        综上,大数据与云计算二者已经彼此渗透,密不可分。

大数据与人工智能的区别:

1.在概念上两者有所不同,大数据和云计算可以理解为技术上的概念,人工智能是应用层面的概念,人工智能的技术前提是云计算和大数据

2.在实现上,大数据主要是依靠海量数据来帮助人们对问题做出更好判断和分析,而人工智能是一种计算形式,它允许机器执行认知功能。

综上所述,虽然它们有很大区别,但人工智能和大数据仍然能够很好地协同工作。二者相互促进,相互发展。

数据清洗流程:

1.预处理

2.缺失值清洗

3.格式与内容清洗

4.逻辑错误清洗

5.多余的数据清洗

6.关联性验证 

数据标准化是通过一定的数学变换方式将原始数据按照一定的比例进行转换,使之落入一个小的特定区间内 

数据抽取流程:

1.获取数据

2.整理、检查和清洗数据

3.将清洗好的数据集成,并建立抽取模型

4.开展数据抽取与数据转换工作

5.将转换后的结果进行临时存放

6.确认数据,并将数据最终应用于数据挖掘中

Spider开发流程:

1.继承scrapy.Spider

2.为Spider命名

3.设置爬虫的起始爬取点

4.实现页面的解析 

五、名词解释(3*2)

1.大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

2.1秒定律:要在秒级时间范围内给出分析结果,若超出这个时间,数据就失去价值了

3.大数据采集技术就是对数据进行ETL操作,通过对数据进行提取、转换、加载,最终挖掘数据的潜在价值,然后给用户提供解决方案或决策参考

4.网络爬虫又称网络机器人、网络蜘蛛,是一种通过既定规则能够自动提取网页信息的程序

5.数据可视化是关于数据视觉表现形式的科学技术研究

6.大数据存储是将数量巨大且难以收集、处理、分析的数据集持久化到计算机中

7.数据清洗的含义是检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声

8.数据抽取是指从数据源中抽取对企业有用的或感兴趣的数据的过程

9.网页数据提取

10.数据采集又称数据获取,是指利用某些装置从系统外部采集数据并输入系统内部的一个接口

11.数据标准化是通过一定的数学变换方式将原始数据按照一定的比例进行转换,使之落入一个小的特定区间内 

六、阅读程序(10*1)

还要看P52代码

 七、操作题(10*4)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1828867.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

昂科烧录器支持Prolific旺玖科技的电力监控芯片PL7413C1FIG

芯片烧录行业领导者-昂科技术近日发布最新的烧录软件更新及新增支持的芯片型号列表,其中Prolific旺玖科技的高度集成的电力监控芯片PL7413C1FIG已经被昂科的通用烧录平台AP8000所支持。 PL7413C1FIG是一款高度集成的电力监控芯片,用于测量电力使用情况的…

vue-饼形图-详细

显示效果 代码 <template> <div style"height: 350px;"> <div :class"className" :style"{height:height,width:width}"></div> </div> </template> <script> import * as echarts from echarts; req…

Typora实现设置代码块默认语言_亲测有效(AutoHotKey方式和修改配置文件)

Typora实现设置代码块默认语言&#xff08;AutoHotKey方式和修改配置文件&#xff09; 前言&#xff0c;需求使用AutoHotKey热键脚本【最简单方便】实现步骤建议 最终效果其他方法自定义Typora代码块快捷键设置。应对ctrlshiftk快捷键被其他占用的情况。 前言&#xff0c;需求 …

07--Zabbix监控告警

前言&#xff1a;和普米一样运维必会的技能&#xff0c;这里总结一下&#xff0c;适用范围非常广泛&#xff0c;有图形化界面&#xff0c;能帮助运维极快确定问题所在&#xff0c;这里记录下概念和基础操作。 1、zabbix简介 Zabbix是一个基于 Web 界面的企业级开源解决方案&a…

厂里资讯之自媒体文章自动审核

自媒体文章-自动审核 1)自媒体文章自动审核流程 1 自媒体端发布文章后&#xff0c;开始审核文章 2 审核的主要是审核文章的内容&#xff08;文本内容和图片&#xff09; 3 借助第三方提供的接口审核文本 4 借助第三方提供的接口审核图片&#xff0c;由于图片存储到minIO中&…

高速信号——NRZ,PAM4调制技术

1&#xff1a;码元 了解调制技术需要引出“码元”的概念。 一个码元就是一个脉冲信号&#xff0c;即一个最小信号周期内的信号&#xff0c;我们都能够理解&#xff0c;最简单的电路&#xff0c;以高电平代表1&#xff0c;低电平代表0&#xff0c;一个代表1或者0的信号&#x…

Linux基础I/O之文件描述符fd 重定向(上)

目录 一、预备知识 二、C语言中的文件接口 三、系统调用中的文件接口 一、预备知识 首先我们要明确的一个观点是 --- 文件 内容 属性。而且我们之前也还将过一个概念&#xff0c;那就是Linux下一切皆文件。 内容是数据&#xff0c;属性也是数据 --- 那么也就是说我…

t265 jetpack 6 px4 ros2

Ubuntu22.04 realsenseSDK2和ROS2Wrapper安装方法,包含T265版本踩坑问题_ros2 realsense-CSDN博客 210 git clone https://github.com/IntelRealSense/librealsense.git 212 git branch 215 git tag 218 git checkout v2.51.1 219 git branch 265 git clone https://…

C语言---------深入理解指针

目录 一、字符指针 二、指针数组&#xff1a; 三、数组指针&#xff1a; 1、定义&#xff1a; 2、&数组名和数组名区别&#xff1a; 3、数组指针的使用&#xff1a; 四、数组参数&#xff0c;指针参数&#xff1a; 1、一维数组传参&#xff1a; 2、二维数组传参&am…

基于springboot的大学计算机基础网络教学系统

文章目录 项目介绍主要功能截图:部分代码展示设计总结项目获取方式🍅 作者主页:超级无敌暴龙战士塔塔开 🍅 简介:Java领域优质创作者🏆、 简历模板、学习资料、面试题库【关注我,都给你】 🍅文末获取源码联系🍅 项目介绍 基于springboot的大学计算机基础网络教学…

opencv-python(十)

绘制直线 cv2.line(img, pt1, pt2, color, thickness1, lineTypeLINE_8) 上述代码可以从pt1点绘一条线到pt2点。 img&#xff1a;绘图对象 pt1&#xff1a;线段的起点&#xff0c;画布的左上角坐标是(0, 0) pt2&#xff1a;线段的终端 color&#xff1a;&#xff08;B&…

记录一次root过程

设备: Redmi k40s 第一步&#xff0c; 解锁BL&#xff08;会重置手机系统&#xff01;&#xff01;&#xff01;所有数据都会没有&#xff01;&#xff01;&#xff01;&#xff09; 由于更新了澎湃OS系统, 解锁BL很麻烦, 需要社区5级以上还要答题。 但是&#xff0c;这个手机…

React+TS前台项目实战(十)-- 全局常用组件CopyText封装

文章目录 前言CopyText组件1. 功能分析2. 代码详细注释3. 使用方式4. 效果展示 总结 前言 今天这篇主要讲项目常用复制文本组件封装&#xff0c;这个组件是一个用于拷贝文本的 React 组件&#xff0c;它提供了拷贝&#xff0c;国际化和消息提示的功能 CopyText组件 1. 功能分…

C++11完美转发(引用折叠、万能引用)

完美转发是指在函数模板中&#xff0c;完全依照模板的参数的类型&#xff0c;将参数传递给函数模板中调用的另外一个函数。 函数模板在向其他函数传递自身形参时&#xff0c;如果相应实参是左值&#xff0c;它就应该被转发为左值&#xff1b;如果相 应实参是右值&#xff0c;它…

创建vite工程,使用框架为Vanilla时,语言是typescript,修改http端口的方法

直接在项目根目录创建 vite.config.ts文件。 在该文件中添加内容&#xff1a; import { defineConfig } from vite;export default defineConfig({server: {port: 7777,}, });最后尝试运行package.json中的Debug

Codeforces Round 953 (Div. 2) A - C 题解

因为有事只做了A-C&#xff0c;都比较简单&#xff0c;全是很简单的思维&#xff0c;明天有空还会添加上D&#xff0c;如果有人需要可以明天常来看看&#xff01; 进入正题&#xff1a; A. Alice and Books 题意&#xff1a;给你n个数字&#xff0c;将这些数字分到两堆里&am…

PD19 Parallels Desktop 虚拟机 安装Windows10系统 操作步骤(保姆级教程,轻松上手)

Mac分享吧 文章目录 效果一、准备工作二、开始安装1、打开pd 19 虚拟机&#xff0c;点击右上角文件&#xff0c;新建2、通过下载好的镜像安装Windows10系统。找到镜像文件位置&#xff0c;安装&#xff0c;配置2、显示安装完成&#xff0c;打开Windows10系统 三、运行测试1、打…

60.WEB渗透测试-信息收集- 端口、目录扫描、源码泄露(8)

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 内容参考于&#xff1a; 易锦网校会员专享课 上一个内容&#xff1a;59.WEB渗透测试-信息收集- 端口、目录扫描、源码泄露&#xff08;7&#xff09; 御剑是用…

中小企业使用CRM系统的优势有哪些

中小企业如何在竞争激烈的市场中脱颖而出&#xff1f;除了优秀的产品和服务&#xff0c;一个高效的管理工具也是必不可少的。而客户关系管理&#xff08;CRM&#xff09;系统正是这样一个能帮助企业提升客户体验、优化内部管理流程的重要工具。接下来&#xff0c;让我们一起探讨…

【Python网络爬虫分步走】使用LXML解析网页数据

Python网络爬虫分步走 – 使用LXML解析网页数据 Web Scraping in Python - Using LXML to Parse Web Data By Jackson@ML Lxml作为Python的第三方库,提供易用的且功能强大的API,用来解析XML和HTML文档。事件驱动的API被用于分步骤解析。 本文简要介绍使用lxml库解析网页的基…