数据仓库与数据挖掘实验练习题

news2025/1/10 11:28:14

练习题2

1. 使用超级英雄列表来填充一个新的 Series 对象。
2. 使用力量元组来填充一个新的 Series 对象。
3. 创建一个 Series,将超级英雄作为索引标签,力量等级作为值。将这个 Series 赋值给 heroes 变量。
4. 提取 heroes Series 的前两行。
5. 提取 heroes Series 的最后四行。
6. 确定 heroes Series 中唯一值的个数。
7. 计算 heroes 中超级英雄的平均力量。
8. 计算 heroes 中的最大和最小力量。
9. 计算每个超级英雄的力量等级翻倍后的值。
10. 将 heroes Series 转换为 Python 字典。

#给出列表
superheros = [
    'Batman',
    'Superman',
    'Spider-man',
    'Iron man',
    'Captain America',
    'Wonder Woman'
]

strength_levels = (100, 120, 90, 95, 110, 120)

#1.转为series对象(列表)
pd.Series(superheros)

#2.力量值转为series对象
pd.Series(strength_levels)

#3.创建series
heros = pd.Series(
    data = strength_levels,
    index = superheros
)
heros

#4.
heros.head(2)

#5.
heros.tail(4)

#6.
heros.nunique()

#7.
heros.mean()

#8.
heros.max()
heros.min()

#9.
heros * 2

#10.
dict(heros)

练习题3

战争期间,一周中哪一天发生的战斗最多

import pandas as pd
import datetime as dt

#一周中每天转为星期形式
def day_of_week(day):
    return day.strftime('%A')

#战斗最多的一天(列出开始日期) 
days_of_war = pd.read_csv(filepath_or_buffer='revolutionary_war.csv', 
                  usecols=['Start Date'], 
                  parse_dates=['Start Date'],
                 ).squeeze(1)
 
print(type(days_of_war))
print()
days_of_war
 
#dropna() 方法会删除 Series 中的任何包含 NaN(缺失值)的行
#apply(day_of_week) 会对剩余的每个非空元素应用自定义函数 day_of_week。
#这个操作将把日期转换为相应的星期几,将结果存储在名为 days 的新 Series 中。
days = days_of_war.dropna().apply(day_of_week)
days
 
#统计不同星期出现的次数
days.value_counts()

练习题4

1. 导入nfl.csv,将Birthday转为datetimes

2. 用2种方法将DataFrame的index设置为name

3. 统计每个队伍的球员数量

4. 查找工资最高的5个球员

5. 排序:先将team按字母顺序排序,再将salary按降序排序

6. New York Jets roster队中年龄最大的球员是谁,他的生日是什么时候

# 1. 导入nfl.csv,将Birthday转为datetimes
nfl = pd.read_csv('nfl.csv', parse_dates=['Birthday'])
nfl

# 2. 用2种方法将DataFrame的index设置为name
# 第一种方法
nfl = nfl.set_index('Name')
nfl

# 第二种方法
nfl_2 = pd.read_csv('nfl.csv', parse_dates=['Birthday'], index_col='Name')
nfl

# 3. 统计每个队伍的球员数量
nfl['Team'].value_counts()

# 4. 查找工资最高的5个球员
nfl.sort_values(by=['Salary'], ascending=False).head(5)

# 5. 排序
# 先将team按字母顺序排序
# 再将salary按降序排序
nfl.sort_values(by=['Team', 'Salary'], ascending=[True, False])

# 6. New York Jets roster队中年龄最大的球员是谁,他的生日是什么时候
nfl = nfl.reset_index().set_index('Team')
nfl

nfl.loc['New York Jets']

nfl.loc['New York Jets'].sort_values('Birthday').head(1)

练习题5

  1. 优化数据集以限制内存使用并最大化效用。 这可能包括选择合适的数据类型、删除不必要的列等操作。
  2. 找到所有标题为 "Limitless" 的行。
  3. 找到所有导演为 "Robert Rodriguez" 且类型为 "Movie" 的行。
  4. 找到所有添加日期为 "2019-07-31" 或导演为 "Robert Altman" 的行。
  5. 找到所有导演为 "Orson Welles"、"Aditya Kripalani" 或 "Sam Raimi" 的行。
  6. 找到所有添加日期在 2019 年 5 月 1 日至 2019 年 6 月 1 日之间的行。
  7. 删除导演列中包含 NaN 值的所有行。
  8. 确定 Netflix 只在其目录中添加了一部电影的日期。
# 优化数据集以限制内存使用并最大化效用
netflix = pd.read_csv('netflix.csv', parse_dates=['date_added'])
netflix.info()
netflix.nunique()
 
netflix['type'] = netflix['type'].astype('category')
netflix.info()
 
# 找到所有标题为 "Limitless" 的行。
title = netflix['title'] == 'Limitless'
netflix[title]
 
 
# 找到所有导演为 "Robert Rodriguez" 且类型为 "Movie" 的行。
director = (netflix['director'] == 'Robert Rodriguez')
typeMovie = netflix['type'] == 'Movie'
netflix[director & typeMovie]
# 找到所有添加日期为 "2019-07-31" 或导演为 "Robert Altman" 的行。
date = netflix['date_added'] == '2019-07-31'
director = netflix['director'] == 'Robert Altman'
netflix[date | director]
 
# 找到所有导演为 "Orson Welles"、"Aditya Kripalani" 或 "Sam Raimi" 的行
directors = ['Orson Welles', 'Aditya Kripalani', 'Sam Raimi']
target = netflix['director'].isin(directors)
netflix[target]
 
# 找到所有添加日期在 2019 年 5 月 1 日至 2019 年 6 月 1 日之间的行。
addMovie = netflix['date_added'].between('2019-5-1', '2019-6-1')
netflix[addMovie]
 
 
# 删除导演列中包含 NaN 值的所有行。
netflix.dropna(subset = ['director'])
 
 
# 确定 Netflix 只在其目录中添加了一部电影的日期。
netflix.drop_duplicates(subset=['date_added'], keep=False)

练习题6

# customers.csv包括一个地址列。
# 每个地址由一条街道、城市、州和邮政编码组成。
# 分离这四个值;
# 将它们分配到DataFrame中新的Street、City、State和Zip列;
# 然后删除地址列。

customers = pd.read_csv('customers.csv')
customers

customers['Address'].values

split = customers['Address'].str.split(',' , expand = True)
split

customers[['Street', 'City', 'State', 'Zip']] = split
customers = customers.drop(labels='Address', axis='columns')
customers

练习题8

1 在 cars 数据集中,聚合汽车价格的总和。在行轴上按燃料类型分组结果。
2 在 cars 数据集中,聚合汽车的数量。在索引轴上按制造商分组,在列轴上按变速箱类型分组。显示行和列的子总数。
3 在 cars 数据集中,聚合汽车价格的平均值。在索引轴上按年份和燃料类型分组,在列轴上按变速箱类型分组。
4 给定上一个挑战中的 DataFrame,将变速箱级别从列轴移动到行轴。
5 将 min_wage 从宽格式转换为窄格式。换句话说,将数据从八个年份列(2010-17)移动到单个列中。

car = pd.read_csv('used_cars.csv')
car

min_wage = pd.read_csv('minimum_wage.csv')
min_wage.head()

#1.
car.pivot_table(
    values = 'Price',
    index = 'Fuel',
    aggfunc = 'sum'
)

#2.
car.pivot_table(
    values = 'Price',
    index = 'Manufacturer',
    columns = 'Transmission',
    aggfunc = 'count',
    margins = True,
    margins_name = 'Total'
)

#3.
car.pivot_table(
    values = 'Price',
    index = ['Year','Fuel'],
    columns = 'Transmission',
    aggfunc = 'mean'
)

#4.
c1 = car.pivot_table(
    values = 'Price',
    index = ['Year','Fuel'],
    columns = 'Transmission',
    aggfunc = 'mean'
)
c1.stack()


#5.
year = ['2010','2011','2012','2013','2014','2015','2016','2017']
min_wage.melt(id_vars = 'State',var_name = 'Year',value_name = 'wage')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1814170.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

程序员必备的职业素养:专业精神、沟通能力与持续学习

🍎个人博客:个人主页 🏆个人专栏:日常聊聊 ⛳️ 功不唐捐,玉汝于成 目录 前言 正文 专业精神:技术的执着追求 沟通能力:团队合作的桥梁 持续学习:不断进步的动力 结语 我的…

世优科技AI数字人多模态交互系统“世优波塔”正式发布

2024年6月6日,世优科技“波塔发布会”在北京举办,本次发布会上,世优科技以全新的“波塔”产品诠释了更高效、更智能、更全面的AI数字人产品及软硬件全场景解决方案,实现了世优品牌、产品和价值的全面跃迁。来自行业协会、数字产业…

商用车CAN数据数字化是促进生态环保高质量发展的桥梁纽带

在当今这个智能化、电动化、信息化、数字化快速发展的时代,其中数字化转型已经成为各行各业提升效率、优化管理的关键途径,21世纪这个被誉为“大数据时代”的纪元,数据的潜力、生产力、作为基础设施被无限放大,其在各个领域&#…

6-1RT-Thread事件集

6-1RT-Thread事件集 其中,一对多方式比较常见。一对多方式其线程与时间的关系又可分为特定时间触发唤醒线程,类似于逻辑非控制电路,灯泡亮灭,由一个开关就可以触发。 事件集中,任意事件触发唤醒线程类似于逻辑或控制电…

后继者00

题目链接 后继者 题目描述 注意点 题目中的树是二叉搜索树节点p在二叉搜索树中一定存在 解答思路 本题关键是找到值大于节点p的值的第一个节点,因为本题中的树是二叉搜索树,所以左子树的值始终小于根节点,右子树的值始终大于根节点访问到…

【画板案例-颜色 Objective-C语言】

一、接下来,我们来说这个颜色的问题, 1.设置这个颜色啊,那么,颜色,首先啊,就我们的示例程序而言,好,我们现在只要点击这个按钮, 就能够让某一条路径,也是达到不同的颜色, 我们可以让每一条路径,去设置颜色, 那么,这个颜色啊,首先,思路啊,大家先来分析一下, …

pytest中失败用例重跑

pip install pytest-rerunfailures 下载rerunfailures插件包 配置文件中加入命令 --reruns 次数 也可在命令行中pytest --rerun-failures2 可以在allure报告中看到重试效果

基于PID的直流电机自动控制系统的设计【MATLAB】

摘 要 本文在广泛查阅资料,了解直流电机特性的基础上,对直流电机的控制原理进行了的研究,设计了一款基于PID控制器的简单直流电机自动控制系统。 首先,分析了直流电机的应用背景和发展现状,对直流电机的工作原理和数学…

Linux系统之smem命令的基本使用

Linux系统之smem命令的基本使用 一、smem命令介绍二、smem命令的使用帮助2.1 smem命令的help帮助信息2.2 smem命令的语法解释 三、smem工具安装3.1 安装epel3.2 搜索smem包3.3 安装smem 四、smem命令的基本使用4.1 查看内存概览4.2 查看内存占用百分比4.3 查看系统内存使用情况…

FANUC机器人4种启动方式的区别

FANUC机器人4种启动方式的区别 1.初始化启动 执行初始化启动时,删除所有程序,所有设定返回标准值。 初始化启动完成时,自动执行控制启动。 说明: 执行初始化启动时,删除所有程序,所有设定返回标准值。初始化启动完成时,自动执行控制启动。执行初始化启动时,程序、设定等…

32+综述!百位大佬联袂解析“One Health”时代下新污染物对全球健康的影响

如果你关注环境健康,那么会发现以上研究发现层出不穷,新污染物正在“潜移默化”悄悄改变我们的个体健康和生存环境! 新污染物是全球经济快速发展的“产物”。例如,微塑料作为一种经常出现的新污染物,可作为载体传播和…

Pikachu靶场--暴力破解

实验前的准备 问题解决 PHPStudy(小皮)V8.1安装后启动Apache报错AH00526: Syntax error 【数据库连接问题】【靶场访问错误】 抓不到本地靶场包的原因及解决方法_pakachu抓不到包 设置代理 BP添加和选择代理 火狐浏览器-->设置-->拓展-->搜索…

臻奶惠的行业优势与市场竞争力解析

臻奶惠在智能售货机领域深耕多年,其加盟合作模式在行业中展现出了多方面的优势。以下是对该公司智能售货机加盟优势的深入分析: 技术先进性: 臻奶惠智能售货机以高度自动化的运营模式著称,特别是在自动补货、远程监控和数据分析…

Git仓库中文件的状态

0 Preface/Foreword 1 文件状态 文件包含以下4个状态: untracked,未跟踪,表示该文件在文件夹中,但是没有加入到git 仓库中进行版本管控。可以通过git add命令将该文件增加到git 仓库中。从untracked变为staged。unmodified&…

夏日炎炎,护牙不闲——口腔问诊小程序开发助你笑口常开

近年来,“口呼吸”、“牙齿矫正”、“美牙贴片”等词越来越多的出现在大众的视野中,口腔健康成为了人们关注的新热点。但是市面上的口腔诊所数量众多又参差不齐,如何选择最合适的口腔诊所是人们面对的新问题。为了有效解决这一现状&#xff0…

Linux命令详解(1)

在Linux操作系统中,命令行界面(CLI)是一个强大的工具,它允许用户通过键入命令来与系统交互。无论是系统管理员还是普通用户,掌握一些基本的Linux命令都是非常重要的。在本文中,我们将探讨一些常用的Linux命…

OCP-042之:Oracle实例管理

2. Oracle实例管理 2.1 Instance管理 Oracle实例(instance)是一组Oracle后台进程和内存结构的集合。 后台进程主要包括SMON,PMON,DBWR,CKPT和LGWR等;内存结构包括数据库高速缓冲区、重做日志缓冲区、共享池、大池等组成系统全局区(SGA)的重要组件。实例主要实现对数据库的…

【论文速读】| 通过大语言模型从协议实现中推断状态机

本次分享论文:Inferring State Machine from the Protocol Implementation via Large Language Model 基本信息 原文作者:Haiyang Wei, Zhengjie Du, Haohui Huang, Yue Liu, Guang Cheng, Linzhang Wang, Bing Mao 作者单位:南京大学&#…

12V转5V3A固定输出电源转换芯片

AH8642A是一款高效的12V转5V固定输出电源转换芯片,适用于车载充电器、适配器以及电池充电器等应用场景。该芯片具有SOP-8封装,使得其具有易于安装和组装的特性,非常适合于生产厂家和消费者使用。 其主要特点包括: 1. 固定输出电压…

【Win】打造个性化的Windows锁屏:从移除小部件到隐藏锁屏

移除锁屏小部件 如果您是Windows 11用户并且安装了最新版本的Windows 11,您可能已经注意到锁屏上的小部件。如果您不希望Windows 11在锁屏上显示小部件,您可以禁用此功能。本文展示了如何在Windows 11中移除锁屏小部件。 要移除Windows 11的锁屏小部件&…