Python基础教程:强大的Pandas数据分析库

news2024/10/6 20:33:55

Pandas是一个基于 NumPy 的非常强大的开源数据处理库,它提供了高效、灵活和丰富的数据结构和数据分析工具,当涉及到数据分析和处理时,使得数据清洗、转换、分析和可视化变得更加简单和高效。本文中,我们将学习如何使用Pandas来处理和分析数据。

首先,我们需要安装Pandas库。您可以使用以下命令来安装它:

pip install pandas

安装完成后,我们可以开始使用Pandas了。首先,让我们导入Pandas库:

import pandas as pd

pandas Pandas 的两个主要的数据结构是 Series 和 DataFrame。Series 是一维数组,可以存储任意类型的数据;DataFrame 是二维表格数据结构,可以看做是一系列 Series 对象的集合,每个 Series 对象代表一列数据。下面我们来学习下这两种数据结构。

1.Series

Series是Pandas中的一维数据结构,类似于一维数组或列表。它可以存储任何数据类型,并且每个元素都有一个与之关联的标签,称为索引。 在创建一个 Series 时,我们可以通过指定索引来为每个元素进行命名,这样一来就可以通过索引来访问和操作这些元素。在访问 Series 中的元素时,我们同样需要使用索引来指定要访问的位置。

以下是创建Series的一个示例:

import pandas as pd
import numpy as np

data = pd.Series([1, 3, 5, np.nan, 6, 8])
# 自建索引
data = pd.Series([1, 3, 5, np.nan, 6, 8], index)
# 通过字典直接创建带索引的数据
data = pd.Series({0: 1, 1: 3, 2: 5, 3: np.nan, 4: 6, 5: 8 })
print(data)

输出结果:

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

在上面的示例中,我们创建了一个包含整数和NaN值的Series。可以看到,每个元素都有一个索引。与传统的数组和列表不同,Pandas 的索引可以是任意数据类型,包括整数、字符串、日期等。索引有助于对数据进行标记和命名,使得数据的访问更加方便和直观。

在 Pandas 的 DataFrame 中,索引的作用更加重要。除了可以为每一行和每一列指定索引外,DataFrame 还支持多级索引,也就是可以为行和列同时指定多个索引。这为多维数据的处理提供了更多的灵活性和功能性。通过索引,我们可以轻松地从 DataFrame 中选择特定的行数和列数,我们可以通过指定行索引和列索引来选择任意子集的数据,也可以通过使用条件表达式来筛选满足特定条件的数据。

2.DataFrame

DataFrame是Pandas中的二维数据结构,类似于Excel表格或SQL表。它由行和列组成,并且可以存储不同类型的数据。在Pandas中,我们可以使用pd.DataFrame()函数来创建DataFrame。在这个函数中,我们可以通过参数columns来指定DataFrame的列索引,也就是字段名或列名。通过这个参数,我们可以定义每一列的名称,方便后续对数据框中的数据进行索引和操作。

如果我们想要自定义索引值,可以在pd.DataFrame()函数中使用参数index来实现。通过指定index参数,我们可以为每一行指定一个唯一的标识符,可以是字符串、整数或其他数据类型。这样一来,就可以更灵活地根据指定的索引值来获取和操作数据框中的数据。通过这种方式,我们可以根据具体的需求来定义数据框的索引,并且能够更好地满足我们对数据的处理和分析的需求。

以下是创建DataFrame的一个示例:

import pandas as pd

data = {'name': ['John', 'Emma', 'Mike', 'Lisa'],
        'age': [28, 24, 32, 35],
        'city': ['New York', 'London', 'Paris', 'Tokyo']}
df = pd.DataFrame(data)
print(df)
# 通过columns指定DataFrame的列索引
data = [[1,'Bob', 24, 'American'],[2, 'Nancy', 23, 'Australia'],[3, 'Lili', 22, 'China'],[4, 'Leo', 27, 'M78'],[5, 'David', 24, 'moon']]
df = pd.DataFrame(data, columns=['serial', 'name', 'age', 'from',])
# 自定义索引
df = pd.DataFrame(data, columns=['serial', 'name', 'age', 'from'], index=['a','b','c','d','e'])

print(df)

输出结果:

   name  age      city
0  John   28  New York
1  Emma   24    London
2  Mike   32     Paris
3  Lisa   35     Tokyo

   serial   name  age       from
a       1    Bob   24   American
b       2  Nancy   23  Australia
c       3   Lili   22      China
d       4    Leo   27        M78
e       5  David   24       moon

在上面的示例中,我们使用一个字典来创建DataFrame。字典的键是列名,而字典的值是该列的数据。同样地,我们也使用了列表来创建data,这个嵌套列表中每一个子列表为 DataFrame 的一行,是不是和我们创建上面Series有点异曲同工?实际上, DataFrame 的每一行或者每一列都可以看作一个 Series。 接下来,让我们看一些常用的数据操作和分析技巧。

3. 数据操作

3.1 选择和过滤

Pandas提供了多种方法来选择和过滤数据。以下是一些常用的方法:

#选择列:可以使用列名或列索引来选择列。
df['name']
#选择行:可以使用行索引来选择行。
df.loc['a']
#过滤行:可以使用条件表达式来过滤行。
df[df['age'] > 30]
# 切片方式访问
print(df.iloc[1:3])  # 访问第二行到第三行数据

输出的结果如下:

a      Bob
b    Nancy
c     Lili
d      Leo
e    David
Name: name, dtype: object

serial           1
name           Bob
age             24
from      American
Name: a, dtype: object

   serial   name  age      from
a       1    Bob   24  American
d       4    Leo   27       M78
e       5  David   24      moon

   serial   name  age       from
b       2  Nancy   23  Australia
c       3   Lili   22      China

3.2 数据排序

Pandas提供了排序数据的功能。以下是一个示例:

df = df.sort_values(by='age', ascending=False)
print(df)

在上面的示例中,我们按照年龄列对数据进行降序排序。输出结果如下:

   serial   name  age       from
d       4    Leo   27        M78
a       1    Bob   24   American
e       5  David   24       moon
b       2  Nancy   23  Australia
c       3   Lili   22      China

3.3 数据聚合

Pandas提供了聚合数据的功能。假设我们上述的示例中增加一个为年级(grade),

data = [[1,'Bob', 24, 'American', 'high-school'],[2, 'Nancy', 23, 'Australia', 'college'],[3, 'Lili', 22, 'China', 'college'],[4, 'Leo', 27, 'M78', 'university'],[5, 'David', 24, 'moon', 'high-school']]

df = pd.DataFrame(data, columns=['serial', 'name', 'age', 'from', 'grade'], index=['a','b','c','d','e'])
# 聚合,按grade分组,并计算分组后的平均年龄
xdf = df.groupby('grade')['age'].mean()
print(xdf)

输出结果如下:

grade
college        22.5
high-school    24.0
university     27.0
Name: age, dtype: float64

在上面的示例中,我们按照年级列对数据进行分组,并计算每个年级的平均年龄。

3.4 数据可视化

Pandas还提供了数据可视化的功能。以下是一个示例:

# 此处需引入matplotlib
import matplotlib.pyplot as plot

df.plot(kind='bar', x='name', y='age')
plot.show() # 显示图像

在上面的示例中,我们使用柱状图来可视化姓名和年龄数据。这只是Pandas的一小部分功能。它还提供了许多其他功能,如数据清洗、缺失值处理、数据合并、数据透视表等。

ai art

4.一些高级用法

4.1 多级索引

Pandas的多级索引功能非常强大,它允许我们在一个DataFrame中创建复杂的层次结构索引,从而更灵活地组织和分析数据。一个常见的应用场景是使用多级索引来表示时间序列数据,比如将年份和季度作为索引的两个层级。

通过创建多级索引,我们可以将数据按照不同的层级进行划分和聚合。例如,我们可以根据年份来对数据进行分组,然后在每个年份内再按照季度进行分组。这样,我们可以更方便地进行各种统计分析,比如计算每个季度的平均值、总和等。

import pandas as pd

# 创建多级索引
index = pd.MultiIndex.from_tuples([('2019', 'Q1'), ('2019', 'Q2'), ('2020', 'Q1'), ('2020', 'Q2')])
data = pd.DataFrame({'Sales': [100, 200, 150, 250]}, index=index)
# 查询特定季度的销售数据
print(data.loc[('2020', 'Q1')])
# 查询特定年份的销售数据
print(data.loc['2020'])

输出结果如下:

Sales    150
Name: (2020, Q1), dtype: int64
    Sales
Q1    150
Q2    250

在创建多级索引时,我们可以使用Pandas的MultiIndex类来指定索引的层级和标签。通过指定层级的名称和对应的标签值,我们可以轻松地创建一个具有多级索引的DataFrame。

使用多级索引可以带来很多好处,比如提高数据的查询效率、简化数据的操作和分析等。但同时,也需要注意在使用多级索引时,要避免索引混淆和数据结构复杂度过高的问题。因此,在使用多级索引时,需要根据具体的需求和数据特点来灵活应用。

4.2 透视表

透视表是一种根据数据中的一个或多个列创建汇总表格的方法。Pandas提供了pivot_table函数,可以方便地对数据进行聚合和分析。 通过pivot_table函数,我们可以指定一个或多个列作为行索引,另一个或多个列作为列索引,然后根据指定的聚合函数对数据进行汇总。这样,我们就可以快速计算出各个行和列对应的统计量,比如平均值、总和、计数等。

import pandas as pd

# 创建一个包含销售数据的DataFrame
data = pd.DataFrame({'Year': ['2019', '2019', '2020', '2020'],
                      'Quarter': ['Q1', 'Q2', 'Q1', 'Q2'],
                      'Product': ['A', 'B', 'A', 'B'],
                      'Sales': [100, 200, 150, 250]})
# 创建透视表
pivot_table = data.pivot_table(index='Year', columns='Quarter', values='Sales', aggfunc='sum')
# 打印透视表
print(pivot_table)

输出如下:

Quarter   Q1   Q2
Year
2019     100  200
2020     150  250

Pandas的透视表功能为我们提供了一种方便、灵活的数据聚合和分析方法,可以帮助我们更好地理解和利用数据。透视表的好处在于它提供了一种直观、简洁的方式来查看和分析数据。通过透视表,我们可以轻松地对数据进行切片、切块和筛选,从而更深入地了解数据的特征和关系。

使用透视表时,我们可以根据具体的需求选择合适的聚合函数、行列索引和筛选条件,以获取我们想要的分析结果。透视表不仅适用于单个DataFrame,还可以用于多个DataFrame的合并和分析。

4.3 时间序列分析

在处理时间序列数据方面,Pandas提供了灵活且高效的功能。它的日期和时间处理功能包括日期范围生成、日期索引、日期加减运算、日期格式化等。你可以轻松地创建日期范围,并使用这些日期作为数据的索引,便于对时间序列数据进行操作和分析。

Pandas还支持重采样操作,可以将时间序列数据从一个频率转换为另一个频率。例如,你可以将按天采样的数据转换为按月采样的数据,或者将按小时采样的数据转换为按分钟采样的数据。重采样功能允许你根据需要灵活地调整数据的粒度和频率。

 import pandas as pd

# 创建一个包含时间序列数据的DataFrame
 data = pd.DataFrame({'Date': pd.date_range(start='2020-01-01', periods=10),
                      'Sales': [100, 200, 150, 250, 180, 120, 300, 350, 400, 250]})

# 将日期列设置为索引
 data.set_index('Date', inplace=True)
# 计算每周销售总额
 weekly_sales = data.resample('W').sum()
# 打印每周销售总额
 print(weekly_sales)

输出结果如下:

            Sales
Date
2020-01-05    880
2020-01-12   1420

此外,Pandas提供了滑动窗口操作,可以在时间序列数据上执行滑动窗口统计计算。你可以定义窗口的大小和滑动的步长,并针对窗口内的数据进行汇总、聚合或其他计算操作。这对于处理时间序列数据中的移动平均值、滚动求和等任务非常有用。

5. Pandas处理Excel文件

当使用Pandas处理Excel文件时,你可以使用read_excel()函数来读取Excel数据,并将其加载到一个DataFrame中。下面是一个简单的示例:

import pandas as pd

# 读取Excel文件
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# 显示DataFrame的前几行数据
print(df.head())

在这个例子中,我们假设存在一个名为"data.xlsx"的Excel文件,其中包含一个名为"Sheet1"的工作表。通过调用read_excel()函数,我们将这个Excel文件读取并加载到名为df的DataFrame中。然后,我们使用head()方法显示DataFrame的前几行数据。

接下来,我们可以对读取的数据进行各种操作和处理。下面是一些常见的操作示例:

python
复制代码
# 筛选特定列数据
selected_columns = ['Name', 'Age']
filtered_data = df[selected_columns]

# 按条件筛选数据
condition = df['Age'] > 25
filtered_data = df[condition]

# 数据排序
sorted_data = df.sort_values(by='Age', ascending=False)

# 添加新列
df['Gender'] = ['Male', 'Female', 'Male', 'Female', 'Male']

# 写入到新的Excel文件
df.to_excel('new_data.xlsx', index=False)

在上述示例中,我们展示了一些常见的操作。例如,我们筛选了特定列的数据、根据条件筛选数据、对数据进行排序,并在DataFrame中添加了新的列。最后,我们使用to_excel()方法将处理后的数据写入到一个名为"new_data.xlsx"的新Excel文件中。

这只是Pandas处理Excel文件的一小部分功能示例。Pandas提供了更多强大且灵活的功能,可以帮助你根据具体需求对Excel数据进行处理、清洗和分析。

5. 总结

本文这些示例只是Pandas应用的一小部分,只是为了使我们在学习中对Pandas有初步的了解。Pandas还提供了许多其他强大的功能,使数据分析和处理更加便捷。下面是一些扩展的Pandas功能:

  • 合并数据:Pandas提供了多种方法来合并不同的数据集,例如使用merge()函数按照指定的列将多个DataFrame进行合并,使用concat()函数沿着指定轴将多个DataFrame堆叠在一起,以及使用join()函数根据索引或列的值进行连接。
  • 拆分数据:你可以使用split()函数将包含多个值的单个列拆分成多个列,从而使数据更加规整和易于处理。
  • 过滤数据:Pandas提供了各种方法来筛选和过滤数据,如使用布尔条件进行行过滤,使用filter()函数根据列名进行列过滤,以及使用query()函数根据指定条件查询数据。
  • 处理缺失值:在现实数据中,经常会出现缺失值问题。Pandas提供了灵活的方法来处理缺失值,如使用isnull()notnull()函数检测缺失值,使用dropna()函数删除包含缺失值的行或列,以及使用fillna()函数填充缺失值。
  • 处理字符串:如果你需要对文本数据进行处理,Pandas提供了一系列处理字符串的方法,如使用str.contains()函数检测包含特定子串的值,使用str.replace()函数替换字符串,以及使用str.extract()函数提取符合指定模式的字符串。

上一篇教程:Python基础教程:Matplotlib图形绘制

除了上述功能,Pandas还支持数据透视表、时间序列分析、数据可视化等高级功能。如果你想深入学习和掌握这些功能,可以查阅[Pandas官方文档](pandas - Python Data Analysis Library (pydata.org)),也可以参考一些专门针对Pandas的书籍和在线教程:如Pandas中文网。后续教程中,也会深入讲解Pandas的使用。

如果你对Python感兴趣,想要学习python,这里给大家分享一份Python全套学习资料,都是我自己学习时整理的,希望可以帮到你,一起加油!

😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓
Python全套学习资料

在这里插入图片描述

1️⃣零基础入门

① 学习路线

对于从来没有接触过Python的同学,我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

② 路线对应学习视频

还有很多适合0基础入门的学习视频,有了这些视频,轻轻松松上手Python~
在这里插入图片描述

③练习题

每节视频课后,都有对应的练习题哦,可以检验学习成果哈哈!
在这里插入图片描述

2️⃣国内外Python书籍、文档

① 文档和书籍资料

在这里插入图片描述

3️⃣Python工具包+项目源码合集

①Python工具包

学习Python常用的开发软件都在这里了!每个都有详细的安装教程,保证你可以安装成功哦!
在这里插入图片描述

②Python实战案例

光学理论是没用的,要学会跟着一起敲代码,动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。100+实战案例源码等你来拿!
在这里插入图片描述

③Python小游戏源码

如果觉得上面的实战案例有点枯燥,可以试试自己用Python编写小游戏,让你的学习过程中增添一点趣味!
在这里插入图片描述

4️⃣Python面试题

我们学会了Python之后,有了技能就可以出去找工作啦!下面这些面试题是都来自阿里、腾讯、字节等一线互联网大厂,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
在这里插入图片描述
在这里插入图片描述

5️⃣Python兼职渠道

而且学会Python以后,还可以在各大兼职平台接单赚钱,各种兼职渠道+兼职注意事项+如何和客户沟通,我都整理成文档了。
在这里插入图片描述

上述所有资料 ⚡️ ,朋友们如果有需要的,可以扫描下方👇👇👇二维码免费领取🆓
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1257865.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

外贸CRM客户管理系统是什么?外贸CRM作用?

外贸CRM客户管理系统有哪些?海洋建站如何选外贸软件? 企业的外贸业务面临着日益激烈的竞争。为了更好地管理客户关系、提高运营效率,越来越多的企业开始采用外贸CRM客户管理系统。那么,海洋建站来介绍一下,外贸CRM客户…

爆肝整理! Python 网络爬虫 + 数据分析 + 机器学习教程来了

前段时间,有小伙伴多次在后台留言询问 Python 爬虫教程的问题。经过这两个多月以来的收集与整理,汇集了多个高校以及公开课视频教程,包括 python 爬虫的入门、进阶与实践,共 9G 左右。爬虫作为机器学习语料库构建的主要方式&#…

快速上手Banana Pi BPI-R4 MediaTek MT7988A 开源路由器开发板

基础开发 准备开发 * 准备8G以上TF卡、USB转串口线、Ubuntu系统* 使用 USB 串行电缆(3.3V TTL,波特115200)连接到 BPI-R4 上的调试控制台G接地;RXBPI-R4输入;TXBPI-R4输出* BPI-R4 引导程序和设备选择跳线设置* 例子…

抖音开新店,十个设置,实操满满全是干货

抖店开店的第一天手足无措不知从哪入手?我给大家分享一个新手开店必须完成的十个设置,实操满满全是干货,每一项都很重要!特别是新手一定要认真看,因为这个直接关系到你店铺能否正常经营,跟着我一起来实操一…

minio客户端基本操作

minio客户端基本操作 桶 创建桶 如果要创建新的桶 输入名称,点击创建即可,默认权限就行 删除桶 点击要删除的桶 点击删除 修改桶 如果哪天需要修改桶的权限或者其他信息,还是先点击这个桶进入详情 然后点击要修改的属性,选择…

力扣日记11.27-【二叉树篇】二叉树的最大深度

力扣日记:【二叉树篇】二叉树的最大深度 日期:2023.11.27 参考:代码随想录、力扣 104. 二叉树的最大深度 题目描述 难度: 给定一个二叉树 root ,返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最…

SparkDesk知识库 + ChuanhuChatGPT前端 = 实现轻量化知识库问答

上一篇 讯飞星火知识库文档问答Web API的使用(二) 把星火知识库搞明白了; 然后又花了时间学习了一下gradio的一些基础内容: 在Gradio实现两个下拉框进行联动案例解读:change/click/input实践(三) 在Gradio实…

P8A002-CIA安全模型-配置Linux描述网络安全CIA模型之可用性案例

【预备知识】 可用性(Availability) 数据可用性是一种以使用者为中心的设计概念,易用性设计的重点在于让产品的设计能够符合使用者的习惯与需求。以互联网网站的设计为例,希望让使用者在浏览的过程中不会产生压力或感到挫折,并能让使用者在使用网站功能时,能用最少的努力…

PHP 双门双向门禁控制板实时监控源码

本示例使用设备&#xff1a; 实时网络双门双向门禁控制板可二次编程控制网络继电器远程开关-淘宝网 (taobao.com) <?PHPheader("content-type:text/html;charsetGBK");$ThisIpget_local_ip(); //获取电脑IP地址 $server udp://.$ThisIp.:39192; $sock…

前置任务之安装jdk

已经安装过很多次了&#xff0c;但是每次安装都要搜好几次才能找到正确的&#xff0c;离大谱。 1.打开 oracle官网 https://www.oracle.com 然后切换到Java archive 下载192版本的&#xff0c;页面搜索ctrlF&#xff0c;【Java SE Development Kit】或者【jdk-8u192-windows-…

低代码开发平台:构建企业数字化生态系统的关键利器

近年来&#xff0c;随着人工智能、大数据分析技术、云计算等领域的迅速发展&#xff0c;企业数字化转型已成为不可避免的趋势。政策层面也对这一转型给予了大力支持&#xff0c;通过多项举措推动技术创新、信息化应用和数字化产业的发展。然而&#xff0c;我们要清醒认识到&…

不会提问不打紧,不敢提问才要命

最近在星球里回答了球友提出来的一些问题&#xff0c;我都给了回复&#xff0c;不经过在明确问题、探索问题的过程&#xff0c;对我启发挺大&#xff0c;特此来记录下感受和感悟。 缘起 最近新加入球友提的问题&#xff0c;有几次&#xff0c;我第一时间没看懂&#xff0c;甚…

Oracle Linux 9.3 发布

导读Oracle Linux 9 系列发布了第 3 个版本更新&#xff0c;支持 64 位 Intel 和 AMD (x86_64) 以及 64 位 Arm (aarch64) 平台。与所有的 Oracle Linux 版本一样&#xff0c;此版本与相应 RHEL 版本 100% 应用二进制兼容。 对于 x86_64 和 aarch64 架构&#xff0c;Oracle Li…

关于高斯核是实现尺度空间变换的唯一性思考

受到自己的启发&#xff0c;唯一性证明有了思路&#xff1a; 谁的一阶导数是自己&#xff0c;exp&#xff08;x&#xff09;&#xff0c;只有是自己&#xff0c;才能保持自己在其中。 为什么不能是exp&#xff08;x&#xff09;呢&#xff1f;不变导致图像不会模糊&#xff0…

微软发布了Orca 2,一对小型语言模型,它们的性能超越了体积更大的同类产品

尽管全球目睹了OpenAI的权力斗争和大规模辞职&#xff0c;但作为AI领域的长期支持者&#xff0c;微软并没有放慢自己的人工智能努力。今天&#xff0c;由萨提亚纳德拉领导的公司研究部门发布了Orca 2&#xff0c;这是一对小型语言模型&#xff0c;它们在零样本设置下对复杂推理…

基于PLC的物料分拣控制传送带控制系统设计

wx供重浩&#xff1a;创享日记 对话框发送&#xff1a;物料分拣 获取完整论文报告PLC梯形图工程源文件 传送带在先进制造领域中扮演着极其重要的角色。它可以搬运货物、分拣物品、代替人的繁重劳动。可以实现生产的机械化和自动化&#xff0c;能在有害环境下操作以保护人身安全…

条形码格式

条形码格式 简述EAN码EAN-13EAN-8 UPC码UPC-AUPC-E 简述 EAN码 EAN码&#xff08;European Article Number&#xff09;是国际物品编码协会制定的一种全球通用的商用条码。EAN码分为&#xff1a;标准版&#xff08;EAN-13&#xff09; 和 缩短版&#xff08;EAN-8&#xff09…

Eolink 通过多项信创环境适配认证,信创生态兼容更全面!

近日&#xff0c;Eolink 通过海光、龙芯、统信、达梦以及 TiDB 数据库等多个兼容性认证&#xff0c;信创生态适配能力全面提升。 信息技术应用创新的自主可控是国家实现科技自立自强的一项重要发展战略。作为国内 API 全生命周期管理理念的先行者&#xff0c;Eolink 积极响应国…

Java学习路线第一篇:Java基础(2)

这篇则分享Java学习路线第一part&#xff1a;Java基础&#xff08;2&#xff09; 从看到这篇内容开始&#xff0c;你就是被选定的天命骚年&#xff0c;将承担起学完Java基础的使命&#xff0c;本使命为单向契约&#xff0c;你可选择YES或者选择YES。 具体路线安排&#xff1a…

位图/布隆过滤器+海量数据处理总结

位图 题目&#xff1a; 第一种方法&#xff1a;二分查找。虽然二分的时间复杂度为o(log n),但是这个方法是不可行的&#xff0c;我们就算假设这40亿个数据是已经排序完成了的数据&#xff0c;但是40亿个整数在内存需要消耗的内存就是差不多16G&#xff0c;这个消耗是非常巨大的…