一、安装anaconda(阿里云镜像库)

pip config list -v#pip在哪里寻找pip.conf文件

阿里云镜像：

1、安装完成，命令行输入：conda config生成.condarc文件（运行期配置文件）

2、如果原本的源中的源地址是 https，可以直接改成http即可。这个方法可以特别注意，因为https有时候会出现连接错误的问题，改成http后不会再出现此类问题
参考链接：https://blog.csdn.net/weixin_51484460/article/details/122179000

3、conda包管理器

conda env list#查找包文件目录

conda install <package>#安装需要的包

conda -V#版本

conda create --name <new_env_environment> --clone <copied_env_environment>#复制环境并创建新的环境

二、anaconda的编辑和xlwings操作

1、创建20个excel

"""
编程os:mac
"""
import xlwings as xw
app=xw.App(visible=True,add_book=False)
for i in range(1,21):
    workbook=app.books.add()
    workbook.save(f'/Users/Tina/Desktop/20220607/分公司{i}.xlsx')
    workbook.close()

app.quit()

2、打开一个已存在的xlsx表，并在第一个单元格添加内容，并添加一个工作表

import xlwings as xw
app=xw.App(visible=True,add_book=False)
workbook=app.books.open('/Users/Tina/Desktop/20220607/分公司1.xlsx')
#指定的工作簿必须真实存在，并且不能处于已打开的状态
worksheet=workbook.sheets['Sheet1']
worksheet.range('A1').value="编号"
workbook.sheets.add('产品统计表')

三、数组计算的数学模块——NumPy（前闭后开）

NumPy模块（Numerical Python缩写）一个运算速度非常快的数学模块

import numpy as np
a=[1,2,3,4]
b=np.array([1,2,3,4])
print(type(a),a)
print(type(b),b)

"""
运行结果：<class 'list'> [1, 2, 3, 4]
<class 'numpy.ndarray'> [1 2 3 4]

"""

1、数组能够很好的支持一些数学运算

import numpy as np
a=[1,2,3,4]
b=np.array([1,2,3,4])
print(a*2)
print(b*2)
"""
运算结果：
[1, 2, 3, 4, 1, 2, 3, 4]
[2 4 6 8]
"""

2、数组可以存储多维数据，而列表通常只能存储一维数据

import numpy as np
a=[[1,2],[3,4],[5,6]]
b=np.array([[1,2],[3,4],[5,6]])
print(a)
print(b)

"""
执行结果：
[[1, 2], [3, 4], [5, 6]]
[[1 2]
 [3 4]
 [5 6]]
"""

3、创建一维数组

import numpy as np
#一位默认是终止值
a=np.arange(5)
#步长默认为1
b=np.arange(5,10)
#起点5，终点值10，步长2
c=np.arange(5,10,2)
print(a)
print(b)
print(c)

"""
输出结果：
[0 1 2 3 4]
[5 6 7 8 9]
[5 7 9]
"""

4、创建一个一维数组，其中包含服从正态分布（均值为0、标准差为1的分布）的三个随机数

import numpy as np
a=np.random.randn(3)
print(a)

"""
执行结果：
[ 0.31614956  0.87779118 -0.78618781]
"""

5、创建二维数组

import numpy as np
#创建一个一维数组，然后转化成3行4列的二位数组
a=np.arange(12).reshape(3,4)
print(a)
"""
运行结果：
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
"""

####创建随机二维数组####
import numpy as np
#第一个起始值，第二个终止值，4行，4列
a=np.random.randint(0,10,(4,4))
print(a)

"""
运行结果：
[[1 1 3 4]
 [5 7 6 3]
 [0 1 9 8]
 [2 4 7 7]]
"""

四、数据导入和整理模块——pandas

1、pandas数据

import pandas as pd
a=pd.Series(['张三','李四','王五'])
print(a)

"""
运行结果：
0    张三
1    李四
2    王五
dtype: object
"""

2、二维数据表格DataFrame


#####################列表创建DataFrame###################
import pandas as pd
a=pd.DataFrame([[1,2],[3,4],[5,6]])
print(a)

"""
运行结果：
   0  1
0  1  2
1  3  4
2  5  6
结论：该数据结构存在行和列索引
"""
###############创建类似excel的行列结构#######################
import pandas as pd
a=pd.DataFrame([[1,2],[3,4],[5,6]],columns=['date','score'],index=['A','B','C'])
print(a)

"""
运行结果：
   date  score
A     1      2
B     3      4
C     5      6
"""

#######################另一种创建方式#########################
import pandas as pd
a=pd.DataFrame()
date=[1,3,5]
score=[2,4,6]
a['date']=date
a['score']=score
print(a)

"""
运行结果：
   date  score
0     1      2
1     3      4
2     5      6
"""
######################通过字典创建DataFrame###################
import pandas as pd
a=pd.DataFrame({'a':[1,3,5],'b':[2,4,6]},index=['x','y','z'])
print(a)

"""
打印结果：
   a  b
x  1  2
y  3  4
z  5  6
"""
###############以字典的键名作为行索引#####################
import pandas as pd
a=pd.DataFrame.from_dict({'a':[1,3,5],'b':[2,4,6]},orient='index')
print(a)

"""
打印结果：
   0  1  2
a  1  3  5
b  2  4  6
"""
################通过二维数组创建DateFrame########################
import pandas as pd
import numpy as np
a=np.arange(12).reshape(3,4)
b=pd.DataFrame(a,index=[1,2,3],columns=['A','B','C','D'])
print(b)
"""
打印结果：
   A  B   C   D
1  0  1   2   3
2  4  5   6   7
3  8  9  10  11
"""

3、修改索引

import pandas as pd
a=pd.DataFrame([[1,2],[3,4],[5,6]],index=['A','B','C'],columns=['date','score'])
a.index.name='公司'
print(a)
"""
打印结果：
    date  score
公司             
A      1      2
B      3      4
C      5      6
"""
###################################################################
import pandas as pd
a=pd.DataFrame([[1,2],[3,4],[5,6]],index=['A','B','C'],columns=['date','score'])
a.rename(index={'A':'万科','B':'阿里','C':'百度'},columns={'date':'日期','score':'分数'},inplace=True)
print(a)
"""
执行结果：
     日期  分数
万科   1   2
阿里   3   4
百度   5   6
"""
#####################将行索引转换为常规列###################
a.index.name='公司'
a=a.reset_index()
"""
   公司  日期  分数
0  万科   1   2
1  阿里   3   4
2  百度   5   6
"""
####################把常规列转换为行索引####################
a=a.set_index('日期')
"""
   公司  分数
日期        
1   万科   2
3   阿里   4
5   百度   6
"""

4、文件的读取和写入

import pandas as pd
data=pd.read_excel('/Users/Tina/Desktop/20220607/分公司1.xlsx')
print(data)
"""
执行结果：
   公司  哈哈
0  百度  卡看
1  分数  啦啦
"""
#也可读取CVS格式，pd.read_csv('data.csv')
###################################写入#########################################
import pandas as pd
data=pd.DataFrame([[1,2],[3,4],[5,6]],columns=['A列','B列'])
data.to_excel('/Users/Tina/Desktop/20220607/分公司1.xlsx')

#把A列数据写入工作簿并忽略行索引信息
data.to_excel('data.xlsx', columns=['A列'],index=False)

#CSV同理
data.to_csv('data.csv')

5、数据的选取、筛选、排序、运算与删除

1》数据的选取

1）按列选取数据

import pandas as pd
data=pd.read_excel('/Users/Tina/Desktop/20220607/分公司1.xlsx')
#选取列,返回一个一维的Series
a=data['A列']
#返回二维的表格数据
b=data[['A列']]
#多列表格数据
c=data[['A列','B列']]
print(a)
print(b)
print(c)

"""
打印结果：
0    1
1    3
2    5
Name: A列, dtype: int64
   A列
0   1
1   3
2   5
   A列  B列
0   1   2
1   3   4
2   5   6
"""

2）按行选取数据

import pandas as pd
data=pd.read_excel('/Users/Tina/Desktop/20220607/分公司1.xlsx')
a=data[1:3]#按行选取数据，左闭右开
print(a)

"""
运行结果：
   Unnamed: 0  A列  B列
1           1   3   4
2           2   5   6
"""
#####################以上方法可能引起错误######################
import pandas as pd
data=pd.read_excel('/Users/Tina/Desktop/20220607/分公司1.xlsx')
a=data.iloc[1:3]#按行选取数据，左闭右开
#使用行的名称进行选取
b=data.loc[[1,2]]
#行比较多，可以进行head前几行的选取
c=data.head(2)
print(a)
print(b)
print(c)
"""
   Unnamed: 0  A列  B列
1           1   3   4
2           2   5   6
   Unnamed: 0  A列  B列
1           1   3   4
2           2   5   6
   Unnamed: 0  A列  B列
0           0   1   2
1           1   3   4
"""

3)按区块进行选取

import pandas as pd
data=pd.read_excel('/Users/Tina/Desktop/20220607/分公司1.xlsx')
a=data[['A列','B列']][0:2]#按区块进行选取
#同上
b=data.iloc[0:2][['A列','B列']]
print(a)
print(b)
"""
运行结果：
 A列  B列
0   1   2
1   3   4
   A列  B列
0   1   2
1   3   4
"""
##########################选取单个单元格##############################
import pandas as pd
data=pd.read_excel('/Users/Tina/Desktop/20220607/分公司1.xlsx')
a=data.iloc[0]['A列']#先选行，再选列,选取单个单元格
#选取多个单元格，i表示索引
b=data.iloc[0:2,[1,2]]
c=data.loc[[0,1],['A列','B列']]
print(a)
print(b)
print(c)
"""
运行结果：
1
   A列  B列
0   1   2
1   3   4
   A列  B列
0   1   2
1   3   4
"""
data.ix[[0:2,['A列','B列']]#索引不必须为字符串或数字

2》数据的筛选

import pandas as pd
data=pd.read_excel('/Users/Tina/Desktop/20220607/分公司1.xlsx')
a=data[data['A列']>1]
b=data[(data['A列']>1)&(data['B列']==4)]
print(a)
print(b)
"""
运算结果：
   Unnamed: 0  A列  B列
1           1   3   4
2           2   5   6
   Unnamed: 0  A列  B列
1           1   3   4
"""

3》数据的排序

按A列进行降序排序

import pandas as pd
data=pd.read_excel('/Users/Tina/Desktop/20220607/分公司1.xlsx')
a=data.sort_values(by='A列',ascending=False)
print(a)
"""
运行结果：
   Unnamed: 0  A列  B列
2           2   5   6
1           1   3   4
0           0   1   2
"""
###################按照行索引进行升序###################
b=data.sort_index(ascending=True)#按照行索引进行排序
print(b)

"""
运行结果：
   Unnamed: 0  A列  B列
0           0   1   2
1           1   3   4
2           2   5   6
"""

4》数据的运算

import pandas as pd
data=pd.read_excel('/Users/Tina/Desktop/20220607/分公司1.xlsx')
data['C列']=data['B列']-data['A列']
print(data)
"""
运算结果：
   Unnamed: 0  A列  B列  C列
0           0   1   2   1
1           1   3   4   1
2           2   5   6   1
"""

5》数据的删除

import pandas as pd
data=pd.read_excel('/Users/Tina/Desktop/20220607/分公司1.xlsx')
data.drop(columns='A列')#单列删除
data.drop(columns=['A列','B列'])#进行列数据删除
data.drop(index=[1,2],inplace=True)#进行行数据删除；inplace=True会改变DataFrame的结构
print(data)
"""
运行结果：
 Unnamed: 0  A列  B列
0           0   1   2
"""

6、数据表的拼接

1）合并merge

import pandas as pd
df1=pd.DataFrame({'公司':['百度','腾讯','静思'],'分数':[90,98,65]})
df2=pd.DataFrame({'公司':['百度','腾讯','静思2'],'股价':[33,49,10]})
print(df1)
print(df2)
"""
执行结果：
   公司  分数
0  百度  90
1  腾讯  98
2  静思  65
   公司  股价
0   百度  33
1   腾讯  49
2  静思2  10
"""
###############merge()默认选取两个列共有的内容，根据相同的列名进行合并#########
df3=pd.merge(df1,df2)
print(df3)
"""
运行结果：
  公司  分数  股价
0  百度  90  33
1  腾讯  98  49
"""
############如果同名的列不止一个，on指定按照哪一列进行合并######################
df3=pd.merge(df1,df2,on='公司')
####################默认合并方式取交集，并集outer########################
df3=pd.merge(df1,df2,how='outer')
"""
运行结果：
    公司    分数    股价
0   百度  90.0  33.0
1   腾讯  98.0  49.0
2   静思  65.0   NaN
3  静思2   NaN  10.0
"""
############保留左表全部内容，右表不太在意#####################
df3=pd.merge(df1,df2,how='left')#右表同理
"""
运行结果：
   公司  分数    股价
0  百度  90  33.0
1  腾讯  98  49.0
2  静思  65   NaN
"""
############按照行索引进行合并##############
df3=pd.merge(df1,df2,left_index=True,right_index=True)
"""
  公司_x  分数 公司_y  股价
0   百度  90   百度  33
1   腾讯  98   腾讯  49
2   静思  65  静思2  10
"""

2）连接concat

df3=pd.concat([df1,df2],ignore_index=True)
"""
运行结果：
   公司    分数    股价
0   百度  90.0   NaN
1   腾讯  98.0   NaN
2   静思  65.0   NaN
3   百度   NaN  33.0
4   腾讯   NaN  49.0
5  静思2   NaN  10.0
"""
#############横向拼接##############
df3=pd.concat([df1,df2],axis=1)#横向拼接
"""
   公司  分数   公司  股价
0  百度  90   百度  33
1  腾讯  98   腾讯  49
2  静思  65  静思2  10
"""
##############append简化版concat#########
df3=df1.append({'公司':'腾飞','分数':'90'},ignore_index=True)
"""
运行结果：
   公司  分数
0  百度  90
1  腾讯  98
2  静思  65
3  腾飞  90
"""

五、数据可视化模块——Matplotlib