1.分组汇总groupby
2.计算空值
# py计算空值
data.isnull().sum(axis=0)
data.notnull().sum(axis=0)
# py去重计数
data_op['id_num_op'].value_counts().size
data_op['id_num_op'].size
3.保留两位小数
# predict_proba保留两位小数
gnb = GaussianNB()
pre = gnb.fit(X_train,y_train).predict(X_test)
model = gnb.fit(X_train,y_train)
pro = model.predict_proba(X_test)
pd.DataFrame(pro).applymap(lambda x:np.round(x,2)) #概率值保留两位小数
4.数据表随机取数
np.random.seed(123)
data_1 = data.take(np.random.permutation(len(data))[:100])
5.pickle文件的保存、加载与使用
import pickle as pickle
# 保存
model_file = open(r'clf.model', 'wb')
pickle.dump(clf, model_file)
model_file.close()
# 加载
model_load_file = open(r'clf.model', 'rb')
model_load = pickle.load(model_load_file)
model_load_file.close()
# 预测
test_est_load = model_load.predict(test_data)
pd.crosstab(test_est_load,test_est)
问题:python在线pip无法安装package,如执行pip install jieba,显示红色错误:read time out
原因分析:连接服务器,网速慢,文件大,导致下载连接超时,无法完成下载。
添加参数:–default-timeout=100,执行命令为:pip --default-timeout=100 install jieba
或者 pip --default-timeout=1000 install jieba
6.时间的表达:datetime和timedelta
-
基本上常用的类: datetime和timedelta两个。
-
参数可以是days ,hours ,minutes ,seconds ,microseconds,如果是负数就是向前多少时间
datetime可以查看:天数(day),小时数(hour),星期几(weekday())等
timedelta可以查看:天数(days),秒数 (seconds)等 -
每个类都有一些方法和属性可以查看具体的值.
# 天数
import datetime
d1 = datetime.datetime(2009, 3, 23)
d2 = datetime.datetime(2009, 10, 7)
dayCount = (d2 - d1).days
print(dayCount)
# 秒数
import datetime
starttime = datetime.datetime.now()
endtime = datetime.datetime.now()
res = (endtime - starttime).seconds
print(res)
# 时间相加
d1 = datetime.datetime.now()
d3 = d1 + datetime.timedelta(days=10)
print (d3.ctime())
7.dict_to_dataframe
import pandas as pd
data = {'a': 3000, 'b': 2000, 'a': 3000, 'c': 6000, 'd': 5000}
pd.DataFrame.from_dict(data,orient='index') #默认去重
pd.DataFrame.from_dict(data,orient='index').T
8.类别转换数值
# 如用1来表示“好的”、“优质”,用-1来表示“坏的”、“差的”
data[data == u'好的'] = 1
data[data == u'优质'] = 1
data[data != 1] = -1
data2 = data.as_matrix().astype(int)
9.查看第三方包的版本
a.命令行直接输入pip list 或 conda list
b.运用pandas查看包的版本
import pandas as pd
pd.show_versions()
c.导入第三方包,利用包的内置方法__version__
查看
import numpy as np
np.__version__