Python基础知识：Python数据行列处理

news2026/2/12 14:45:45

我们在应用Python开展机器学习或统计分析时，经常需要对数据行列进行处理，下面介绍几种常用的Python数据行列处理操作。

我们结合数据2.2文件，以示例的方式讲解删除变量列、样本行的操作。输入以下代码并逐行运行：

data=pd.read_csv('C:/Users/Administrator/.spyder-py3/数据2.2.csv') #读取数据2.2.csv文件

data.drop('pb',axis=1,inplace=True) # 删除'pb'变量列，其中axis=1表示列，不创建新的对象，直接对原始对象进行修改

可在变量管理器界面找到data数据文件并打开来查看，如图2.17所示。

可以发现'pb'变量列被删除了。

data.drop(labels=[0,3,5], axis=0) # 删除编号为0、3、5的样本，axis=0表示行。

运行结果为：

可以发现编号为0、3、5的样本已经删除了。

很多朋友反映学Python、学机器学习比较难、效果不好，我的观点是：需要拿到Python、机器学习的源代码边学习边操作，从解决问题、上手操作中获得成就感，才会越学越深入，学习效果才会好。

针对数据分析或机器学习推荐两本入门级的图书：《Python机器学习原理与算法实现》（杨维忠张甜著 2023年2月新书清华大学出版社）《Python数据科学应用从入门到精通》（张甜杨维忠著 2023年11月新书清华大学出版社）。这两本书的特色是在数据分析、机器学习各种算法的介绍方面通俗易懂，较少涉及数学推导，对数学基础要求相对不高，在python代码方面讲的很细致，看了以后根据自身需要选取算法、优化代码、科学调参。

《Python机器学习原理与算法实现》（杨维忠张甜著 2023年2月新书清华大学出版社）内容非常详实，包含了Python和机器学习，相当于一次获得了两本书。在讲解各类机器学习算法时，逐一详解用到的各种Python代码，针对每行代码均有恰当注释（这一点基本上是大多数书目做不到的）。《Python机器学习原理与算法实现》一书创作完成后，在正式出版之前，已经开发成一套系统课程，分9次授课，在某银行内部开展了培训，490人根据行内组织统一学习，授课完成后放在知鸟平台供回放学习，9次课程累计回放量近3万次，得到参训学员的一致好评，广泛应用于各位学员的工作实践。（所以，这是一本避雷避坑、已经被亲测可行的网红书，只要用心学，都没问题哦）。

《Python机器学习原理与算法实现》（杨维忠张甜著 2023年2月新书清华大学出版社）

《Python数据科学应用从入门到精通》一书，旨在教会读者实现全流程的数据分析，并且相对《Python机器学习原理与算法实现》一书增加了很多概念性、科普性的内容，进一步降低了学习难度。国务院发展研究中心创新发展研究部第二研究室主任杨超，山东大学经济学院金融系党支部书记、副主任、副教授、硕士生导师张博，山东管理学院信息工程学院院长袁锋教授、硕士生导师，山东大学经济学院刘一鸣副研究员、硕士生导师，得厚投资合伙人张伟民等一众大牛联袂推荐。全书内容共分13章。其中第1章为数据科学应用概述，第2章讲解Python的入门基础知识，第3章讲解数据清洗。第4~6章介绍特征工程，包括特征选择、特征处理、特征提取。第7章介绍数据可视化。第8~13章介绍6种数据挖掘与建模方法，分别为线性回归、Logistic回归、决策树、随机森林、神经网络、RFM分析。从数据科学应用和Python的入门，再到数据清洗与特征工程，最终完成数据挖掘与建模或数据可视化，从而可以为读者提供“从拿到数据开始，一直到构建形成最终模型或可视化报告成果”的一站式、全流程指导。买这一本书相当于一下子得到了5本书（Python基础、数据清洗、特征工程、数据可视化、数据挖掘与建模），入门超级简单，不需要编程基础，也不需要过多数学推导，非常适用于零基础学生。

两本书随书赠送的学习资料也很多，包括全部的源代码、PPT、思维导图，还有10小时以上的讲解视频，每一章后面还有练习题及参考答案，还有学习群，相对于只看网络上的视频，一方面更加系统、高效，另一方面照着书一步步操作学起来也事半功倍。全网热销中，当当、京东等平台搜索“Python机器学习杨维忠”“Python数据科学杨维忠”即可。