从2024年1月17日到2024年8月20日,终于将密歇根大学的python for everyone的python公开课跟完。站在一月份规划的时刻来看,比我想象中花费的时间更多,我当时肯定没有想到要花上整整七个月的时间才能将这个公开课的内容看完,毕竟这个公开课时python的基础课程,而python在各类编程语言中的难度并不大,其作为解释性语言,语义相对容易理解。
而站在今天的角度来看,将这门课按照年初计划完整的、扎实的学习,真是令人欣慰与感慨。很不容易,在上班之后,其实个人时间并不是那么的充裕,我欣慰于自己有勇气、有毅力能够始终坚持自己的原则。
说回这门课,最主要的特点是包含着大量的上机实践,它可以帮助我们有效的检验对学习内容的理解程度。也正因为如此,它相当的平衡了输入和输出两方面,在完成上机实验的过程中,需要花费大量的时间,这也是为什么我最终用了七个月才完成此公开课的学习。值得一提的是,每一个领域的学习都最好能够按照这门课的模式,找到好的输出途径,之后要优先选择能够有输出反馈的课程,如果没有,则应该思考如何构建。
基本课程内容
在学习这门公开课之前,我有过将近两年的python使用经历,不过仅限于给自己的论文画图,从开源渠道获得的主框架代码,个人日常就是修改一下参数,调整图形的大小、颜色、样式等。在当时的需求下,我不需要对python有更多的了解,以至于我甚至不掌握python的基本数据结构,每次都要依靠百度来解决一些基本问题。这种现学现用的模式可以应急解决一些迫切的问题,却没办法写出鲁棒、整洁、优雅的框架去解决复杂的问题。因此我选择跟一门公开课去学习python的基础知识。
这次通过对公开课完整的学习,较为全面的掌握了python的基础内容。
基本数据结构
基本数据类型:int、String等,和python特有的数据类型:列表list、字典dict、集合set、元组tuple。
String类型。由于python会涉及到各种数据的处理,因此string的使用非常重要。之前不了解但现在掌握的几种string 的方法,比如strip用于取出字符后的空格,split用于字符的分割,startswith和endswith用于判断字符的起始或结束。除此以外,string类型还有许多其他方法,非常有用。这里也侧面印证了python非常适合用于处理数据。
List列表,列表数据结构就像是排列好的储物柜,可以放各种数据,甚至是另一个列表。要检索数据就必须遍历查找所有的储物柜去比较。可以使用自编号的数字去获得相应位置的数据。
Dict字典,像是标记好姓名的储物柜,用户可以直接通过key去锁定所需要使用的储物柜,如果直接用D[key]去检索,不存在key的情况下会报错,因此也可以采用get方法。Tuple元组则是不可变更长度的储物柜,它适用于数据不变的场景,空间利用率高,速度也快。Set集合则是去除相同元素的数据结构,用于不需要重复项的场景。
正则表达式
用于文本字符的匹配和搜索。正则表达式是一个较为复杂的领域。需要用额外的篇幅去写。
循环
分为有限次循环for和无限次循环while。
Try-except框架
在编程的过程中,不可避免的出现各种bug。解决bug需要快速的定位错误的位置,因此可以采用try-except框架。这个框架可以方便的捕捉和定位运行的错误,提高程序的鲁棒性。如果加入continue,还可以形成捕捉报错、跳过错误的框架。
Try-except-finally,可以在finally加上必须要执行的语句。
Function函数
将一些常用的计算、处理封装成特定的函数,可以提高代码的简洁和可读。
使用方法是def funciton_name_xx(args)
文件读取
这算是一个基本的功能。
使用open打开,每一行作为一个string来处理。
常用的打开为:With open(filename,’r’) as f
典型的python应用
目的是为了将之前介绍的python基本功能给串联起来,形成一个小的面向日常需求的项目。
网络连接
网络连接模型可分为几个模块:创建socket,建立连接,请求,解析数据。
网络链接可以用socket库,urllib库
Socket库。Socket库的使用模型为:创建socket,建立连接,发送请求,接收返回数据,解析数据。
Urllib库。可以直接用在打开一个网页,urllib.request.open(‘www.url.com’)
数据解析。对于不同类型的返回数据,需要用不同的库进行解析,举例来说,html格式可用beautifulsoup解析;Xml可用xml.etree.ElementTree解析;json可用json.loads解析。
面向对象编程
将对象作为一个类来定义,包含属性和方法。通过类的方式,可以显著的减少代码的数量,提高可读性,降低修改维护成本。
定义一个类,类中包含数据结构,和各种方法。这能够将数据和方法都封装到特定的类中。
可以使用类封装的方法实现数据的跨模块使用,这比通过参数传入和传出要简洁。
Class MyClassName
数据库操作
关系型数据库就是行列二维数组,列为对象的属性,行为对象。这种存储数据结构有时会比较稀疏,空间利用率不高,但是其结构明确、检索性能高。
本节介绍python与数据库之间的交互,以sqlite数据库为例。Python的数据库连接功能分为几个模块:
Connect连接,建立游标cursor,执行excute,查询数据fetchall。
简单介绍了sql结构化数据库中的关联表应该如何设计。表的主键primary key,具有唯一性,外键foreign key用于和其他表的关联。一个表的外键,是另一个表的主键。
表和表之间的关系有多对一,多对多。多对一的两个表关系较为容易处理,直接用一表的主键,作为多表的外键。多对多关系较为复杂,可以构造一个额外的表,用于存储两个表的主键对主键关系。
数据可视化
这里介绍了几个项目,算是把之前的介绍的内容都串联起来。简单来说,涉及到了(1)spider去网络上爬取数据,(2)文本处理程序处理字符串,做数据过滤,(3)用数据库存储数据,(4)算法类处理数据,(5)数据输出为js可显示的格式,(6)js显示网页。
结尾
Dr.Chunk友人在最后结尾给的几个生活建议,还挺有意思。4P,Passion-purpose-persistence-playfulness,激情、目标、坚持、有趣。前三个比较常见,在很多的书籍中可以见到,最后一个有趣就很好玩。在东方人生哲学里,讲究的是路漫漫其修远兮,吾将上下而求索,过程是苦行僧式的磨练,或者朝闻道夕可死也,关注最后结果的美妙。过程中的快乐,不仅很少为我们所关注、所推崇,而且往往是被批判、被打压的对象。