前言
今天给大家介绍的是Python爬取Top100电影榜单数据保存csv文件,在这里给需要的小伙伴们代码,并且给出一点小心得。
首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本数据爬取的人会很多,所以我们需要考虑更换代理IP和随机更换请求头的方式来对Top100电影榜单数据进行爬取。
在每次进行爬虫代码的编写之前,我们的第一步也是最重要的一步就是分析我们的网页。
通过分析我们发现在爬取过程中速度比较慢,所以我们还可以通过禁用谷歌浏览器图片、JavaScript等方式提升爬虫爬取速度。
在这里插入图片描述![电影top![](https://img-blog.csdnimg.cn/710df550f5fb4156bd711f82cf122245.png)
开发工具
Python版本: 3.6
相关模块:
requests模块
time模块
parsel模块
csv模块
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
文中完整代码及文件,评论留言获取
思路分析
浏览器中打开我们要爬取的页面
按F12进入开发者工具,查看我们想要的Top100电影榜单数据在哪里
这里我们需要页面数据就可以了
代码实现
for page in range(0, 101, 10):
time.sleep(2)
url = 'https://maoyan.com/board/4?offset={}'.format(page)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36',
'Cookie': '__mta=20345351.1670903159717.1670903413872.1670903436333.5; uuid_n_v=v1; uuid=A8065B807A9811ED82C293D7E110319C9B09821067E1411AB6F4EC82889E1869; _csrf=916b8446658bd722f56f2c092eaae35ea3cd3689ef950542e202b39ddfe7c91e; Hm_lvt_703e94591e87be68cc8da0da7cbd0be2=1670903160; _lxsdk_cuid=1850996db5dc8-07670e36da28-26021151-1fa400-1850996db5d67; _lxsdk=A8065B807A9811ED82C293D7E110319C9B09821067E1411AB6F4EC82889E1869; __mta=213622443.1670903327420.1670903417327.1670903424017.4; Hm_lpvt_703e94591e87be68cc8da0da7cbd0be2=1670903436; _lxsdk_s=1850996db5e-8b2-284-88a%7C%7C18',
'Host': 'www.maoyan.com',
'Referer': 'https://www.maoyan.com/films/1200486'
}
response = requests.get(url, headers=headers)
selector = parsel.Selector(response.text)
li_s = selector.css('.board-wrapper dd')
for li in li_s:
name = li.css('.name a::text').get()
star = li.css('.star::text').get()
star_string = star.strip()
releasetime = li.css('.releasetime::text').get()
data_time = releasetime.strip()
follow = li.css('.score i::text').getall()
score = ''.join(follow)
dit = {
'电影名字': name,
'主演': star_string,
'上映时间': data_time,
'评分': score,
}
csv_write.writerow(dit)
print(dit)
Cookie获取
效果展示
最后
为了感谢读者们,我想把我最近收藏的一些编程干货分享给大家,回馈每一个读者,希望能帮到你们。
里面有适合小白新手的实战教程给到大家~
快来和小鱼一起成长进步吧!
① 100+多本Python PDF(主流和经典的书籍应该都有了)
② Python标准库(最全中文版)
③ 爬虫项目源码(四五十个有趣且经典的练手项目及源码)
④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)
⑤ Python学习路线图(告别不入流的学习)