文章目录
- 目录搜索 os、shutil库
- 数据爬虫 request、re
- 作业:爬取案例的top250电影的关键信息(名称、类型、日期),并保存在表格中
目录搜索 os、shutil库
os 模块提供了非常丰富的方法用来处理文件和目录。
os.listdir(path):返回path指定的文件夹包含的文件或文件夹的名字的列表。
os.path 模块:获取文件的属性信息。
os.path.join(path1[, path2[, …]]):把目录和文件名合成一个路径
os.path.isdir(path) :判断路径是否为目录
os.path.isfile(path):判断路径是否为文件
shutil.move(file,target):移动文件
# 深度优先搜索文件 (目录搜索)
import os # 导入os模块
import shutil # 实现移动文件的功能需要
# path代表待搜索的目录路径,result存储搜索到的文件路径列表
def dfs(path, result):
child_files = os.listdir(path)
for child in child_files:
# 使用join拼接子目录或文件的路径
child = os.path.join(path, child)
# 将child保存到result
result.append(child)
if os.path.isdir(child):
dfs(child, result)
files = []
dfs('.', files)
# 遍历files
for file in files:
print("find %s" %file) #打印搜索到的路径
if(os.path.isfile(file) and file.endswith('.xlsx')):
# 移动当前目录下的excel文件到excel目录下
shutil.move(file, '.\excel')
移动前:
移动后:
数据爬虫 request、re
网页数据爬虫实现了互联网网页自动化下载与自动化解析。通过爬虫,可以下载和分析网页。
# 网络爬虫
# spider.py:网页下载、链接提取、数据存储
# 查看豆瓣网top250(25页,每页25条)的电影简介地址,换行存入到txt中
import requests
import re
url = "https://movie.douban.com/top250?start="
pageSize = 25
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"
}
# 正则匹配
briefUrl = "https://movie.douban.com/subject/[0-9]+/"
txt = open("douban.txt", "a", encoding="utf-8")
# 爬取10页
for page in range(0, 10):
resp = requests.get(url + str(page * pageSize), headers=headers)
resp.encoding = "utf-8"
# print(resp.text)
# 通过findall从网页中提取符合briefUrl正则规则的网址
links = re.findall(briefUrl, resp.text)
# 去重
arr = set(links)
# print(links)
for l in arr:
# print(l)
txt.write(l + "\n")
txt.close()