参考笔记
下面给出一个巨佬学习风变pyhton基础语法和爬虫精进的笔记(链接)
风变编程笔记(一)-Python基础语法
风变编程笔记(二)-Python爬虫精进
技术总结
request + BeautifulSoup
selenium + BeautifulSoup
练习0-1:文章下载
import requests
res=requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/exercise/HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md')
files=res.text
print(files)
myfiles=open('myfiles.txt','w+')
myfiles.write(files)
myfiles.close()
练习0-2:图像下载
import requests
res=requests.get('https://res.pandateacher.com/2019-01-12-15-29-33.png')
pic = res.content
photo = open('ppt1.jpg','wb')
#新建了一个文件ppt.jpg,这里的文件没加路径,它会被保存在程序运行的当前目录下。
#图片内容需要以二进制wb读写。你在学习open()函数时接触过它。
photo.write(pic)
#获取pic的二进制内容
photo.close()
练习0-3:音频下载
import requests
rec=requests.get('https://static.pandateacher.com/Over%20The%20Rainbow.mp3')
req=rec.content
mymusic=open('mymusic1.mp3','wb')
mymusic.write(req)
mymusic.close()
练习1-1:我的书苑我做主
必做:
修改网页标题
增加至少一本书的描述
修改网页底部
选做:
修改已有书籍的描述
增加多本书的描述
自由地在HTML文档上修改任意内容
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>这个书苑不太冷5.0</title>
<style>
a {
text-decoration: none;
}
body {
margin: 0;
width:100%;
height: 100%;
}
#header {
background-color:#0c1f27;
color:#20b2aa;
text-align:center;
padding:15px;
}
#nav {
line-height:60px;
background-color:#e0f2f0;
width:80px;
padding:30px;
position: absolute;
left: 0;
top:0;
bottom: 0;
}
#footer {
background-color:#0c1f27;
color:#20b2aa;
clear:both;
text-align:center;
padding:35px;
}
#main {
margin-left: 140px;
padding-left: 150px;
padding-right: 220px;
overflow: scroll;
}
#article {
display: flex;
position: relative;
}
.catlog{
font-size:20px;
color:black;
font-family: sans-serif;
}
.title {
color:#20b2aa;
font-size:20px;
}
.img {
width: 185px;
height: 266px;
}
</style>
</head>
<body>
<div id="header">
<h1 style="font-size:50px;">这个书苑不太冷</h1>
</div>
<div id="article">
<div id="nav">
<a href="#type1" class="catlog">科幻小说</a><br>
<a href="#type2" class="catlog">人文读物</a><br>
<a href="#type3" class="catlog">技术参考</a><br>
</div>
<div id="main">
<div class="books">
<h2><a name="type1">科幻小说</a></h2>
<a href="https://book.douban.com/subject/27077140/" class="title">《奇点遗民》</a>
<p class="info">本书精选收录了刘宇昆的科幻佳作共22篇。《奇点遗民》融入了科幻艺术吸引人的几大元素:数字化生命、影像化记忆、人工智能、外星访客……刘宇昆的独特之处在于,他写的不是科幻探险或英雄奇幻,而是数据时代里每个人的生活和情感变化。透过这本书,我们看到的不仅是未来还有当下。</p>
<img class="img" src="https://img3.doubanio.com/view/subject/l/public/s29492583.jpg">
<br/>
<br/>
<hr size="1">
</div>
<div class="books">
<h2><a name="type2">人文读物</a></h2>
<a href="https://book.douban.com/subject/26943161/" class="title">《未来简史》</a>
<p class="info">未来,人类将面临着三大问题:生物本身就是算法,生命是不断处理数据的过程;意识与智能的分离;拥有大数据积累的外部环境将比我们自己更了解自己。如何看待这三大问题,以及如何采取应对措施,将直接影响着人类未来的发展。</p>
<img class="img" src="https://img3.doubanio.com/view/subject/l/public/s29287103.jpg">
<br/>
<br/>
<hr size="1">
</div>
<div class="books">
<h2><a name="type3">技术参考</a></h2>
<a href="https://book.douban.com/subject/25779298/" class="title">《利用Python进行数据分析》</a>
<p class="info">本书含有大量的实践案例,你将学会如何利用各种Python库(包括NumPy、pandas、matplotlib以及IPython等)高效地解决各式各样的数据分析问题。由于作者Wes McKinney是pandas库的主要作者,所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。</p>
<img class="img" src="ttps://img3.doubanio.com/view/subject/l/public/s27275372.jpg">
<br/>
<br/>
<hr size="1">
</div>
</div>
</div>
<div id="footer">Copyright © ForChange 风变科技
</div>
</body>
</html>
第2关:这个书苑不太冷(静态网页)
目标网址:https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html
即爬取这个书苑不太冷网站中每本书的类型、名字、链接和简介的文字
# 调用requests库
import requests
# 调用BeautifulSoup库
from bs4 import BeautifulSoup
# 返回一个response对象,赋值给res
res =requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html')
# 把res解析为字符串
html=res.text
# 把网页解析为BeautifulSoup对象
soup = BeautifulSoup( html,'html.parser')
# 通过匹配属性class='books'提取出我们想要的元素
items = soup.find_all(class_='books')
# 遍历列表items
for item in items:
# 在列表中的每个元素里,匹配标签<h2>提取出数据
kind = item.find('h2')
# 在列表中的每个元素里,匹配属性class_='title'提取出数据
title = item.find(class_='title')
# 在列表中的每个元素里,匹配属性class_='info'提取出数据
brief = item.find(class_='info')
# 打印书籍的类型、名字、链接和简介的文字
print(kind.text,'\n',title.text,'\n',title['href'],'\n',brief.text)
练习2-1:博客爬虫
目标网址:https://wordpress-edu-3autumn.localprod.oc.forchange.cn/all-about-the-future_04/
import requests
from bs4 import BeautifulSoup
res=requests.get('https://wordpress-edu-3autumn.localprod.oc.forchange.cn/all-about-the-future_04/')
html=res.text
soup=BeautifulSoup(html,'html.parser')
Aitems=soup.find(class_='comment-list')#用find找出大的地址
items=Aitems.find_all('article')#在大的地址中用find_all来找出小地址的列表
for item in items:
user1=item.find('b') # user1=item.find(class_='fn')
comment1=item.find(class_='comment-content')
print('评论者',user1.text,'\n','评论',comment1.text)
练习2-2:书店寻宝
目标网址:http://books.toscrape.com/
import requests
from bs4 import BeautifulSoup
res=requests.get('http://books.toscrape.com/')
html=res.text
soup=BeautifulSoup(html,'html.parser')
items=soup.find('ul',class_='nav nav-list').find('li').find('ul').find_all('li')
'''
for item in items:
fenlei=item.find('a')
print((fenlei.text).strip())
with open('doc3.doc','a+') as doc3:
doc3.write((fenlei.text).strip())
doc3.write('\n')
'''
item_book=soup.find('ol',class_='row').find_all('li')
#print(item_book)
for item in item_book:
item_name=item.find('article',class_='product_pod').find('h3').find('a')
item_price=item.find('article',class_='product_pod').find('div',class_='product_price').find('p',class_='price_color')
item_rate=item.find('article',class_='product_pod').find('p')
# print(item_rate['class'][1])
# print(item_name['title'],'\t')
# print(item_price.text)
# print(item_name['title'],'\t',item_price.text)
print(item_name['title'],'\t',item_price.text,'\t',item_rate['class'][1])
练习2-3:博客文章
目标网址:https://wordpress-edu-3autumn.localprod.oc.forchange.cn/
import requests
from bs4 import BeautifulSoup
res=requests.get('https://wordpress-edu-3autumn.localprod.oc.forchange.cn/')
html=res.text
soup=BeautifulSoup(html,'html.parser')
Aitems=soup.find(id='main')#用find找出大的地址
items=Aitems.find_all('article')#在大的地址中用find_all来找出小地址的列表
for item in items:
item1=item.find(class_="entry-title")
item2=item.find(class_='entry-date published')
item3=item.find('h2').find('a')['href']
print('标题',item1.text,'\n','时间',item2.text,'\n','链接',item3)
第3关:下厨房
目标网址:https://www.xiachufang.com/explore/
写一个循环,提取当前页面的所有菜名、URL、食材,并将它存入列表。其中每一组菜名、URL、食材是一个小列表,小列表组成一个大列表。
# 引用requests库
import requests
# 引用BeautifulSoup库
from bs4 import BeautifulSoup
# 获取数据
res_foods = requests.get('http://www.xiachufang.com/explore/')
# 解析数据
bs_foods = BeautifulSoup(res_foods.text,'html.parser')
# 查找最小父级标签
list_foods = bs_foods.find_all('div',class_='info pure-u')
# 创建一个空列表,用于存储信息
list_all = []
for food in list_foods:
# 提取第0个父级标签中的<a>标签
tag_a = food.find('a')
# 菜名,使用[17:-13]切掉了多余的信息
name = tag_a.text[17:-13]
# 获取URL
URL = 'http://www.xiachufang.com'+tag_a['href']
# 提取第0个父级标签中的<p>标签
tag_p = food.find('p',class_='ing ellipsis')
# 食材,使用[1:-1]切掉了多余的信息
ingredients = tag_p.text[1:-1]
# 将菜名、URL、食材,封装为列表,添加进list_all
list_all.append([name,URL,ingredients])
# 打印
print(list_all)
我的做法:顺便下载图片(大同小异)
import requests
from bs4 import BeautifulSoup
headers = {
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
# 标记了请求从什么设备,什么浏览器上发出
}
res=requests.get('https://www.xiachufang.com/explore/',headers=headers)
html=res.text
soup=BeautifulSoup(html,'html.parser')
Aitems=soup.find(class_='normal-recipe-list')#用find找出大的地址
items=Aitems.find_all('li')#在大的地址中用find_all来找出小地址的列表
item_list = []
for item in items:
item1=item.find(class_="name") .text.replace('\n\n ','').replace('\n \n\n','').replace('\n','').replace('\n','')
item2=item.find(class_='ing ellipsis').text.replace('\n','').replace('\n','').replace('\n','')
item3=item.find('a')['href']
item4=item.find('img')['data-src']
item_list.append([item1,item2,'https://www.xiachufang.com/'+item3])
print('菜名',item1,'\n','材料',item2,'\n','链接',item3,'图片链接',item4)
res=requests.get(item4)
pic = res.content
photo = open(item1+'.jpg','wb')
photo.write(pic)
photo.close()
#print(item_list)
练习3-1:豆瓣电影爬虫
目标网址:https://movie.douban.com/top250?start=25&filter=
import requests, bs4
# 为躲避反爬机制,伪装成浏览器的请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
for x in range(10):
url = 'https://movie.douban.com/top250?start=' + str(x*25) + '&filter='
res = requests.get(url, headers=headers)
bs = bs4.BeautifulSoup(res.text, 'html.parser')
bs = bs.find('ol', class_="grid_view")
for titles in bs.find_all('li'):
num = titles.find('em',class_="").text
#查找序号
title = titles.find('span', class_="title").text
#查找电影名
tes = titles.find('span',class_="inq").text
#查找推荐语
comment = titles.find('span',class_="rating_num").text
#查找评分
url_movie = titles.find('a')['href']
print(num + '.' + title + '——' + comment + '\n' + '推荐语:' + tes +'\n' + url_movie)
我的答案(差不多)
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
for i in range(0,10):
url = 'https://movie.douban.com/top250?start='+ str(i*25) +'&filter='
res=requests.get(url=url,headers=headers)
html=res.text
soup=BeautifulSoup(html,'html.parser')
Aitems=soup.find(class_='grid_view')#用find找出大的地址
items=Aitems.find_all('li')#在大的地址中用find_all来找出小地址的列表
item_list = []
for item in items:
item0=item.find('em').text
item1=item.find('span', class_="title").text
item2=item.find('a')['href']
if item.find(class_='inq'):
item3=item.find(class_='inq').text
else:
item3=''
item4=item.find(class_='rating_num').text
#item_list.append([item1,item2,item3])
print('序号',item0,'\n','电影名',item1,'\n','链接',item2,'\n','推荐语',item3,'\n','评分',item4)
练习3-1B:豆瓣电影爬虫(非风变)
目标网址:https://movie.douban.com/cinema/nowplaying/foshan/
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
for i in range(0,1):
url = 'https://movie.douban.com/cinema/nowplaying/foshan/'
res=requests.get(url=url,headers=headers)
html=res.text
soup=BeautifulSoup(html,'html.parser')
Aitems=soup.find('ul',class_='lists')#用find找出大的地址
items=Aitems.find_all('li',class_="list-item")#在大的地址中用find_all来找出小地址的列表
item_list = []
for item in items:
item0=item['data-title']
item1=item['data-region']
item2=item['data-actors']
item3=item.find('li',class_="srating").text.replace('\n','')
item4=item.find('a',class_="ticket-btn")['href']
print('\n','电影名',item0,'\n','地区',item1,'\n','演员',item2,'\n','评分',item3,'\n','详细链接',item4)
练习3-2:一键下电影(风变网址已变更)
1.步骤一
“输名字”,学过基础课的同学一定可以想到,用input()就可以啦。
2.步骤二
”搜索结果页面“ 这里面涉及到一个坑,我们要一起填上。输入不同的电影名,观察搜索结果页面的URL:
《无名之辈》的搜索结果URL:http://s.ygdy8.com/plus/s0.php?typeid=1&keyword=%CE%DE%C3%FB%D6%AE%B1%B2
《神奇动物》的搜索结果URL:http://s.ygdy8.com/plus/s0.php?typeid=1&keyword=%C9%F1%C6%E6%B6%AF%CE%EF
《狗十三》 的搜索结果URL:http://s.ygdy8.com/plus/s0.php?typeid=1&keyword=%B9%B7%CA%AE%C8%FD
观察URL,不难发现:http://s.ygdy8.com/plus/s0.php?typeid=1&keyword= 这些都是一样的,只不过不同的电影名对应URL后面加了一些我们看不懂的字符,请阅读以下代码,注意注释哦:
a= '无名之辈'
b= a.encode('gbk')
# 将汉字,用gbk格式编码,赋值给b
print(quote(b))
# quote()函数,可以帮我们把内容转为标准的url格式,作为网址的一部分打开
#%CE%DE%C3%FB%D6%AE%B1%B2
中文 - gbk - url - 拼接
3.步骤三 + 步骤四
”进入下载页面“ 与 “找到下载链接” 就是解析网页定位啦,利用find() 和 find_all(),都是你会的内容,加油呀~
练习3-2B:一键下电影(新网址–利用Selenium+BS解决)
目标网址:https://www.dygod.net/
import requests
from bs4 import BeautifulSoup
from urllib.parse import quote,unquote
from selenium import webdriver
import os
import time
#movie_name = input('请输入电影名')
movie_name = '怦然心动'
# Selenium模拟人工进入
chromedriver = r"C:/Program Files (x86)/Google/Chrome/Application/chromedriver.exe" #这里写本地的chromedriver 的所在路径
os.environ['webdriver.Chrome.driver'] = chromedriver #调用chrome浏览器
driver = webdriver.Chrome(chromedriver)
driver.maximize_window()
driver.get('https://www.dygod.net/')
time.sleep(1)
item1 = driver.find_element_by_name('keyboard')
item1.send_keys(movie_name)
time.sleep(1)
item2 = driver.find_element_by_name('Submit')
item2.click()
time.sleep(1)
print('Submit')
# 解析新网页
page_sourse = driver.page_source
#print('page_sourse',page_sourse)
soup=BeautifulSoup(page_sourse,'html.parser')
#print('soup',soup)
Aitems=soup.find('div',class_='co_content8').find_all('table')
#print('Aitems',Aitems)
for item in Aitems:
item1 = item.find('a',class_="ulink").text
item2 = item.find('a',class_="ulink")['href']
print('\n','电影名',item1,'\n','链接',item2)
第4关:寻找周杰伦(QQ音乐网页已变更,原代码失效)
目标网站:https://y.qq.com/
# 引用requests库
import requests
# 调用get方法,下载这个字典
res_music = requests.get('https://c.y.qq.com/soso/fcgi-bin/client_search_cp?ct=24&qqmusic_ver=1298&new_json=1&remoteplace=txt.yqq.song&searchid=60997426243444153&t=0&aggr=1&cr=1&catZhida=1&lossless=0&flag_qc=0&p=1&n=20&w=%E5%91%A8%E6%9D%B0%E4%BC%A6&g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8¬ice=0&platform=yqq.json&needNewCode=0')
# 使用json()方法,将response对象,转为列表/字典
json_music = res_music.json()
# 一层一层地取字典,获取歌单列表
list_music = json_music['data']['song']['list']
# list_music是一个列表,music是它里面的元素
for music in list_music:
# 以name为键,查找歌曲名
print(music['name'])
# 查找专辑名
print('所属专辑:'+music['album']['name'])
# 查找播放时长
print('播放时长:'+str(music['interval'])+'秒')
# 查找播放链接
print('播放链接:https://y.qq.com/n/yqq/song/'+music['mid']+'.html\n\n')