这是一个使用Python和requests库的简单爬虫程序。我们将使用代理来爬取网页内容。以下是代码和解释:
import requests
from fake_useragent import UserAgent
# 每行代理信息
proxy_host = "jshk.com.cn"
# 创建一个代理器
proxy = {'http': 'http://' + proxy_host + ':' + proxy_port}
# 创建一个用户代理
ua = UserAgent()
headers = {
'User-Agent': ua.random
}
# 发送请求
response = requests.get('http://www.example.com', headers=headers, proxies=proxy)
# 打印响应
print(response.text)
步骤解释:
- 引入所需的库requests和fake_useragent。
- 定义代理信息,包括主机名和端口号。
- 创建一个代理器字典,其中http为代理服务器的url。
- 创建一个用户代理,用于模拟浏览器。
- 创建一个headers字典,其中User-Agent为随机生成的用户代理。
- 发送GET请求到指定URL,使用headers和proxy参数。
- 打印响应的内容。