python爬虫练手项目之获取某地企业名录

news2026/2/14 11:59:16

因为很多网站都增加了登录验证，所以需要添加一段利用cookies跳过登陆验证码的操作

import pandas as pd
import requests
from lxml import etree
# 通过Chrome浏览器F12来获取cookies，agent，headers
cookies ={'ssxmod_itna2':'eqfx0DgQGQ0QG=DC8DXxxxxx',
	  'ssxmod_itna':'euitGKD5iIgGxxxxx'}
agent ='Mozilla/5.0 (Windows NT 10.0; Win64; x64)xxxxxxx'

headers = {
    'User-Agent' : agent,
    'Host':'www.xxx.com',
    'Referer':'https://www.xxx.com/'
}
#建立会话
session = requests.session()
session.headers = headers

cookies获取方式

chrmoe浏览器，F12，把name和value填入cookies

agent获取方式

任意点击一条网络资源，右侧headers往下翻到底

测试访问是否成功

#↓此处测试访问是否成功，成功的话返回码200
requests.utils.add_dict_to_cookiejar(session.cookies, cookies)
url = 'https://www.qixin.com/search-prov/36/3604/p1' 
response=session.get(url)
print(response)

访问成功的话进入下一步

#初始化df数据
df = pd.DataFrame(columns = ['企业名称'])

#观察翻页后网址变化规律，取10页数据
for k in range(10): 
	url = 'https://www.xxx.com/search-prov/36/3604/p' + str(k+1) + '/' 
	cookies_dict = requests.utils.add_dict_to_cookiejar(session.cookies, cookies)
	page_text = requests.get(url, headers = headers, cookies = cookies_dict).text # GET
	#print(page_text)
	tree = etree.HTML(page_text) #数据解析
	#取到企业名对应xpath
	name = [i for i in tree.xpath("//div[@class='company-title font-18 font-f6']/a/text()")]
	dic = {'企业名称':name}
	df1 = pd.DataFrame(dic)
	df = pd.concat([df,df1], axis=0)
	#print(df)
print('全部数据爬取成功')
print(df)

最后将结果导入csv文件

#将df数据写入csv文件
df.to_csv('xx企业名录.csv',index=None,encoding = 'utf-8-sig')

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1082104.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

python爬虫练手项目之获取某地企业名录

相关文章

python每日一练(5)

网页报错 Uncaught TypeError: a(...).tooltip is not a function

数学建模、统计建模、计量建模整体框架的理解以及建模的步骤

基于nodemailer实现邮件发送

197、管理 RabbitMQ 的虚拟主机

Jetson Orin NX 开发指南（5）: 安装 OpenCV 4.6.0 并配置 CUDA 以支持 GPU 加速

分布式锁3：基于redis的插件redission实现分布式锁

Java8实战-总结41

数据库基础（一）

Factory-Method

【JQuery插件】手把手教你如何白瓢一个网站的全部付费资源！前端狂喜

Harmony ArkTS语言

Databend join reorder 策略

springboot项目Html页面引入css文件不生效

【每日一题】151. 反转字符串中的单词

MySQL中使用函数会使索引失效？

leetCode 115.不同的子序列动态规划 + 滚动数组（优化）

VS2017+QT+PCL环境配置

matlab绘制尖角colorbar

黑客技术（网络安全）——自学思路