Python爬虫 l 中国农药信息网的农药登记数据

news2024/9/28 21:24:51

一、爬取目标

图1

二、完整源码

#""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""
#
# Copyright (c) 2024 愤怒的it男, All Rights Reserved.
# FileName : code.py
# Date     : 2024.01.14
# Author   : 愤怒的it男
# Version  : 1.0.0
# Node     : 欢迎关注微信公众号【愤怒的it男】
#
#""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""

import csv
import requests
from lxml import etree
from prettytable import PrettyTable
    
def getData(baseUrl, data, headers): 
    response = requests.post(url=baseUrl, data=data, headers=headers)
    html = etree.HTML(response.text)
    trs = html.xpath("//table[@id='tab']/tr")
    data = []
    for index,tr in enumerate(trs):
        text = tr.xpath("td//text()")
        if index !=0:
            text = [text[1].strip(),text[3],text[4],text[5],text[6],text[7],text[9].strip()]
            data.append(text)
    return data
    
def printData(result):
    table = PrettyTable()
    table.field_names = ["登记证号", "农药名称", "农药类别", "剂型", "总含量", "有效期至", "登记证持有人"]
    table.add_rows(result)
    print(table)

def saveData(result):
    with open('农药登记数据.csv', 'w', encoding='utf-8', newline='') as file:
        writer = csv.writer(file)
        writer.writerows(result)

def main():
    baseUrl = 'https://www.icama.cn/BasicdataSystem/pesticideRegistration/queryselect.do'
    headers = {'Content-Type':'application/x-www-form-urlencoded',
               'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    data = "pageNo=1&pageSize=50000&djzh=&nymc=&cjmc=&sf=&nylb=&zhl=&jx=&zwmc=&fzdx=&syff=&dx=&yxcf=&yxcf_en=&yxcfhl=&yxcf2=&yxcf2_en=&yxcf2hl=&yxcf3=&yxcf3_en=&yxcf3hl=&yxqs_start=&yxqs_end=&yxjz_start=&yxjz_end=&accOrfuzzy=2"
    result = getData(baseUrl, data, headers)
    printData(result)
    saveData(result)
    
if __name__== "__main__" :
    main()

三、源码简析

1、请求头headers以及请求载荷data

在Chrome浏览器开发者工具中抓包分析,可以知道本实例的请求属于POST请求,请求头的Content-Type为application/x-www-form-urlencoded,还有名称/值对的请求载荷数据,所以请求头headers以及请求载荷data设置如下:

baseUrl = 'https://www.icama.cn/BasicdataSystem/pesticideRegistration/queryselect.do'
headers = {'Content-Type':'application/x-www-form-urlencoded',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
data = "pageNo=1&pageSize=50000&djzh=&nymc=&cjmc=&sf=&nylb=&zhl=&jx=&zwmc=&fzdx=&syff=&dx=&yxcf=&yxcf_en=&yxcfhl=&yxcf2=&yxcf2_en=&yxcf2hl=&yxcf3=&yxcf3_en=&yxcf3hl=&yxqs_start=&yxqs_end=&yxjz_start=&yxjz_end=&accOrfuzzy=2"

图2

图3

  • 请求头中的Content-Type,就是B端发给S端的数据类型描述,即告诉服务器端,我给你传的数据是某种类型的,然后服务器端针对不同类型的数据做出不同的反应。常见的Content-Type类型:
application/x-www-form-urlencoded:载荷被URL编码为名称/值对的数据。
multipart/form-data:载荷被编码为二进制类型的数据(一般用来上传文件)。
application/json:载荷被编码为json格式的数据。
text/xml:载荷被编码为XML格式的数据。
  • 通过requests.get()进行GET请求时不存在请求实体部分,浏览器把载荷参数转换成一个字串a=1&b=2,然后把这个字串用?追加到URL尾部,因此请求头不需要设置Content-Type字段。

  • 通过requests.post()进行POST请求时,传入报文的参数有两个,一个是data,一个是json。用data参数提交数据时,request.body的内容则为a=1&b=2这种形式,用json参数提交数据时,request.body的内容则为{"a": 1, "b": 2}这种形式。

2、'utf-8’编码格式打开文件

在使用open函数时,如果不指定文件编码格式,默认使用系统的编码格式。由于本人系统的编码格式为gbk,所以出现了以下错误:

UnicodeEncodeError: 'gbk' codec can't encode character '\u2022' in position 12: illegal multibyte sequence

即’gbk’编码格式不能编码字符’\u2022’,所以需要指定文件编码格式,可以使用’utf-8’编码格式来打开文件。

def saveData(result):
    with open('农药登记数据.csv', 'w', encoding='utf-8', newline='') as file:
        writer = csv.writer(file)
        writer.writerows(result)

四、爬取结果

+------------+--------------------------------+-----------------------+--------------------------+--------------------------------------------------------+------------+--------------------------------------------+
|  登记证号  |            农药名称            |        农药类别       |           剂型           |                         总含量                         |  有效期至  |                登记证持有人                |
+------------+--------------------------------+-----------------------+--------------------------+--------------------------------------------------------+------------+--------------------------------------------+
| PD20095400 |             咯菌腈             |         杀菌剂        |        可湿性粉剂        |                          50%                           | 2029-4-26  |         瑞士先正达作物保护有限公司         |
| PD20141067 |          氰烯·己唑醇           |         杀菌剂        |          悬浮剂          |                          20%                           | 2029-4-24  |        陕西上格之路生物科学有限公司        |
| PD20141065 |          噻嗪·毒死蜱           |         杀虫剂        |        可湿性粉剂        |                          30%                           | 2029-4-24  |        陕西上格之路生物科学有限公司        |
| PD20141049 |             吡蚜酮             |         杀虫剂        |        水分散粒剂        |                          70%                           | 2029-4-23  |        福建新农大正生物工程有限公司        |
| PD20095204 |             乙烯利             |     植物生长调节剂    |           水剂           |                          40%                           | 2029-4-23  |            侨昌现代农业有限公司            |
| PD20095203 |             烯唑醇             |         杀菌剂        |           原药           |                          95%                           | 2029-4-23  |        江苏七洲绿色化工股份有限公司        |
| PD20095180 |          苯·吡·甲草胺          |         除草剂        |         泡腾粒剂         |                          31%                           | 2029-4-23  |            丹东明珠科技有限公司            |
| PD20095175 |          藤酮·辛硫磷           |         杀虫剂        |           乳油           |                          18%                           | 2029-4-23  |      广西施乐农化科技开发有限责任公司      |
| PD20095172 |             溴敌隆             |         杀鼠剂        |           母液           |                          0.5%                          | 2029-4-23  |     辽宁省沈阳爱威科技发展股份有限公司     |
| PD20095167 |             辛硫磷             |         杀虫剂        |           乳油           |                          40%                           | 2029-4-23  |        福建新农大正生物工程有限公司        |
| PD20095163 |             烯唑醇             |         杀菌剂        |        可湿性粉剂        |                         12.5%                          | 2029-4-23  |        江苏七洲绿色化工股份有限公司        |
| PD20095155 |            复硝酚钠            |     植物生长调节剂    |           水剂           |                          1.4%                          | 2029-4-23  |            德州祥龙生化有限公司            |
| PD20095146 |          五氯·福美双           |         杀菌剂        |           粉剂           |                          40%                           | 2029-4-23  |       禾美思(山东)植物保护有限公司       |
| PD20095129 |             吡虫啉             |         杀虫剂        |        可湿性粉剂        |                          10%                           | 2029-4-23  |          江苏快达农化股份有限公司          |
| PD20095126 |            三十烷醇            |     植物生长调节剂    |         可溶液剂         |                          0.1%                          | 2029-4-23  |          浙江大鹏药业股份有限公司          |
| PD20095125 |             莠去津             |         除草剂        |        可湿性粉剂        |                          48%                           | 2029-4-23  |         河南贝力沃生物科技有限公司         |
| PD20095115 |     三氯吡氧乙酸丁氧基乙酯     |         除草剂        |           乳油           |                        480/| 2029-4-23  |          四川利尔作物科学有限公司          |
| PD20095108 |         高效氟吡甲禾灵         |         除草剂        |           原药           |                          96%                           | 2029-4-23  |              首建科技有限公司              |
| PD20095095 |          吡虫·杀虫单           |         杀虫剂        |        可湿性粉剂        |                          35%                           | 2029-4-23  |          河南常见生物科技有限公司          |
| PD20141042 |          磺草·莠去津           |         除草剂        |          悬浮剂          |                          40%                           | 2029-4-22  |            吉林金秋农药有限公司            |
| PD20095083 |           异丙甲草胺           |         除草剂        |           乳油           |                        720/| 2029-4-21  |         河南金田地农化有限责任公司         |

图4

图5

五、免责声明

本公众号所有源码均为个人学习所编写,仅可用于计算机技术学习及研究等合法行为,禁止利用本公众号的源码从事任何违反本国(地区)法律法规的业务,如有发现存在违法违规行为我会举报到网监部门。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1410536.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Docker网络及资源控制

目录 1.Docker网络 Docker网络实现原理 Docker的网络模式 host模式 container模式 none模式 bridge模式 自定义网络 2.资源控制 CPU资源控制 设置CPU使用率上限 设置CPU资源占用比 设置容器绑定指定的CPU 对内存使用的限制 对磁盘IO配额控制(blkio&a…

泰迪科技最新大数据法律监督模型解决方案

大数据法律监督平台是基于监督数据整合管理平台、监督模型构建平台、内置模型库以及法律监督线索管理平台打造的一套服务于检察机关法律监督工作的专业化系统。通过数据采集、融合、挖掘、建模、展现等一系列能力,辅助检察官从纷繁复杂的数据中,开展多维…

手拉手JavaFX UI控件与springboot3+FX桌面开发

目录 javaFx文本 javaFX颜色 字体 Label标签 Button按钮 //按钮单击事件 鼠标、键盘事件 //(鼠标)双击事件 //键盘事件 单选按钮RadioButton 快捷键、键盘事件 CheckBox复选框 ChoiceBox选择框 Text文本 TextField(输入框)、TextArea文本域 //过滤 (传入一个参数&a…

【嵌入式学习】C++QT-Day1-C++基础

思维导图&&笔记 见我的博客&#xff1a;https://lingjun.life/wiki/EmbeddedNote/19Cpp 作业&#xff1a; 提示并输入一个字符串&#xff0c;统计该字符中大写、小写字母个数、数字个数、空格个数以及其他字符个数 要求使用C风格字符串完成 #include <iostream&…

【K8S】Service使用NodePort对外暴露应用

一、背景介绍 Pod是有生命周期的&#xff0c;当一个工作节点(node)销毁时&#xff0c;节点上运行的pods也会被销毁。ReplicationController会动态地在其他节点上创建Pod来保持应用程序的运行&#xff0c;每一个Pod都有一个独立的IP地址&#xff0c;甚至是同一个节点上的Pod。可…

软件安装SQLyog

SQLyog 安装配置使用 首先下载SQLyog 软件&#xff0c;并解压 选择自己操作系统的版本 双击点击 .exe 文件&#xff0c;进行安装 选择安装语言&#xff0c;默认中文&#xff0c;直接点击【OK】即可 点击【下一步】 先【勾选】同意协议&#xff0c;再点击【下一步】 …

男主角展现炸裂演技,演绎方式独具匠心,令人叹为观止

♥ 为方便您进行讨论和分享&#xff0c;同时也为能带给您不一样的参与感。请您在阅读本文之前&#xff0c;点击一下“关注”&#xff0c;非常感谢您的支持&#xff01; 文 |猴哥聊娱乐 编 辑|徐 婷 校 对|侯欢庭 在漫长的等待之后&#xff0c;《要久久爱》这部都市情感剧终…

图中点的层次——树与图的广度优先遍历

问题描述 代码实现 #include <cstring> #include <iostream> #include <algorithm>using namespace std;const int N 1e5 10;int n, m; int h[N], ne[N * 2], e[N * 2], idx; int d[N]; // 从节点1到当前节点的距离 int q[N * 2]; // 数组模拟队列void ad…

西安石油大学C++上机实验汇总

考试题难度就像第三章第五章课后题的难度 基础知识一定要掌握&#xff01;&#xff01;&#xff01; 上机一&#xff1a;类与对象程序设计&#xff08;2 学时&#xff09; 上机目的 掌握声明类的方法。掌握类和类的成员的概念以及定义对象的方法。掌握构造函数和析构函数的…

Salesforce Lightning 的 Close Case 按钮无法批量关闭 Case 的原因和解决方法

为 Lightning 页面添加了自定义的 Close Case 按钮&#xff08;方法可参考&#xff1a;https://www.simplysfdc.com/2021/01/salesforce-mass-close-case.html&#xff09;后&#xff0c;可能会出现无法批量关闭 Case 的情况。 选中多个 Case&#xff0c;再点击 Close Case 按…

微信小程序开发position等于static、relative、absolute、fixed、stricky时元素显示详细介绍

No Position 不设置position时显示,以红色元素做测试: Static 元素根据界面正常流进行定位。top、right、bottom、left 和 z-index 属性不起作用。这是默认值。 红色元素设置position: static,显示如下: Relative 元素根据界面正常流进行定位。以元素当前位置为基准,根…

C语言和C++中不定参数解析

你所看到的惊艳&#xff0c;都曾被平庸历练 文章目录 简介C语言不定参数不定参宏函数 C不定参数方法一&#xff1a;递归展开方式二&#xff1a;折叠表达式方法三&#xff1a;逗号表达式 总结 简介 相信学过c/c的佬们都知道&#xff0c;如果一个函数将自己的参数确定好后&#…

泛微智能公文,为党政机关配备一位7*24小时公文助手,办文更高效

政务数字化智能水平明显提升是数字中国建设目标之一&#xff0c;平台化、智能化已成为政务协同办公的未来发展趋势&#xff0c;政府机关持续加强新技术全流程应用。 公文办理作为党政机关单位日常工作任务中重要的一环&#xff0c;泛微在全程数字化的公文管理体系中融入智能化技…

【GAMES101】Lecture 09 纹理贴图 点查询与范围查询 Mipmap

目录 纹理贴图 纹理放大-双线性插值 点采样纹理所带来的问题 Mipmap 各向异性过滤 纹理贴图 我们在之前的着色里面说过如何给物体上纹理&#xff0c;就是对于已经光栅化的屏幕点&#xff0c;就是每个像素的中心&#xff0c;去寻找对应纹理的映射位置的纹理颜色&#xff0…

SWMM模型INP解析

.INP文件解析 [OPTIONS]&#xff1a;SWMM软件运行前需要设置的参数 [RAINGAGES]雨水节点&#xff0c;核心设置雨水时间序列&#xff0c;可为INP内部数据也可为外部txt数据&#xff0c;TIMESERIES对应【TIMESERIES】模块&#xff0c;TS_1为时间序列名称 [TIMESERIES]&#xff0…

ELK之Grafana添加钉钉告警信息

Grafana版本如下&#xff1a; [roottest data]# grafana-server -v Version 8.4.6 (commit: c53173ff6, branch: HEAD)一、新建钉钉群&#xff0c;并自定义一个机器人 点击右上角设置 ------》 智能群助手 ------》 添加机器人 ------》右侧设置按钮 ------》点击自定义&…

记一次SPI机制导致的BUG定位【不支持:http://javax.xml.XMLConstants/property/accessExternalDTD】

1、前因 今天在生产环境启用了某个功能&#xff0c;结果发现有个文件上传华为云OBS失败了&#xff0c;报错如下&#xff1a; Caused by: java.lang.IllegalArgumentException: 不支持&#xff1a;http://javax.xml.XMLConstants/property/accessExternalDTDat org.apache.xal…

ctfshow信息收集(web1-web20)

目录 web1 web2 web3 web4 web5 web6 web7 web9 web10 web11 web14 web15 web16 web17 web18 web19 web20 web1 根据提示的孩子开发的时候注释没有被及时删除 web2 js原因无法查看源代码 第一种方法 在url前加入 view-source&#xff1a; 会显示页面源代…

获取双异步返回值时,如何保证主线程不阻塞?

目录 一、前情提要二、JDK8的CompletableFuture1、ForkJoinPool2、从ForkJoinPool和ThreadPoolExecutor探索CompletableFuture和Future的区别 三、通过CompletableFuture优化 “通过Future获取异步返回值”1、通过Future获取异步返回值关键代码&#xff08;1&#xff09;将异步…

springboot-mybatis项目

一、后端开发环境搭建 1、File->New->Projet 2选择 Spring Initializr &#xff0c;然后选择默认的 url 点击next 3勾选Spring Web、SQL模板&#xff0c;next 4点击finish&#xff0c;搭建完成 二 数据库 1 新建数据库 2 执行sql建表 SET NAMES utf8mb4; SET FOREIGN…