招标网站信息爬取

news2024/7/2 3:52:52

目标网站

 某采购与招标网
 代码链接code-repo

准备工作

 参考博客[1],使用谷歌浏览器的开发者工具,提取http的表单信息。
在这里插入图片描述
 http post 中的表单信息,需要含有_qt信息。网站使用_qt做反爬虫措施。_qt由服务器返回,在不同的会话中,值是变化的。如果缺少_qt的信息,post的返回状态码是403。
 在会话建立后,当客户端发送http get信息后,返回的页面中含有_qt的信息。主页另存为html,用文本编辑工具打开,可以看到_qt。

$.ajax({
			type : "POST",
			url : url,
			cache : false,
			processData : true,
			data : formData+ /*TZYz*/"&"//"/*"
				///'"'*/
			/*0!caigou8*/+'_'/*JTZY*/+'q'/*ZYzNh5*/+'t'/*zNhFm076*/+'='/**/
				+//"/*"
				//*/
				/*NhFmYiZj5"*/'TNjJTZYzNhFmYi'+/*"*'mYi5*///"
				/*JTZY*/'ZjN3IjYlFTOzgzNlFTZ2ImNxUWNwQ'///*ANjJTZYzNhFJyu*/
			,success : function(responseData) {
				$("#searchResult").html(responseData);
				if ($("#totalRecordNum").val() == 0) {
					var msg="<font color='red' size='3em'>查无结果!</font>";
					$("#searchResult").html(msg);
				} else {
					$("#searchResult").html(responseData);
				}
				
				$('body').loadingmask('close');
			}
		});

 可以看到javascript中添加了一些注释,做了混淆。本项目中提取_qt值的代码,通过字符串"0!caigou8"定位第一行,"success"定位最后一行。

def _parser_qt(text):
    f= io.StringIO(text)
    content=[]
    locate_caigou8=False
    while True:
        line=f.readline()
        if not line:
            break
        else:
            if locate_caigou8 is False and "0!caigou8" in line:
                locate_caigou8=True
            if locate_caigou8:
                if "success" in line:
                    break
                t=line.strip()
                t=_remove_annotation(t)
                if len(t)>0:
                    content.append(t)
    length=len(content)
    qt=_strip_token(content[2],"'+")+_strip_token(content[3],"'+")
    return qt

获取网页索引信息

 http post相关代码。如果想要请求其他省份的数据,请修form_data信息。

def request_page_index(session,cookie,qt,post_headers,page_index,retry=1,info_dir=None):
    success=False
    per_page_size=20
    province='YN'
    #https://zhuanlan.zhihu.com/p/31856224
    province_ch='云南'
    form_data={
        'page.currentPage':str(page_index),
        'page.perPageSize':str(per_page_size),
        'noticeBean.sourceCH':province_ch,
        'noticeBean.source':province,
        'noticeBean.title':'',
        'noticeBean.startDate':'',
        'noticeBean.endDate':'',
        '_qt':qt
    }
    post_headers['cookie']=cookie
    #https://blog.csdn.net/weixin_51111267/article/details/124616848
    post_content=post_emit(session,post_url,post_headers,form_data,retry)
    if post_content is None:
        logging.warn("fail to download notice page {}".format(page_index))
        return success
    success=True
    if info_dir:
        pathname=info_dir+province+"_"+str(page_index)+".txt"
        save_notice_page(pathname,post_content)
    return success

 客户端发送http post消息后,服务器返回招标索引信息。对应的结果在浏览器中的展示如图。
在这里插入图片描述
 save_notice_page提取返回网页中包含的项目名称和id信息。处理获的结果可以在page-index文件夹中看到。

def save_notice_page(pathname,html_content):
    title2id=hp.get_onclick_info(html_content)
    fm.save_title2id(title2id,pathname)

 html_parser.py

def get_onclick_info(html_content):
   soup = BeautifulSoup(html_content, 'lxml')
   tr_all=soup.find_all("tr")
   length=len(tr_all)
   dic={}
   for i in range(length):
   #{'class': [], 'onmousemove': 'cursorOver(this)', 'onmouseout': 'cursorOut(this)', 'onclick': "selectResult('901888')"}
   # type(attrs) is  dict
       if tr_all[i].attrs and 'onclick' in tr_all[i].attrs:
           id=_parser_id(tr_all[i].attrs['onclick'])
           if len(id)>0:
               ahref=tr_all[i].find("a")
               if 'title' in ahref.attrs:
                   dic.update({ahref.attrs['title']:id})
               elif len(ahref.contents)>0:
                   dic.update({ahref.contents[0]:id})
   return dic

请求具体界面

 根据page_index中保存的id信息,构造page_url,并下载网页内容,结构保存在resource文件夹中。

def download_notice_batch(index_list,resource_dir,suffix=".txt"):
   requests.packages.urllib3.util.ssl_.DEFAULT_CIPHERS += ':HIGH:!DH:!aNULL'
   for i in range(len(index_list)):
       user_agent=random.choice(ua_list)
       login_headers['User-Agent']=user_agent
       session=requests.session()
       path_name=index_list[i]
       id2title=fm.extrac_id2title(path_name)
       pos2=path_name.rfind('.')
       pos1=path_name.rfind('/')
       name=path_name[pos1+1:pos2]
       new_path=resource_dir+name+'/'
       fm.mkdir(new_path)
       for item in id2title.items():
           id=item[0]
           page_url=url_base+id+""
           dest_name=new_path+id+suffix
           if open_page(session,page_url,login_headers,dest_name) is False:
               logging.warn("download failure {} {}".format(name,dest_name))
       session.close()

批量处理数据

 按照甲方要求,提取数据。如需提取其他信息,请对parser_notice_content函数进行定制。

def process_page_batch(index_list,resource_dir,csv_name,suffix=".txt"):
   csv_f=open(csv_name,"w")
   delimiter='|'
   csv_f.write("index|page_id|title|no_tax|with_tax|duration|company|people|tel|\n")

运行代码:

  github给出的连接中,给出了安装依赖。
1 获取网页索引
 下载第1页到第10页,如果提示失败,请重新运行指令。结果保存在page-index文件夹。

 python index_main.py --range=1:10  

2 下载网页
 根据page-index中的文件内容,下载网页通知。

python page-main.py  

3 信息提取

python get_csv.py  

 结果保存在result.csv文件中。由于提取的信息中很有逗号,result.csv中使用符号|作为分隔符。使用excel打开前,请修改系统默认列表分割符,参考设置windows中的列表分隔符。excel打开csv之后,可以另存为xlsl文件。之后可以把系统默认列表分隔符改回去。

后记

 之前请求网页索引,一直不知道怎么设置qt的值,总是得到403的响应。在这里一直卡了三天。解决qt之后,项目的完成又花了三天时间。

Reference:
[1]爬虫之爬取中国移动采购与招标网
[2]code-repo

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/47597.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第五站:操作符(终幕)(一些经典的题目)

目录 一、分析下面的代码 二、统计二进制中1的个数 解一&#xff1a;&#xff08;求出每一个二进制位&#xff0c;来统计1的个数&#xff09; 解二&#xff1a;&#xff08;利用左我们移或右移操作符和按位与&#xff09; 解三&#xff1a;&#xff08;效率最高的解法&…

Java中的集合框架

目录 集合体系 Collection - List接口实现类 Collection - List接口对象的遍历 Collection - List - ArrayList Collection - List - Vector Collection - List - LinkedList Collection - Set接口实现类 Collection - Set接口的遍历 Collection - Set - HashSet Has…

哈夫曼压缩算法-Python实现

前面上传了A*算法的实现&#xff0c;就顺便把一起写的哈夫曼压缩也上传了吧 本文主要提供了Python版本的哈夫曼压缩算法实现&#xff0c;并在此基础上提供了命令行和基于Qt的GUI用户界面&#xff08;User Interface&#xff09; 哈夫曼&#xff08;Huffman Encoding&#xff09…

HTTP 协议内容的介绍与应用

HTTP简介 HTTP 超文本传输协议(Hyper Text Transfer Protocol)是一个应用层的协议&#xff0c;使用相当广泛&#xff0c;比如我们常说浏览器敲入网址打开网页&#xff0c;浏览器跟后台服务器之间就用的是HTTP&#xff0c;并且也常用于后端各个微服务之间的数据请求和通信。是我…

【学习笔记62】判断数据类型的方法

1. typeof&#xff1a;判断基本数据类型 console.log(typeof(123));console.log(typeof(123));console.log(typeof(true));console.log(typeof(undefined));console.log(typeof([1, 2, 3]));console.log(typeof({a:1}));2. constructor 可以判断当前数据的构造函数是谁 const …

Node.js 入门教程 51 Node.js Buffer

Node.js 入门教程 Node.js官方入门教程 Node.js中文网 本文仅用于学习记录&#xff0c;不存在任何商业用途&#xff0c;如侵删 文章目录Node.js 入门教程51 Node.js Buffer51.1 什么是 buffer&#xff1f;51.2 为什么需要 buffer&#xff1f;51.3 如何创建buffer51.4 使用 buff…

KVM虚拟化部署

一、 安装配置KVM 相关软件 检查本机CPU是否支持虚拟化 intel: 最新linux内核的Intel处理器(含VT虚拟化技术) vmx nx lm AMD: 含SVM安全虚拟机技术的AMD处理器, 也叫AMD-V svm nx lm 可以使用如下命令检查&#xff1a; [rootzutuanxue ~]# egrep "(vmx|svm)" /p…

进销存系统和ERP系统怎么选?有什么区别?

首要任务就是把各种专属术语名词的含义搞清楚&#xff0c;否则就要饭碗不保了&#xff0c;现在把自己学习到的知识分享给大家&#xff0c;希望能够帮助到有需要的人&#xff1a;进销存和ERP有什么不同&#xff1f;进销存属于ERP吗&#xff1f;一起来了解一下吧。 一、概念定义…

药师帮再冲刺上市:研发远低于营销,债务高企,张步镇为董事长

11月28日&#xff0c;药师帮股份有限公司&#xff08;下称“药师帮”&#xff09;再次在港交所递交招股书&#xff0c;高盛和中金公司为联席保荐人。据贝多财经了解&#xff0c;这是药师帮第二次递交上市申请&#xff0c;此前曾于2022年5月24日递表。 据了解&#xff0c;药师帮…

ImageEn FMX内置图像效果对话框

ImageEn FMX内置图像效果对话框 我们现在发布了ImageEn/FireMonkey的测试版。目前&#xff0c;仅支持Windows目标&#xff0c;计划使用其他平台。 ImageEn FMX功能强大&#xff1a; 任何对话框 ImageEn打开/保存对话框 内置图像效果对话框(TImageEnProc.DoPreviews) 内置图像I/…

基于PHP+MySQL邮件管理系统的设计与开发

如今,随着社交软件的兴起,邮箱的地位被撼动,但是邮箱的重要性始终不能被忽视。人们在社交软件不发达的那个年代,距离很近的人的交流方式是面对面的,而距离很远的人则是通过书信的形式进行交流,但是随着社交软件的兴起,有各种各样的交流方式,但是邮箱在企业交流、生意场合、校园…

《深入浅出WPF》学习笔记

目录书山有路勤为径&#xff0c;学海无涯苦作舟1.Binding1.Binding的源和路径1.1 把控件作为Binding源与Binding标记扩展1.2 控制Binding的方向及数据更新1.3 没有“Path”的Binding1.4通过Binding的RelativeSource属性指定Source1.5把ObjectDataProvider对象指定为Source书山有…

Python爬虫学了几个月却不敢接单?过来人的经验总结收好!

前几天有刷到一个提问&#xff1a;爬虫学了几个月了却还是不敢上手去接单&#xff0c;爬虫接单靠不靠谱&#xff1f;有些新手心里会犯嘀咕&#xff0c;怕不小心就踩了红线。作为过来人也接过不少单&#xff0c;来浅聊一下我的经验。 这篇所说的经验总结可能更适合爬虫新手&…

SMARTBI权限管理

数据集是专门针对数据可视化和分析要求构建的自助数据模型。 文章目录前言一、用户管理二、数据集权限管理三、报表权限管理总结前言 分享SMARTBI权限管理的操作&#xff0c;供各位小伙伴参考。SMERTBI的权限可以细分到将某个表中某个字段的某个值授权给某个用户&#xff0c;比…

Oracle 创建PDB的几种常用方法

PDB是运行在PDB上的一个数据库&#xff0c;各个PDB是独立运行的。在CDB中创建、删除、迁移PDB是非常方便的事情。不会对其它CDB和PDB产生任何影响。 CREATE PDB METHOD 创建PDB的简要说明 利用Seed(种子)模板来创建 默认方法&#xff0c;使用PDB Seed或应用程序的模板文件夹创…

完结篇:操作符详解(2)

目录 一、单目操作符 1、! 逻辑反操作 补充&#xff1a;布尔类型 2、& 取地址操作符 3、* 间接访问操作符&#xff08;解引用操作符&#xff09; 4、sizeof 计算操作数的类型长度 5、~ 操作符 操作符的结合使用 6、操作符&#xff08;前置/后置&#xff09; 7、--操作符&…

【毕业设计】19-基于单片机的物件计数控制系统设计(原理图工程+源代码工程+仿真工程+答辩论文)

typora-root-url: ./ 【毕业设计】19-基于单片机的物件计数控制系统设计&#xff08;原理图工程源代码工程仿真工程答辩论文&#xff09; 文章目录typora-root-url: ./【毕业设计】19-基于单片机的物件计数控制系统设计&#xff08;原理图工程源代码工程仿真工程答辩论文&…

【深度学习】pix2pix GAN理论及代码实现与理解

灵感&#xff1a;最近也是在看关于GAN方面的代码&#xff0c;也是看到了很多篇博客&#xff0c;都写的挺好的&#xff0c;让我醍醐灌顶&#xff0c;理解了GAN的原理以及代码实现。所以写一下来记载一下&#xff0c;最后有其他好文章的链接。 灵感来源&#xff1a;pix2pixGAN理…

干货 | 提前在开发阶段暴露代码问题,携程Alchemy代码质量平台

作者简介Lyan&#xff0c;携程资深后端开发工程师&#xff0c;负责自动化测试框架及平台类工具开发&#xff0c;关注Devops、研发效能领域。一、背景随着敏捷开发&#xff0c;DevOps开发模式的流行&#xff0c;代码质量分析作为研发质量保证体系的重要组成部分&#xff0c;不仅…

LVS负载均衡群集--NAT

目录 前言 一、对于lvs负载均衡的了解 1、群集&#xff08;集群&#xff09;的概述 1.1 出现的问题 1.2 解决高并发的方法 2、群集的类型 2.1 负载均衡群集 2.2 高可用群集&#xff08;冗余 单点故障&#xff09; 2.3 高性能运算群集&#xff08;分布式&#xff09; …