获取企业服务超市企业信息

news2024/10/7 8:23:59

 地址:

服务机构-苏州工业园区企业服务超市

 

import os
from datetime import datetime
from urllib import request
import pandas as pd
import re
import requests
from lxml import etree
from bs4 import BeautifulSoup
import csv
import codecs

# 20230521 根据每个区的企业服务中心 去获取企业信息数据
payload=""
headers={
"Accept":"*/*",
"Accept-Encoding":"gzip,deflate,br",
"Cookie":"uuid_tt_dd=10_18804907310-1584181525441-469327; UN=zhaomengszu; Hm_ct_6bcd52f51e9b3dce32bec4a3997715ac=6525*1*10_18804907310-1584181525441-469327!5744*1*zhaomengszu; __gads=ID=b56ad0a2297d6442-2288891c22c40062:T=1602996290:RT=1602996290:S=ALNI_MZ2SaewhN41t8fSXV6-zdnXJRSixQ; dc_session_id=10_1619259388646.896265; c_segment=15; c_first_page=https%3A//www.csdn.net/; c_first_ref=default; dc_sid=7286c32f348ba7b1edaae69ba6ef526c; Hm_lvt_6bcd52f51e9b3dce32bec4a3997715ac=1619259411; SESSION=2957f398-b82d-4e4a-a6e7-721cbe55d68d; ssxmod_itna=YqRxcQqeuDy7D8DzxabP0KPO7YcxDCDGx7KEb2dD/WQmDnqD=GFDK40oo8YbEhr1KPf23qIU0OWLhdyDCPhbPHt++eDHxY=DUpb4KoD445GwD0eG+DD4DW0x03DoxGYg+HHKiODQ40kDY5DwEHzDic837RYLrvFDfvGDiHonEG4LxG1DQ5DsOivQ4DCz4SYDmR3pgvsDCKDjaACCoYDUlqeLQ0eFEboSfiqxriYme47=GhxhGrqiiGezAiY3WRYtsheFO2YDDp+FQh44D===; ssxmod_itna2=YqRxcQqeuDy7D8DzxabP0KPO7YcxDCDGx7KEbrG9WdGDBTrFx7PmrM22ijyb8C38BqY=43+aQndCD8EIiInzbLebfBYlfgNYnWQ8kwXV+/QAhXqk+gkSQkdNiZ98eAwM1X8uw4PVHs6HG/rBiBBPCVPPtZcuCZ1AhbaImo9TTuZ98upB8lo71x8pA=4qFs=0FEPeIjbHTwPn8ypojzrPC=hkp2amOcmdIcGqKvKC=stPs5LnFupku4daU3NdcQw6r+F690gW=pCmyKmWUY2d1czOQx5OQhQcIXQik=PNCEQpvX7i82ftMaIzGh9lUKnIMePQGXFZ4YnIgo+o1vLrjihfPCpgBikhwpG3PWtUlLceXt9ILcm34dOlLhhqaIb72rQzrGam2Pe8DxapLfeIQFU1RDi/v4QnDaD6nAWcw1UGR1r5AfkKI1+hNYPMYE8Dhbja8e47jTqncfBhmWwkA4DQKeKrqbiQiuKArx+5Cpkah+xjdz1q1V+oUwK4+o4xbCo7e5=Qj8KDDFqD+=4xD===; UserName=zhaomengszu; UserInfo=6607995659ed4ff0a41eeb8eec07896f; UserToken=6607995659ed4ff0a41eeb8eec07896f; UserNick=%E8%BF%99%E5%AD%A9%E5%AD%90%E8%B0%81%E6%87%82%E5%93%88; AU=3C1; BT=1619259410818; p_uid=U010000; Hm_up_6bcd52f51e9b3dce32bec4a3997715ac=%7B%22islogin%22%3A%7B%22value%22%3A%221%22%2C%22scope%22%3A1%7D%2C%22isonline%22%3A%7B%22value%22%3A%221%22%2C%22scope%22%3A1%7D%2C%22isvip%22%3A%7B%22value%22%3A%220%22%2C%22scope%22%3A1%7D%2C%22uid_%22%3A%7B%22value%22%3A%22zhaomengszu%22%2C%22scope%22%3A1%7D%7D; c_page_id=default; log_Id_view=471; mp_sidebar_feedback_flag=block; log_Id_click=71; c_ref=https%3A//mp.csdn.net/editor/html/114404385; c_pref=https%3A//mp.csdn.net/editor/html/114404385; Hm_lpvt_6bcd52f51e9b3dce32bec4a3997715ac=1619259750; announcement-new=%7B%22isLogin%22%3Atrue%2C%22announcementUrl%22%3A%22https%3A%2F%2Fblog.csdn.net%2Fblogdevteam%2Farticle%2Fdetails%2F112280974%3Futm_source%3Dgonggao_0107%22%2C%22announcementCount%22%3A0%2C%22announcementExpire%22%3A3600000%7D; dc_tos=qs2cti; log_Id_pv=200",
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36"
}

for i in range(65):
    print("正在爬取第"+i+1+"页")
    url="https://sme.sipac.gov.cn/epservice/techsub/Apps/epssm/index.php?s=/OrgSpace/index/qb/1/order//province/320000/city/320500/p/"+str(i+1)+"/checkno/8B651777CD66FBCB720A940F890579CD"
    resp=requests.request("GET",url,data=payload,headers=headers)
    resp.encoding=resp.apparent_encoding
    html_source=resp.text

    # 使用正则表达式匹配 onclick 值  
    pattern = r'<div class="list-imgleft-container noorglogo" onclick="window.open(.*?)">' 
    onclicks = re.findall(pattern, html_source)
    origin='https://sme.sipac.gov.cn'


    # uu='https://sme.sipac.gov.cn/epservice/techsub/Apps/epssm/index.php?s=/OrgSpace/space/id/a6b998fb-1d9f-11e7-8b94-000c29881ee3'
    #     #resp2=requests.request("GET",origin+onclick[2:-2],data=payload,headers=headers)
    # resp2=requests.request("GET",uu,data=payload,headers=headers)
    # resp2.encoding=resp2.apparent_encoding
    # html2 = etree.HTML(resp2.text) 
    # #直接写入txt
    # # with open("com.txt","w",encoding='utf-8') as f:
    # #         f.write(resp2.text)

    # aa=html2.xpath('//*[@id="items-my-basic"]/table/tr[2]/td[2]/div/text()')[0]
    # print(aa)   

    rows=[]

    # 打印结果
    for onclick in onclicks:
        resp2=requests.request("GET",origin+onclick[2:-2],data=payload,headers=headers)
        resp2.encoding=resp2.apparent_encoding
        html2 = etree.HTML(resp2.text) 
        qymc=html2.xpath('/html/body/div[2]/div[2]/div/div[2]/div[1]/div/div[1]/div[2]/div[1]/span/text()')[0] #企业名称
        zyyw=html2.xpath('//*[@id="items-my-basic"]/table/tr[2]/td[2]/div/text()')[0] #主营业务
        jgjj=html2.xpath('//*[@id="items-my-basic"]/table/tr[3]/td[2]/div/text()')[0]#机构简介
        ygrs=html2.xpath('//*[@id="items-my-three"]/div[1]/table/tr[1]/td[2]/text()')[0] #员工人数
        
        zyryrs=html2.xpath('//*[@id="items-my-three"]/div[1]/table/tr[1]/td[4]/text()')[0] #执业人员人数

        bk=html2.xpath('//*[@id="items-my-three"]/div[1]/table/tr[2]/td[2]/text()')[0]#本科
    
        ss=html2.xpath('//*[@id="items-my-three"]/div[1]/table/tr[2]/td[4]/text()')[0]#硕士
        # 博士 +html2.xpath('//*[@id="items-my-three"]/div[1]/table/tr[3]/td[1]/text()')[0]+html2.xpath('//*[@id="items-my-three"]/div[1]/table/tr[3]/td[2]/text()')[0]+html2.xpath('//*[@id="items-my-three"]/div[1]/table/tr[3]/td[3]/text()')[0]+html2.xpath('//*[@id="items-my-three"]/div[1]/table/tr[3]/td[4]/text()')[0]
        
        lxrname=html2.xpath('//*[@id="items-my-two"]/div[1]/table/tr/td[2]/text()')[0]  #姓名
        lxrpos=html2.xpath('//*[@id="items-my-two"]/div[1]/table/tr/td[4]/text()')[0]  #职务
        lxrphone=html2.xpath('//*[@id="items-my-two"]/div[1]/table/tr/td[6]/text()')[0]  #手机
        lxraddr=html2.xpath('//*[@id="items-my-two"]/div[2]/table/tr[2]/td[2]/p/text()')[0] #办公地址


        row=(qymc,zyyw,jgjj,ygrs,zyryrs,bk,ss,lxrname,lxrpos,lxrphone,lxraddr)
        rows.append(row)
            
    
        with codecs.open('company20230521.csv', 'wb',encoding='gbk',errors='ignore') as f:
            writer = csv.writer(f)
            writer.writerow(["企业名称","主营业务","机构简介","员工人数","执业人员人数","本科","硕士","姓名","职务","手机","","办公地址"])
            writer.writerows(rows)







    



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/552235.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

learn_C_deep_13 (深刻理解宏定义)

目录 宏定义 数值宏常量 字符串宏常量 用定义充当注释符号宏 用 define 宏定义表达式 宏定义中的空格 宏定义 数值宏常量 在C语言中&#xff0c;宏定义可以用于定义数值宏常量。数值宏常量是一个值&#xff0c;在宏定义中用一个常量名称来表示&#xff0c;该值在后续的代…

计算机视觉的应用5-利用PCA降维方法实现简易人脸识别模型

大家好&#xff0c;我是微学AI&#xff0c;今天给大家介绍一下计算机视觉的应用5-利用PCA降维方法实现简易人脸识别模型&#xff0c;本文将介绍如何使用主成分分析&#xff08;PCA&#xff09;实现简易的人脸识别模型。首先&#xff0c;我们将简要介绍PCA的原理及其在人脸识别中…

26 KVM热迁移虚拟机

文章目录 26 KVM热迁移虚拟机26.1 总体介绍26.1.1 概述26.1.2 应用场景26.1.3 注意事项和约束限制 26.2 热迁移操作26.2.1 前提条件26.2.2 热迁移脏页率预测&#xff08;可选&#xff09;26.2.3 设置热迁移参数&#xff08;可选&#xff09;26.2.4 热迁移操作&#xff08;共享存…

Linux:文本三剑客之awk

Linux&#xff1a;文本三剑客之awk 一、awk编辑器1.1 awk概述1.2 awk工作原理1.3 awk与sed的区别 二、awk的应用2.1 命令格式2.2 awk常见的内建变量&#xff08;可直接用&#xff09; 三、awk使用3.1 按行输出文本3.2 按字段输出文本3.3 通过管道、双引号调用 Shell 命令 一、a…

【模电实验】日光灯电路及功率因数的提高

实验4 日光灯电路及功率因数的提高 一、实验目的 1&#xff0e;理解提高功率因数的意义并掌握其方法。 2&#xff0e;掌握日光灯电路的联接。 二、原理说明 日光灯电路结构及工作原理 日光灯电路如图4-1所示&#xff0c;日光灯由灯管、镇流器和启辉器三部分组成。 &…

复制带随机指针的链表

&#x1f495;“如果你关注自己已经拥有的&#xff0c;你就会拥有更多。如果你只关注自己没有得到的&#xff0c;你永远不会满足。” - 奥普拉温弗瑞&#x1f495; &#x1f43c;作者&#xff1a;不能再留遗憾了&#x1f43c; &#x1f386;专栏&#xff1a;Java学习&#x1f3…

11. Redis集群(cluster)

11. Redis集群cluster 是什么&#xff1f;能干嘛&#xff1f;集群算法-分片-槽位slot官网出处redis集群的槽位slotredis集群的分片他两的优势slot槽位映射&#xff0c;一般业界有3种解决方案哈希取余分区—致性哈希算法分区3大步骤算法构建一致性哈希环redis服务器IP节点映射k…

【Python sqlite3】零基础也能轻松掌握的学习路线与参考资料

Python sqlite3是Python语言自带的轻量级关系数据库管理系统&#xff0c;它可以让我们在不需要额外的安装和配置下&#xff0c;使用SQLite数据库进行操作和管理。SQLite是一个功能强大的嵌入式数据库&#xff0c;它非常适合在轻量级应用程序中使用&#xff0c;如桌面应用程序、…

ROS学习(4)——launch文件的编写

对于一个复杂的系统,会有十几个、几十个甚至是上百个节点在运行,如果我们每次都是采取“打 开终端、运行 rosrun 指令”来启动应用程序,显得效率非常低。我们需要一个更方便的方式来启动系统。ROS 中提供了“使用 launch 文件 roslaunch”命令来完成系统的启动。具体的实现方法…

Java·Lambda

文章目录 ⚽️1 背景⚽️&#x1f34f;1.1 Lambda表达式的语法&#x1f34f;&#x1f34e;1.2 函数式接口&#x1f34e; &#x1f3c0;2 Lambda表达式的基本使用&#x1f3c0;&#x1f348;2.1 语法精简&#x1f348; &#x1f3c8;3 变量捕获&#x1f3c8;&#x1f3c6;3.1 匿…

Linux Audio (7) DAPM-4 Path/Route添加过程

DAPM-4 Path/Route添加过程 route分类&#xff1a;route转化为Pathcodec驱动add widgetMechine驱动add kcontrol route分类&#xff1a; 常规route {“sink”, NULL, “source”}&#xff0c;其path->connect1 sink widget是Mixer {“Mixer”, name1, “source1”} {“Mixe…

chatgpt赋能Python-python88

Python88 简介 Python88 是一个优秀的 Python 开源库&#xff0c;它提供了许多有用的函数和工具&#xff0c;可用于创建高效的 Web 应用程序&#xff0c;简化数据分析、数据可视化以及机器学习和人工智能任务等。 Python88 帮助开发人员以更简单、更快捷的方式编写代码&#…

VS Code Remote Development

1、Ubuntu 上启用 SSH &#xff08;1&#xff09;打开终端&#xff0c;并且安装openssh-server软件包&#xff1a; sudo apt update sudo apt install openssh-server 当被提示时&#xff0c;输入你的密码并且按 Enter&#xff0c;继续安装。 &#xff08;2&#xff09;安…

RocketMQ消息发送

消息发送示例代码&#xff1a; public static void main(String[] args) throws MQClientException, InterruptedException {DefaultMQProducer producer new DefaultMQProducer("please_rename_unique_group_name");producer.setNamesrvAddr("127.0.0.1:9876…

leetcode-743. 网络延迟时间

1.思路分析&#xff1a; 一道Dijkstra模板题 推荐Dijkstra算法讲解教程 Dijkstra&#xff08;有向图某点到其他所有点的最短路径问题&#xff09; Dijkstra算法的基本思想是贪心策略&#xff0c;每次从未确定最短路径的顶点中选择距离源点最近的一个&#xff0c;然后以该顶点…

Python使用正则表达式

正则表达式&#xff08;Regular Expression&#xff09;&#xff0c;又称规则表达式&#xff0c;是一个计算机科学的概念&#xff0c;通常被用来检索和替换符合某些规则的文本。 1. 正则表达式语法 正则表达式就是记录文本规则的代码。 1. 行定位符 行定位符就是用来描述字…

【STM32G431RBTx】备战蓝桥杯嵌入式→决赛试题→第十二届

文章目录 前言一、题目二、模块初始化三、代码实现interrupt.h:interrupt.c:main.h:main.c: 四、完成效果五、总结 前言 无 一、题目 二、模块初始化 1.LCD这里不用配置&#xff0c;直接使用提供的资源包就行 2.ADC:开启ADCsingle-ended 3.LED:开启PC8-15,PD2输出模式就行了…

MySQL高级(InnoDB引擎)

&#xff08;一&#xff09;逻辑存储结构 表空间&#xff08;ibd文件&#xff09;&#xff0c;会生成ibd文件&#xff0c;一个mysql实例可以对应多个表空间&#xff0c;用于存储记录、索引等数据。 段&#xff0c;分为数据段&#xff08;Leaf node segment&#xff09;、索引段…

学弟研一,有几篇SCI论文,做过前端,读博 or 走开发进国企?

同学你好&#xff0c;在正面先抛开选择就业的方面的问题&#xff0c;其实我觉得生活种的很多选择&#xff0c;都可以从以下的几点进行斟酌与考虑&#xff1a; &#xff08;1&#xff09;你最擅长的是哪个方面&#xff1f;&#xff08;2&#xff09;你的兴趣爱好是在哪个方面&am…

从0开始搭建完整UVM工程(可直接用于实际的工程中)、含源码(包括makefile文件)、可直接运行,及详细注释

一、说明 网上的实现uvm工程代码都是抄自张强所著的《UVM实战》,都是讲所有文件放到一个文件夹,且不涉及到实际工程中的uvm结构,以及多文件层级结构,让人理解起来较为困难,本文则将会从0开始教大家如何搭建一个具有实际工程效果的UVM框架: 其对应的书中的框架图如下所示:…