获取各省人口排名数据

news2024/9/23 12:48:08

目录

一、目标网址

二、网址分析

2.1、获取并解析网页内容

2.2 两种获取方法

三、获取目标数据

四、代码附件


一、目标网址

目标网址:中国人口排名 省份

1.1 网址截图

 

二、网址分析

2.1、获取并解析网页内容

        我们需要使用requests库获取网页,使用BeautifulSoup库解析网页内容。

2.1.1 BeautifulSoup获取网页内容

 

2.2 两种获取方法

        这篇主要介绍方法二

2.1.2 方法一:取字典

 

2.1.3 方法二:取标签

 

三、获取目标数据

        这个网站比较工整,所有的省份数据都在 <tr> 标签中

        tbody -> tr -> class="cos-row" -> class="cos-col" -> class="c-line-clamp1"

3.1 总览

 

3.2 

 

【1】 使用 findall() 方法获取表格中的每一行 tr 标签,

【2】再循环使用 find() 方法获取每一行 class="cos-row" 数据

【3】findall() 方法获取每一行class="cos-row" 中各个 class="c-line-clamp1" 数据,

【4】row.text.strip() 获取标签内容并除去空白符

【5】最后,我们将获取到的数据存储到一个列表中,并使用pandas库创建一个DataFrame对象,将数据以表格的形式输出。

四、代码附件

import requests
from bs4 import BeautifulSoup
import pandas as pd

url = 'https://dbqa.pae.baidu.com/dbqa/page/list?srcid=51103&nl=1&query=%E4%B8%AD%E5%9B%BD%E4%BA%BA%E5%8F%A3%E6%8E%92%E5%90%8D%20%E7%9C%81%E4%BB%BD&en_s=zQqSnP0wKo6ZgYpcz5U994qb0VDmfqIysBkrGsYKsoNWsdIW1ttKBHLP2svkYl3BnmSoegvDPMJjUdH-9AZMouI4u7FKYNlzn-Y62bI0w-xAPNvJbZQvN_GDlVe3cXpDAT6YS94otM1z_3bX8kOqvhMHp-VucIIIQZY3lsdlVqLYl7M8eyxKvHKc-AzXWKklYvTtneuoJUKNTpiQ1Jidsg-1VVN8fUHSTsTZKuuR0cHvPw2qso-sGszsh-u0pzSo79iJcMt6Dlf_eNQQ2I9Jry8c8ShOwY-3_Lci_PuLjvLxuI4cYOMvxkzHic_ujaqHT0tMCM-J1Xo6UKJDA'
res = requests.get(url)
soup = BeautifulSoup(res.text, 'html.parser')
table = soup.find('tbody').findAll('tr', recursive=False)  # tbody标签内容
exc = []
i = 0
for subtable in table:
    data = subtable.find('div', {'class':  "cos-row"})
    rows = data.find_all('div', {'class': "c-line-clamp1"})
    cols = [row.text.strip() for row in rows]  # 循环取所有相同class中间的内容,row.text.strip()  # 取class中间的内容
    i = i + 1
    cols.append(i)
    exc.append(cols)
print(exc)
df = pd.DataFrame(exc, columns=['省份', '时间', '人口数', '单位', '排名'])  # columns=['排名', '省份', '时间', '人口数', '单位']
df = df[['排名', '省份', '时间', '人口数', '单位']]
print(df)
df.to_excel("population_data.xlsx", index=False)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/806609.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

三个常用查询:根据用户名 / token查询用户信息+链表分页条件查询

目录 1.根据用户名或者token查询用户信息 会员信息实体类 统一状态Result类 controller层 service层及实现类 dao层 测试&#xff1a; 2.链表分页条件查询 会员等级实体类 封装条件类PageVo controller层 service层及实现类 dao层 Mapper.xml层 测试 vue前端参考 1.根据用户名…

多模态大模型(MLLM)之VisCPM:支持中文对话文图双向生成

2020 年 12 月发布的 CPM-1 是国内首个中文大模型 &#xff1b;2022 年 9 月发布的 CPM-Ant 仅微调 0.06% 参数就能超越全参数微调效果&#xff1b;2023 年 5 月发布的 WebCPM 是 中文首个基于搜索的问答开源模型。CPM-Bee 百亿大模型是团队最新发布的基座模型&#xff0c;中文…

基于springboot+mybatis+vue进销存管理信息系统

基于springbootmybatisvue进销存管理信息系统 一、系统介绍二、功能展示1.个人中心2.企业信息管理3.商品信息管理4.客户信息管理5.入库记录管理6.出库记录管理7.出库记录管理8.操作日志管理9.库存盘点管理 四、获取源码 一、系统介绍 系统主要功能&#xff1a; 普通用户&#…

为啥运营商现在严格规范网购流量卡的年龄了呢?20岁以下难了

本期知识点只讲流量卡&#xff0c;葫芦弟今天分享给大家手机流量卡开卡安全的问题。 很多朋友可能觉得电信诈骗离自己很远&#xff0c;但实际上现在已经出现大量收购电话卡用于诈骗的现象&#xff0c;而我们很可能在不知不觉中掉进犯罪分子的陷阱&#xff0c;触犯法律&#xff…

关于element ui 安装失败的问题解决方法、查看是否安装成功及如何引入

Vue2引入 执行npm i element-ui -S报错 原因&#xff1a;npm版本太高 报错信息&#xff1a; 解决办法&#xff1a; 使用命令&#xff1a; npm install --legacy-peer-deps element-ui --save 引入&#xff1a; 在main.js文件中引入 //引入Vue import Vue from vue; //引入…

C# Solidworks二次开发:自动创建虚拟零件及使用注意事项

今天要讲的是关于在solidworks中如何自动创建虚拟零件的功能&#xff0c;也就是solidworks中插入新零件这个功能。 实现这个功能需要使用的API如下所示&#xff1a; InsertNewVirtualPart&#xff08;swFaceOrPlane1, out swcomp2&#xff09;&#xff1b; 其中这个方法中使…

【动态规划part11】| 123.买卖股票的最佳时机III、188.买卖股票的最佳时机IV

目录 &#x1f388;LeetCode123.买卖股票的最佳时机III &#x1f388;LeetCode188.买卖股票的最佳时机IV &#x1f388;LeetCode123.买卖股票的最佳时机III 链接&#xff1a;123.买卖股票的最佳时机III 给定一个数组&#xff0c;它的第 i 个元素是一支给定的股票在第 i…

X99双路主机28核56线程电脑配置选购与系统装机详细流程(附带资源)

文章目录 前期调研&#xff08;包含配件详细信息&#xff09;装机过程推荐学习视频实践过程 系统装机&#xff08;含资源详细过程&#xff09;提前准备&#xff08;制作系统盘工具以及ISO系统镜像&#xff09;实践过程步骤一&#xff1a;使用Rufsus工具&#xff0c;选择ISO文件…

记一次 .NET 某设备监控系统 死锁分析

一&#xff1a;背景 1. 讲故事 上周看了一位训练营朋友的dump&#xff0c;据朋友说他的程序卡死了&#xff0c;看完之后发现是一例经典的死锁问题&#xff0c;蛮有意思&#xff0c;这个案例算是学习 .NET高级调试 入门级的案例&#xff0c;这里和大家分享一下。 二&#xff…

【原理图专题】OrCAD Capture原理图设计差异对比

在我们进行硬件设计时,往往会遇到项目上的变更。比如更换了替代料、电路错误、新需求等等,这些有的需要动用到原理图,而动到原理图往往很容易出错,特别是已经量产的产品,我们可以通过BOM对比等方式来查看变更。那是否有一种其他方式能直接进行原理图对比呢? 其中对比功能…

桥接模式——处理多维度变化

1、简介 1.1、概述 桥接模式是一种很实用的结构型设计模式。如果软件系统中某个类存在两个独立变化的维度&#xff0c;通过该模式可以将这两个维度分离出来&#xff0c;使两者可以独立扩展&#xff0c;让系统更加符合单一职责原则。与多层继承方案不同&#xff0c;它将两个独…

【Linux】更换jdk版本

目录 一、前言二、查看jdk版本号1、项目中的版本号&#xff08;pom.xml&#xff09;2、服务器中的版本号 三、更换jdk版本1、创建java文件夹2、下载并解压JDK安装包①、下载jdk安装包②、移动到创建好的/usr/local/java路径下③、解压jdk安装包 四、删除原来的jdk版本1、删除原…

Java虚拟机——线程安全与锁优化

1 线程安全 当多个线程同时访问一个对象时&#xff0c;如果不用考虑这些线程在运行时环境下的调度和交替执行&#xff0c;也不需要进行额外的同步&#xff0c;或者在调用方进行任何其他的协调操作。调用这个对象的行为都可以获得安全的结果&#xff0c;就称这个对象是线程安全…

从零开始理解Linux中断架构(23)中断运行临界区和占先调度

Linux在内核中定义了6种运行临界区。 in_interrupt in_interrupt在驱动中使用频率最高的函数了,in_interrupt()就是指示Core是否正在中断处理中,包含了硬中断,软中断运行临界区。如果在中断处理中,则不能调用__do_softirq执行软中断处理。硬中断中不可调度不可中断,所有…

智慧园区安保人员巡更巡检解决方案,蓝牙信标主动式蓝牙定位导航系统

一、需求分析 目前&#xff0c;大部分写字楼&#xff0c;工厂&#xff0c;学校&#xff0c;银行&#xff0c;车站等场景对安保人员的管理依然靠手填单子记录作业情况&#xff0c;在缺乏信息化手段的情况下&#xff0c;靠人员自觉性或者RFID巡更棒&#xff0c;在这些传统方式下…

2023 年牛客多校第四场题解

A Bobo String Construction 题意&#xff1a;给定一个 01 01 01 字符串 t t t&#xff0c;构造一个长度为 n n n 的 01 01 01 串 s s s&#xff0c;使得 t t t 在 c o n c a t ( t , s , t ) {\rm concat}(t, s, t) concat(t,s,t) 中仅出现两次。多测&#xff0c; 1 ≤…

Android杂录 语音转文字功能 python混合开发环境搭建 priv-app开机赋予麦克风权限 HDMI与麦克风同时工作配置

专栏目录: 高质量文章导航-持续更新中_GZVIMMY的博客-CSDN博客 一.语音转文字功能 软件架构 硬件架构: 耳机接口 报错类型: AudioFlinger could not create record track, status: -1 Androi

【雕爷学编程】Arduino动手做(175)---机智云ESP8266开发板模块7

37款传感器与执行器的提法&#xff0c;在网络上广泛流传&#xff0c;其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块&#xff0c;依照实践出真知&#xff08;一定要动手做&#xff09;的理念&#xff0c;以学习和交流为目的&am…

FreeRTOS之互斥量

什么是互斥量&#xff1f; 在多数情况下&#xff0c;互斥型信号量和二值型信号量非常相似&#xff0c;但是从功能上二值型信号量用于同步&#xff0c; 而互斥型信号量用于资源保护。 互斥型信号量和二值型信号量还有一个最大的区别&#xff0c;互斥型信号量可以有效解决优先级…

Python(四十八)列表的特点

❤️ 专栏简介&#xff1a;本专栏记录了我个人从零开始学习Python编程的过程。在这个专栏中&#xff0c;我将分享我在学习Python的过程中的学习笔记、学习路线以及各个知识点。 ☀️ 专栏适用人群 &#xff1a;本专栏适用于希望学习Python编程的初学者和有一定编程基础的人。无…