国家统计局教育部各级各类学历教育学生情况数据爬取

news2024/11/27 18:33:46

教育部数据爬取

    • 1、数据来源
    • 2、爬取目标
    • 3、网页分析
    • 4、爬取与解析
    • 5、如何使用Excel打开CSV


1、数据来源


国家统计局:http://www.stats.gov.cn/sj/

在这里插入图片描述

教育部:http://www.moe.gov.cn/jyb_sjzl/

在这里插入图片描述

数据来源:国家统计局教育部文献教育统计数据2021年全国基本情况(各级各类学历教育学生情况)

我们看到,最新的数据是到2021年

2、爬取目标


本次,我们爬取2021年教育统计数据全国基本情况各级各类学历教育学生情况数据

在这里插入图片描述

数据(部分)如下:

在这里插入图片描述

爬虫前必备知识:Python网络爬虫基本库详解:https://blog.csdn.net/weixin_55629186/article/details/132415946

3、网页分析


经过分析,我们发现,数据形式为HTML,数据主要嵌入在table标签中

在这里插入图片描述

4、爬取与解析


1)环境准备

import numpy as np
import pandas as pd
import requests
import re
from bs4 import BeautifulSoup

2)发起请求,获取响应

# URL
url = 'http://www.moe.gov.cn/jyb_sjzl/moe_560/2021/quanguo/202301/t20230104_1038067.html'
# 数据保存路径
out_path = r"C:\Users\cc\Desktop"

def get_html_str(callback):
    headers = {
   

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1168979.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网络协议的基本概念

网络协议的基本概念 随处可见的协议 在计算机网络与信息通信领域里,人们经常提及“协议”一词。互联网中常用的具有代表性的协议有IP、TCP、HTTP等。 “计算机网络体系结构”将这些网络协议进行了系统归纳。TCP/IP就是IP、TCP、HTTP等协议的集合。现在&#xff0…

【MATLAB源码-第67期】基于麻雀搜索算法(SSA)的无人机三维地图路径规划,输出最短路径和适应度曲线。

操作环境: MATLAB 2022a 1、算法描述 ​麻雀搜索算法(Sparrow Search Algorithm, SSA)是一种新颖的元启发式优化算法,它受到麻雀社会行为的启发。这种算法通过模拟麻雀的食物搜索行为和逃避天敌的策略来解决优化问题。SSA通过模…

常用的网站扫描工具

破壳扫目录 7KB扫目录 safe3扫漏洞

怎样做好金融投资翻译

我们知道, 金融投资翻译所需的译文往往是会议文献、年终报表、信贷审批等重要企业金融资料,其准确性事关整个企业在今后一段时期内的发展战略与经营成效。尤其像年报,对于上市公司来说更是至关重要的。那么,怎样做好金融投资翻译&…

【C语言初学者周冲刺计划】5.1C语言知识点小总结

目录 1知识点一: 2知识点二: 3知识点三: 4代码: 5总结: 1知识点一: 1 C语言中要求对变量作强制定义的主要理由是( )。 便于确定类型和分配空间 2 【单选题】若有定义:int m7; float x…

利用稳定扩散快速修复图像

推荐Stable Diffusion自动纹理工具: DreamTexture.js自动纹理化开发包 什么是InPainting? 图像修复是人工智能研究的一个活跃领域,人工智能已经能够提出比大多数艺术家更好的修复效果。 这是一种生成图像的方式,其中缺失的部分已…

【音视频 | Ogg】libogg库详细介绍以及使用——附带libogg库解析.opus文件的C源码

😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…

RIP路由配置

RIP路由配置步骤与命令: 1.启用RIP路由:router rip 2.通告直连网络:network 直连网络 3.启用RIPv2版本:version 2 4.禁用自动汇总:no auto-summary 注意:静态路由通告远程网络,动态路由通告…

天空卫士在全球和中国两大报告中被Gartner列为推荐和代表性供应商

DLP连续五年被Gartner 列为推荐厂商的理由 Gartner2023年9月份发布的《Gartner全球企业数据防泄露市场指南》中,天空卫士被列为DLP领域代表供应商,包括EDLP、IDLP和云原生DLP。 这已经是天空卫士第五次入选《Gartner全球企业数据防泄露市场指南》。天空…

[极客大挑战 2019]LoveSQL 1

题目环境:判断注入类型是否为数字型注入 admin 1 回显结果 否 是否为字符型注入 admin 1 回显结果 是 判断注入手法类型 使用堆叠注入 采用密码参数进行注入 爆数据库1; show database();#回显结果 这里猜测注入语句某字段被过滤,或者是’;被过滤导致不能…

突破性的多语言代码大模型基CodeShell:北京大学与四川天府银行联合打造,引领AI编程新时代

项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实…

【数据结构】归并排序 的递归实现与非递归实现

归并排序 前言一、归并排序递归实现(1)归并排序的核心思路(2)归并排序实现的核心步骤(3)归并排序码源详解(4)归并排序效率分析1)时间复杂度 O(N*logN&#xf…

[AUTOSAR][诊断管理][ECU][$85] 设置DTC功能

文章目录 一、简介功能描述应用场景服务请求请求格式请求实例关闭DTC监控(OFF)开启DTC监控(ON)服务响应正响应格式正响应实例负响应NRC支持三、 示例代码85_ctl_dtc_set.c一、简介 功能描述 根据ISO14119-1标准中所述,诊断服务85服务主要用于开启或者停止DTC状态位的更新功能…

口袋参谋:如何玩转手淘“问大家”?这招超好用!

​现在应该不会还有商家不知道,手淘“问大家”分析吧! “问大家”模块对于转化率的影响非常关键,它的影响力不亚于买家秀,以前买家下单前都会去参考买家秀,现在买家更倾向于参考“问大家”然而,真正玩转“问…

云安全—docker Deamon攻击面

0x00 前言 本篇文章主要是讲docker Deamon的原理以及docker Deamon攻击面相关的内容,属于抛砖引玉系列,如有不妥之处还请斧正。 0x01 docker Deamon 还是先来看一下docker Deamon的一些相关知识,依旧是采用问答的方式来进行。为了文章的整…

【音视频 | opus】opus编解码库(opus-1.4)详细介绍以及使用——附带解码示例代码

😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…

自动曝光算法(第二讲)

序言 第一章说了,自动曝光算法的目的:已知当前raw图亮度、当前曝光时间、当前增益和目标亮度,当环境光发生变化的时候,是通过控制增益、曝光时间和光圈使raw图的亮度,保持在目标亮度附近。本章想讲一下目标亮度的相关…

修改c盘用户名后的注意

文章目录 修改C盘及相关配置形成原因修改用户名和文件夹名解决软件双击无法打开问题修改其它相关注册表修改环境变量的内容 修改C盘及相关配置 形成原因 曾修改过文件夹,具体哪个文件夹,待会会有所参透 由于我感觉自己的用户文件夹不是太好看&#xff…

记录--这个前端Api管理方案会更好?

这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 简介 大家好,前端小白一枚,目前接触后台管理系统比较多,经常遇到不同对象的增删改查的接口,如何对Api进行一个有比较好的管理是个问题。在学习偏函数的时…

[概述] 点云滤波器

拓扑结构 点云是一种三维数据,有几种方法可以描述其空间结构,以利于展开搜索 https://blog.csdn.net/weixin_45824067/article/details/131317939 KD树 头文件:pcl/kdtree/kdtree_flann.h 函数:pcl::KdTreeFLANN 作用&#xff1a…