考情分析调研

news2024/10/7 6:46:04

文章目录

    • 一、爬虫
      • 1、定向爬虫
      • 2、规律
      • 3、爬取策略
      • 4、整页抓取
      • 5、爬取方案
        • 5.1 Scrapy
        • 5.2 BeautifulSoup
    • 二、文本提取
    • 三、问题
    • 四、数据源建模调研

一、爬虫

1、定向爬虫

定向爬虫可行性太低,因为网站可能发生改版、且网站类型较多。

2、规律

考情分析大多是找到相关文档,所需要的数据的行为模式基本都是从列表页进–>文章页,而具体的文章就是在这里插入图片描述
我们需要的数据。如下面中公教育的网站提供的公告数据。
在这里插入图片描述

3、爬取策略

不针对某个特定的网站进行爬取,而是针对于所有数据源进行爬取。

以列表的形式列举出全国各省市区的公告信息网(或者就是现在的一千多条数据源)。

  1. 获取首页URL地址:公告官网列表中的每一个条目是通过模板for标签动态显示的,数据来源于数据源,该数据源中存储了每一个官网的名字和URL地址。
    2.当确定建立某一个官网的词库后,查询id值对应的门户网站的首页地址,爬虫便从该地址开始爬取。
  2. 爬虫API获取网页信息:门户网站中有许多子网页,可以采用DFS和BFS来获取每一个子网页信息。在设置请求头后,使用request.get方法来抓取网页的标题、内容、URL等信息。
  3. 解析网页及分词:对于每一个子网页,在获取了页面的源码后,标题和内容是一起的,可以用BeautifulSoup来解析网页内容,解析出网页的标题和内容,随后使用Python的jieba中文分词库进行中文的分词,使连续的内容变成一个个单词。分词的结果可以放在list里面,后续可以使用,如考试时间的排序,考试内容的筛选等。
  4. 存入数据表:经过上述对网页信息的处理后,构建两张数据表。一个存储url、title等,另一个存储网页内容分词后的中文词语。
    6.成功爬取多个网页后,数据得到汇总。
    在这里插入图片描述

4、整页抓取

进入文章后,不是只抓取特定字段,而是整页抓取,后续进行相对应的文本提取和操作。
在这里插入图片描述

5、爬取方案

5.1 Scrapy

这里的调度器是个队列,出队后进入到下载器。
item就是想要的数据包。
如果管道处理后仍然有url,可以将其加入到队列,如广度优先搜索一样将相关页面都入队,入队后依次出队进入下载器。
在这里插入图片描述

5.2 BeautifulSoup

这个三方主要是借助于BeautifulSoup来进行解析,其实里面就是一些属性,通过属性来进行获取,如name、content等信息,在获取信息的时候通过一些label或者是h1、h2等
在这里插入图片描述

二、文本提取

因为不确定最后需要的数据到底有什么,所以没有准确的定位。

如果是提取公告内部的信息,可以进行文本提取。可以使用xpath获取文本信息,也就是根据前端的文本格式来获取文字信息。思路是遍历内部的所有子标签并获取标签文本,最后拼接。
如果是获取报名时间等具体的内容,可以进行中文分词,分词后筛选出重要信息,根据重要信息去做别的事情。

三、问题

1.我想要通过数据了解什么?
2.类似于BOSS提供职位方便用户进行筛选,这个筛选是根据地区、考试时间,对考试公告进行筛查吗?
3.这个考情,指的是考试情况,还是考试情况分析。是只需要汇总考试时间、内容吗?还是说也会针对历年的考试情况如报考人数和录取比例进行职位的推荐?
4.目前对中公教育网站,爬虫内容主要是有:该考试公告的更新时间、名字、标题、公告链接等,如下图所示,并没有具体考试数据的提取(如考试时间和考试科目等),是否满足现在的需求?
在这里插入图片描述

四、数据源建模调研

背景:考情主要依赖于平台和模型外部数据源,不同的门户网站间的算法是不统一的。如果每个数据源都依赖于一个模型,那么时间成本太高。考虑动态模型融合,按照标准化和加权融合的搭配一个统一的模型。

方案:基于现有数据源,找几个典型的数据源,构建模型,看模型可以被哪些数据源所覆盖。
具体:
1、每种数据源一个单模型。
2、对多模型,进行训练,通过机器学习,训练模型,来多元化适配不同的数据源,在不断的数据源加入的过程中,模型会越来越准确。
3、对模型,可以参考某种权重进行标准化。

暂时不确定可行性。后续需进一步了解。

感觉应该是这个意思:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/539516.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

自定义组件的基本使用-1

目录 一、组件的引用方式分为: 局部引用和全局引用 二、组件和页面的区别: 三、组件样式隔离 四、data和properties的区别: 五、自定义组件-数据监听器 六、纯数据字段 七、组件的生命周期 八、插槽 一、组件的引用方式分为&#xff…

国产仪器 4945B/4945C 无线电通信综合测试仪

4945系列无线电通信综合测试仪是多功能、便携式无线电综合测试类仪器,基于软件无线电架构,集成了跳频信号发生与分析、矢量信号发生与解调分析、模拟调制信号发生与解调分析、音频信号发生与分析、音频示波器、自动测试等功能,它可完成无线通…

在线搭建其企业帮助中心的策略有什么?

在线搭建企业帮助中心是一个重要的策略,可以帮助企业更好地管理和共享知识,提高员工的工作效率和生产力,提升客户满意度和忠诚度。 探讨在线搭建企业帮助中心的策略: 一、确定帮助中心的定位和目标 在搭建企业帮助中心之前&…

大脑神经系统

阈值又叫临界值,是指刺激⽣物体时,释放某种反应所需的最⼩刺激强度。 突触神经元之间,或神经元与细胞、腺体之间通信的特异性接头。 注意⼒系统是⼀种散布的神经元连接系统,它将控制觉 醒、动机、奖励、执⾏功能和运动的各个区域…

matplotlib笔记:xkcd 将代码变成手绘风格

1 介绍 matplotlib.pyplot.xkcd(scale1, length100, randomness2) scale相对于不使用xkcd的风格图,褶皱的幅度length褶皱长度randomness褶皱的随机性 2 举例 2.0 不使用xkcd import matplotlib.pyplot as plt import numpy as np xnp.random.randint(0,100,10…

在esp32(esp8266) 提供软字库显示中文的解决方案

本方案已经开源到了 https://github.com/StarCompute/tftziku ,详细内容请访问Github. 本方案在esp32 下经过测试在tft屏幕上可以正常输出文字,也就是说经过了验证。 目录 说明 缘起 系统结构 软字库的创建 软字库包含的内容: 软字库的…

用 Android Studio 打包 uni-app 的安卓apk;手把手教程、巨详细避坑

Uni-app 离线打包 apk 1. Android Studio 下载 Android Studio官网 2. HBuilderX下载 HBuilderX下载 3. App离线SDK下载 Android 离线SDK - 正式版 下载后解压文件,将 HBuilder-Integrate-AS 重命名 build-template 并拷贝到一个专门打包用的文件夹下作为打包…

DETR类环境快速搭建

DINO下载地址: git clone https://github.com/IDEA-Research/DINO.gitconda create -n detr python3.8 -y修改写入权限 sudo chmod aw /home/ubuntu/.conda/激活环境 source activate detr安装pytorch conda install pytorch1.12.1 torchvision0.13.1 torchaudio…

OpenHarmony Docker移植实践

Docker简介 从操作系统诞生之日起,虚拟化技术就不断的演进与发展,结合目前云原生的发展态势,容器无疑是其中的重要一环。 Docker是一个开源的软件项目,可以在Linux操作系统上提供一层额外的抽象,让用户程序部署在一个相…

React面试题汇总 ---1

1.React的严格模式如何使用&#xff0c;有什么用处&#xff1f; React中StrictMode严格模式_react.strictmode_前端精髓的博客-CSDN博客当我们使用 npx create-react-app my-app 创建一个项目的时候。项目中有一段如下所示的代码&#xff1a;ReactDOM.render( <React.Stric…

SCADA数据采集与监控系统在制药生产过程中的应用

01 应用背景 制药行业关乎大众生命健康&#xff0c;在生产过程中各方面都要求遵循质量规范。制药行业虽然是一种流程化行业&#xff0c;但是和石油、化工等流程行业不同&#xff0c;行业特点决定了它的特殊性。根据质量规范要求&#xff0c;制药行业的SCADA需要满足国内GMP、欧…

David Silver Lecture 8: Integrating Learning and Planning

1 Introduction 1.1 Model based Reinforcement Learning 1.2 model based and model free RL 2 Model-Based Reinforcement Learning 2.1 outline 2.2 Learning a model 2.2.1 what is a model model主要是指&#xff0c;state transitions和相应的reward。 2.2.2 Model…

Fabric 超级账本学习【12】Hyperledger Fabric 2.4+Gin框架+Gateway 读取/写入账本数据 (Go版本)

文章目录 Fabric2.4Gin框架Gateway 读取/写入账本数据Gin框架优点Fabric-GatewayGateway搭建客户端我们需要准备哪些文件Gateway Client 为什么整个过程没有指定过背书节点?&#xff08;请求背书原理&#xff09;安装Gin前提条件成功部署Fabric2.4&#xff08;或其他版本的&am…

Qt 自定义窗口的标题栏,重写鼠标事件实现,隐藏窗口,最大化/最小化窗口,关闭窗口

Qt 自定义窗口的标题栏&#xff0c;重写鼠标事件实现&#xff0c;隐藏窗口&#xff0c;最大化/最小化窗口&#xff0c;关闭窗口 1、main.cpp #include "widget.h"#include <QApplication>int main(int argc, char *argv[]) {QApplication a(argc, argv);Widg…

ArcGis教程-画一幅城市的shp地图

怎样使用ArcGis10.6得到这么一幅shp地图呢&#xff1f; 首先打开ArcGis10.6&#xff0c;点击带黄底的小加号&#xff0c;添加底图。 可以选择中国地图彩色版&#xff0c;然后双击&#xff0c;转动鼠标滑轮找到属于自己的城市。 点击-目录&#xff0c;在新建的文件夹里右击-新建…

TS:如何判断联合类型变量的具体类型?

一 表示一个值可以是几种类型之一&#xff1a;联合类型 在TS中我们常会遇到这样一个问题。 一个变量&#xff0c;即可能是这种类型&#xff0c;也可能是那种类型&#xff0c;然后根据传入的类型的不同进行不同的操作。 比如下面这种情况&#xff1a; if (pet.name fish) {p…

三种灰狼优化算法(Grey Wolf Optimization)及仿真实验——附代码Matalb

目录 摘要&#xff1a; 灰狼算法原理&#xff1a; 灰狼算法流程&#xff1a; 改进的灰狼算法&#xff1a; 多目标的灰狼算法&#xff1a; 三种灰狼算法运行效果&#xff1a; &#xff08;1&#xff09;GWO &#xff08;2&#xff09;I-GWO &#xff08;3&#xff09;M…

Windows Server 2016 中文版、英文版下载 (updated May 2023)

Windows Server 2016 中文版、英文版下载 (updated May 2023) Windows Server 2016 Version 1607&#xff0c;2023 年 5 月更新 请访问原文链接&#xff1a;https://sysin.org/blog/windows-server-2016/&#xff0c;查看最新版。原创作品&#xff0c;转载请保留出处。 作者…

4.7 树的实现(上)

树 树&#xff08;Tree&#xff09;是n&#xff08;n≥0&#xff09;个节点的有限集合T&#xff0c;它满足两个条件 &#xff1a; 有且仅有一个特定的称为根&#xff08;Root&#xff09;的节点&#xff1b; 其余的节点可以分为m&#xff08;m≥0&#xff09;个互不相交的有…

电子企业WMS仓储管理系统解决方案

随着科技的飞速发展&#xff0c;电子制造行业对仓储管理系统的需求也越来越高。电子企业需要一种能够规划、执行和优化仓库货物流通的IT解决方案&#xff0c;以实现自动化操作和提高效率。本文将探讨电子企业WMS仓储管理系统解决方案&#xff0c;从需求分析、系统设计、实施与运…