0基础学习爬虫系列:网页内容爬取

news2024/9/21 19:57:01

1.背景

今天我们来实现,监控网站最新数据爬虫。 在信息爆炸的年代,能够有一个爬虫帮你,将你感兴趣的最新消息推送给你,能够帮你节约非常多时间,同时确保不会miss重要信息。

爬虫应用场景:

应用场景主要功能数据来源示例使用目的
搜索引擎优化 (SEO)分析关键词密度、外部链接质量等网站元数据、链接提升网站在搜索引擎中的排名
市场研究收集竞品信息、价格比较电商网站、行业报告制定更有效的市场策略
舆情监控监测社交媒体、新闻站点的评论微博、微信公众号、新闻网站及时响应市场变化,维护品牌形象
数据挖掘抓取结构化或非结构化数据各种在线资源为数据分析和机器学习提供数据支持
学术研究收集实验数据社交媒体、经济数据网站支持研究项目,如社会学、经济学等
电子商务监测商品信息、库存、价格、用户评价等电商平台动态调整库存及价格策略
内容聚合整合来自不同来源的内容新闻网站、博客提供一站式信息获取服务
广告投放收集用户浏览习惯用户浏览记录、社交媒体实现个性化广告推送
安全审计检测网站漏洞、未授权公开信息网站代码、配置文件防范安全风险
自动化测试模拟用户操作进行功能性和稳定性测试测试环境中的网站或应用保证产品质量

2.环境准备

1)通义千问 :https://tongyi.aliyun.com/qianwen
2)Python环境搭建:https://blog.csdn.net/qq_36918149/article/details/141833545?spm=1001.2014.3001.5501

3.步骤

1)怎么下手 ?让通义千问,告诉我们
在这里插入图片描述
2)准备目标url
用爬虫监控,四川最新招标公告:https://ggzyjy.sc.gov.cn/jyxx/002002/transactionInfo.html
在这里插入图片描述

3)获取目标数据的具体位置 ?
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
4)让ai 帮我们生成,爬虫脚本
在这里插入图片描述

> 我需要获取,目标url中,采购列表中Top 10 采购信息,字段包括:采购项目经名称、发布时间、招标公告链接
这是页面源码:view-source:https://ggzyjy.sc.gov.cn/jyxx/002002/transactionInfo.html
示例如下:
##源码:
<li>

<p class="clearfix">

<a class="l" target="_blank" href="/jyxx/002002/002002001/20240907/8a69cd7891ca47150191cb5b296c6da1.html">阿坝藏族羌族自治州交通运输服务中心购买电脑招标公告</a>

<span class="r fuInfoDate ">2024-09-07</span>

</p>

<span>来源:<i class="jessic" >四川政府采购网</i></span>

<span>业务类型:<i class="ywlx" data-value="002002001" ></i></span>

<span>信息类型:<i>采购公告</i></span>

</li>
##需要的信息:
###项目名:阿坝藏族羌族自治州交通运输服务中心购买电脑招标公告
###发布时间:2024-09-07
###招标公告链接:jyxx/002002/002002001/20240907/8a69cd7891ca47150191cb5b296c6da1.html

5)Python脚本import 报错,怎么处理 ?
在这里插入图片描述
6)直接让ai 给解决方案
在这里插入图片描述

7)teminal 执行这2命令,引入依赖包

需要引入依赖包
pip install requests
pip install beautifulsoup4
在这里插入图片描述
8)run 一遍ai 生成的Python脚本,已经能够从网页中提取出关键信息了
在这里插入图片描述
9)【进阶】怎么用交互页面展示出来? 让Ai ,帮我们生成代码
提示词:

这是页面源码:view-source:https://ggzyjy.sc.gov.cn/jyxx/002002/transactionInfo.html

示例如下:
##源码:
<li>

<p class="clearfix">

<a class="l" target="_blank" href="/jyxx/002002/002002001/20240907/8a69cd7891ca47150191cb5b296c6da1.html">阿坝藏族羌族自治州交通运输服务中心购买电脑招标公告</a>

<span class="r fuInfoDate ">2024-09-07</span>

</p>

<span>来源:<i class="jessic" >四川政府采购网</i></span>

<span>业务类型:<i class="ywlx" data-value="002002001" ></i></span>

<span>信息类型:<i>采购公告</i></span>

</li>

##需要的信息:
###项目名:阿坝藏族羌族自治州交通运输服务中心购买电脑招标公告
###发布时间:2024-09-07
###招标公告链接:jyxx/002002/002002001/20240907/8a69cd7891ca47150191cb5b296c6da1.html

请使用交互界面,输出最新的10条通知,每1分钟刷新一次最新数据,每条通知后面都都可以访问,采购公告,点击可以直接打开网页。 

交互页面格式要求:
1)内容左对齐
2)同一条招标公告 在同一行展示

Ai生成脚本及操作步骤:
在这里插入图片描述

10)安装插件 flask
在这里插入图片描述
11)执行Ai生成的脚本,并访问生成的url
在这里插入图片描述

在这里插入图片描述

4. 总结

以前要写一个爬虫,对于不熟悉Python新手而言,至少要1天时间。 今天我们实现的爬虫功能,从最初构思,到最终作品产出,Ai全程在为我们免费打工,而且提供的方案非常专业,也使得非计算机专业的朋友,可以通过自然语言完成编程,大大的降低了编程的门槛。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2113767.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Transformer从零详细解读

Transformer从零详细解读 一、从全局角度概况Transformer ​ 我们把TRM想象为一个黑盒&#xff0c;我们的任务是一个翻译任务&#xff0c;那么我们的输入是中文的“我爱你”&#xff0c;输入经过TRM得到的结果为英文的“I LOVE YOU” ​ 接下来我们对TRM进行细化&#xff0c;…

【Linux】萌新看过来!一篇文章带你走进Linux世界

&#x1f680;个人主页&#xff1a;奋斗的小羊 &#x1f680;所属专栏&#xff1a;Linux 很荣幸您能阅读我的文章&#xff0c;诚请评论指点&#xff0c;欢迎欢迎 ~ 目录 前言&#x1f4a5;1、初识Linux&#x1f4a5;1.1 什么是操作系统&#xff1f;&#x1f4a5;1.2 各种操作…

分享一个基于微信小程序的医院挂号就诊一体化平台uniapp医院辅助挂号应用小程序设计(源码、调试、LW、开题、PPT)

&#x1f495;&#x1f495;作者&#xff1a;计算机源码社 &#x1f495;&#x1f495;个人简介&#xff1a;本人 八年开发经验&#xff0c;擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等&#xff0c;大家有这一块的问题可以一起交流&…

SpringBoot学习(9)(springboot自动配置原理)(源码分析、面试题)

目录 一、引言 二、为啥学习自动配置原理&#xff1f; 三、自动配置 &#xff08;1&#xff09;基本概述 &#xff08;2&#xff09;学习回顾 四、自动配置——源码分析 &#xff08;1&#xff09;回顾学习 &#xff08;2&#xff09;回到源码学习 &#xff08;1&#xff09;注…

文件系统 文件描述符fd 重定向原理 缓冲区

文章目录 基础的文件操作文件的系统调用接口位图向文件中写入标记位选项总结&#xff1a;open的返回值文件描述符fdfd012与硬件的关系read && stat 重定向dup2 缓冲区的理解经典的例子 基础的文件操作 引子&#xff1a; #include <stdio.h>int main() {FILE* f…

[Linux]:环境变量与进程地址空间

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ &#x1f388;&#x1f388;养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; 所属专栏&#xff1a;Linux学习 贝蒂的主页&#xff1a;Betty’s blog 1. 环境变量 1.1 概念 **环境变量(environment variables)**一般是指在操作…

在Unity环境中使用UTF-8编码

为什么要讨论这个问题 为了避免乱码和更好的跨平台 我刚开始开发时是使用VS开发,Unity自身默认使用UTF-8 without BOM格式,但是在Unity中创建一个脚本,使用VS打开,VS自身默认使用GB2312(它应该是对应了你电脑的window版本默认选取了国标编码,或者是因为一些其他的原因)读取脚本…

自己部门日均1000+告警?如何减少90%无效告警?

目录标题 一、告警的类别1.技术告警1.1基础设施告警1.2基本服务告警 2.业务告警3.监控大盘告警 二、为何需要告警治理&#xff1f;三、治理迫在眉睫1.1告警治理策略1.2核心监控告警点1.3避免告警反模式1.4告警规约制定1.5自动化处理 一、告警的类别 一般的告警分为以下几点&am…

ISP面试准备2

系列文章目录 文章目录 系列文章目录前言一.如何评价图像质量&#xff1f;二.引起图像噪声的原因三. ISP3.1 ISP Pipeline主要模块3.1.1坏点校正&#xff08;Defect Pixel Correction, DPC&#xff09;3.1.2黑电平校正&#xff08;Black Level Correction, BLC&#xff09;3.1.…

面试官:synchronized的锁升级过程是怎样的?

大家好&#xff0c;我是大明哥&#xff0c;一个专注「死磕 Java」系列创作的硬核程序员。 回答 在 JDK 1.6之前&#xff0c;synchronized 是一个重量级、效率比较低下的锁&#xff0c;但是在JDK 1.6后&#xff0c;JVM 为了提高锁的获取与释放效&#xff0c;,对 synchronized 进…

基于JSP的实验室管理系统

你好呀&#xff0c;我是计算机学姐码农小野&#xff01;如果有相关需求&#xff0c;可以私信联系我。 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;JSP技术 Spring Boot框架 工具&#xff1a;IDEA/Eclipse、Navicat、Tomcat 系统展示 首页 用户个…

自然语言处理系列六十二》神经网络算法》MLP多层感知机算法

注&#xff1a;此文章内容均节选自充电了么创始人&#xff0c;CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》&#xff08;人工智能科学与技术丛书&#xff09;【陈敬雷编著】【清华大学出版社】 文章目录 自然语言处理系列六十二神经网络算法》MLP多层感知机算法CNN卷积…

【Python篇】PyQt5 超详细教程——由入门到精通(序篇)

文章目录 PyQt5 超详细入门级教程前言序篇&#xff1a;1-3部分&#xff1a;PyQt5基础与常用控件第1部分&#xff1a;初识 PyQt5 和安装1.1 什么是 PyQt5&#xff1f;1.2 在 PyCharm 中安装 PyQt51.3 在 PyCharm 中编写第一个 PyQt5 应用程序1.4 代码详细解释1.5 在 PyCharm 中运…

电子电气架构---私有总线通信和诊断规则

电子电气架构—私有总线通信和诊断规则 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自…

最新版 | SpringBoot3如何自定义starter(面试常考)

文章目录 一、自定义starter介绍二、自定义Starter的好处及优势三、自定义starter应用场景四、自定义starter1、创建autoconfigure的maven工程2、创建starter的maven工程3、在autoconfigure的pom文件中引入MyBatis的所需依赖4、编写自动配置类MyBatisAutoConfiguration5、编写i…

红旗EQM换电连接器哪家生产

红旗EQM换电连接器概述 红旗EQM换电连接器是针对红旗品牌电动汽车设计的一种快速更换电池的装置。它允许用户在短时间内完成电池的更换&#xff0c;从而提高电动车的使用效率和便捷性。接下来&#xff0c;我们将详细探讨红旗EQM换电连接器的相关操作步骤、所需工具以及最新的相…

[Git使用] 实战技巧

文章目录 1. 理解分叉点2. Rebase3. FixUp4. Revert1. 理解分叉点 合并分支的时候会产生分叉点 比如: 仓库有dev和feature两个分支; 操作1:dev远程新建一个文件操作2:feature提交第一次操作3:远程执行把feture合并到dev分支在可视化界面可以看到 远程Dev分支的可视化: …

MySQL 锁分类有哪些?一文带你详解!!

MySQL 锁 全局锁全局锁的应用场景全局锁的缺点 表级锁表锁元数据&#xff08;MDL&#xff09;锁MDL 锁的问题 意向锁AUTO-INC 锁 行级锁记录锁&#xff08;Record Lock&#xff09;间隙锁&#xff08;Gap Lock&#xff09;临键锁&#xff08;Next-Key Lock&#xff09;插入意向…

安卓开发板_联发科MTK开发评估套件串口调试

串口调试 如果正在进行lk(little kernel ) 或内核开发&#xff0c;USB 串口适配器&#xff08; USB 转串口 TTL 适配器的简称&#xff09;对于检查系统启动日志非常有用&#xff0c;特别是在没有图形桌面显示的情况下。 1.选购适配器 常用的许多 USB 转串口的适配器&#xf…

宝塔部署Vue项目解决跨域问题

一、前言 使用宝塔面板部署前端后端项目相比用命令行进行部署要简单许多&#xff0c;宝塔的可视化操作对那些对Linux不熟悉的人很友好。使用宝塔部署SpringBoot后端项目和Vue前端项目的方法如下&#xff1a; 1、视频教程 2、文字教程1 3、文字教程2 以上的教程完全可以按照步骤…