如何用Python写个网页爬取程序

news2024/11/15 13:35:20

如何用Python写个网页爬取程序

  • 准备开发工具
  • 安装Python
  • Python安装pip
  • Pip安装爬取插件
  • 准备好网页地址
  • 代码实现

准备开发工具

额,作者用的是vscode。具体怎么安装自行百度哈,这个都不会建议就不要学爬取了。
不忍心藏着也,给你个方法吧

  • vscode下载
  • windows如何安装vscode

安装Python

怎么安装?这个不会建议也不要学爬取了。算了出于善良,给你们指条明路。

  • windows如何下载Python
  • 如何配置Python环境变量
  • vscode如何配置Python开发环境

Python安装pip

在开发工具配置好py环境后直接上代码就完事了。

 python.exe -m pip install --upgrade pip //py 更新pip
 python.exe -m pip install  //py 安装pip
 py -m pip install  //这是一个缩写格式

Pip安装爬取插件

为了快速讲解,直接上代码吧

pip install requests //安装请求插件
pip install beautifulsoup4  //直接抽取图片内容的插件

准备好网页地址

知道你们想偷懒,送你们了,不谢

https://www.vcg.com/creative/

代码实现

我们知道网页中图片的格式一般是

<img src="https://xxx.com/xx.jpg/img/png/webp">

但很不幸有些网站的内容并非如此,我们来看下如下代码爬取的内容

import requests
url = "https://www.vcg.com/creative/"
response = requests.get(url)
if response.status_code == 200:
    content = response.content.decode("utf-8")
    print(content)
else:
    print("Failed to retrieve content from", url)

在这里插入图片描述
网页中图片居然是这种格式显示的

<source data-srcset="//alifei01.cfp.cn/cms/image/image/90bdf6ac7070416ca036f869617512f1.jpg?x-oss-process=image/format,jpg" type="image/jpg"/>

针对上诉该如何是好呢?
这个就要用到我们上诉安装的beautifulsoup4 抽取图片连接的工具,来看看怎么用吧。先给你们看下效果,不懂再看下方解释
在这里插入图片描述

代码解释

import requests
from bs4 import BeautifulSoup
url = "https://www.vcg.com/creative/"
response = requests.get(url)
if response.status_code == 200:
# 获取网页内容
    html = response.content
    # 解析html格式网页,可以是其他格式
    soup = BeautifulSoup(html, 'html.parser')
    # 根据图片标签获取标签属性内容。正常情况都是<img src="">这种,而我们的是<source data-srcset="">
    #img_tags = soup.find_all('img')
    img_tags = soup.find_all('source')
    for img in img_tags:
        print(img['src'])
        # print(img['data-srcset'])
else:
    print("Failed to retrieve content from", url)

当然通过上诉代码我们可以爬取不同的网页格式内容。以及多种格式的标签图片,我们取个并集就好了。

爬取的内容

//alifei02.cfp.cn/cms/image/image/58eab40df6b7477781340130f124724d.jpg?x-oss-process=image/format,webp
//alifei02.cfp.cn/cms/image/image/58eab40df6b7477781340130f124724d.jpg?x-oss-process=image/format,jpg
//alifei03.cfp.cn/cms/image/image/247d928e210c42f5897d2ca9d325a8ad.jpg?x-oss-process=image/format,webp
//alifei03.cfp.cn/cms/image/image/247d928e210c42f5897d2ca9d325a8ad.jpg?x-oss-process=image/format,jpg
//alifei04.cfp.cn/cms/image/image/17f075e1c19f40cfaf3b3f7e16df211e.jpg?x-oss-process=image/format,webp
//alifei04.cfp.cn/cms/image/image/17f075e1c19f40cfaf3b3f7e16df211e.jpg?x-oss-process=image/format,jpg
//alifei05.cfp.cn/cms/image/image/0060aa0e0c0f45fdbb4127167bff2a34.jpg?x-oss-process=image/format,webp
//alifei05.cfp.cn/cms/image/image/0060aa0e0c0f45fdbb4127167bff2a34.jpg?x-oss-process=image/format,jpg
//alifei01.cfp.cn/cms/image/image/b437cf301cd2488e8c9a9c6082605bfa.jpg?x-oss-process=image/format,webp
//alifei01.cfp.cn/cms/image/image/b437cf301cd2488e8c9a9c6082605bfa.jpg?x-oss-process=image/format,jpg
//alifei02.cfp.cn/cms/image/image/7a437c929f2e43a9bc808054f27c984a.jpg?x-oss-process=image/format,webp
//alifei02.cfp.cn/cms/image/image/7a437c929f2e43a9bc808054f27c984a.jpg?x-oss-process=image/format,jpg
//alifei03.cfp.cn/cms/image/image/23b3a51cd24547a7b9573f39ebb88d39.jpg?x-oss-process=image/format,webp
//alifei03.cfp.cn/cms/image/image/23b3a51cd24547a7b9573f39ebb88d39.jpg?x-oss-process=image/format,jpg
//alifei01.cfp.cn/cms/image/image/4b5bb2f1faff4b148e92225adbf696fe.jpg?x-oss-process=image/format,webp
//alifei01.cfp.cn/cms/image/image/4b5bb2f1faff4b148e92225adbf696fe.jpg?x-oss-process=image/format,jpg
//alifei02.cfp.cn/cms/image/image/756a48a633c54bf89de525cf28ed411c.jpg?x-oss-process=image/format,webp
//alifei02.cfp.cn/cms/image/image/756a48a633c54bf89de525cf28ed411c.jpg?x-oss-process=image/format,jpg

假设我们取第一条

//alifei02.cfp.cn/cms/image/image/58eab40df6b7477781340130f124724d.jpg?x-oss-process=image/format,webp

这个在网页怎么访问??
很简单做个字符串的截取拼接就好了,去掉// 拼接https 去掉参数。如下

https://alifei02.cfp.cn/cms/image/image/58eab40df6b7477781340130f124724d.jpg

假设我们循环存入数据库。。。【奸笑且猥琐】
可是版权怎么办。。。【开始垂头丧气】
不管了,为了理想。。。。。。。。。。。。。。。
。。。。。。。。。。。。。。。。。。。。。。。
。。。。。。。。。。。。。。。。。。。。。。。
。。。。。。。。。。。。。。。。。。。。。。。
。。。。。。。。。。。。。。。。。。。。。。。
。。。。。。。。。。。。。。。。。。。。。。。
也不可以做违法的事。。。。。。。。。。。。。。
自己用用就好,除非人家给你版权了,那我们大可放开手脚的干

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/605688.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023年第六届广西大学生程序设计竞赛(热身赛)题解

题目均来自去年的省赛原题 参考资料 知乎&#xff1a;第五届GXCPC广西大学生程序设计竞赛 部分题解&#xff08;无CDK&#xff09; A题送分题&#xff0c;跳过 B 位运算lowbit函数 题目大意&#xff1a; 对一个数&#xff08;二进制&#xff09;进行操作&#xff0c;询问使其…

C++11/C++14中constexpr的使用

常量表达式(const expression)是指值不会改变并且在编译过程中就能得到计算结果的表达式。字面值属于常量表达式&#xff0c;用常量表达式初始化的const对象也是常量表达式。 只要有可能使用constexpr&#xff0c;就使用它。 C11中constexpr的使用&#xff1a; constexpr是C11中…

MKS SERVO4257D 闭环步进电机_系列7 MODBUS-RTU通讯示例

第1部分 产品介绍 MKS SERVO 28D/35D/42D/57D 系列闭环步进电机是创客基地为满足市场需求而自主研发的一款产品。具备脉冲接口和RS485/CAN串行接口&#xff0c;支持MODBUS-RTU通讯协议&#xff0c;内置高效FOC矢量算法&#xff0c;采用高精度编码器&#xff0c;通过位置反馈&a…

论坛项目学习记录【预备篇2】

论坛项目学习记录【预备篇2】 1. 什么是依赖注入2. 怎么使用依赖注入依赖注入注意事项 3.组件扫描情况下依赖注入的实现4.Resource注解的使用与Autowired的区别5.SpringMvcSpringMvc执行流程 1. 什么是依赖注入 就是在Spring容器内容将各个对象的依赖关系建立好的操作&#xf…

持续集成和持续交付:构建高效的软件交付流水线

在现代软件开发中&#xff0c;持续集成&#xff08;Continuous Integration&#xff09;和持续交付&#xff08;Continuous Delivery&#xff09;已成为构建高效、可靠软件交付流水线的关键实践。通过自动化和频繁地集成代码、构建、测试和部署&#xff0c;团队能够更快地交付高…

Unity--使用Cinemachine Confiner设置摄像机边界

使用Cinemachine Confiner设置摄像机边界 前提提要&#xff1a;在做这个功能前需要&#xff1a; ​ main camera ​ 另外一个相机 思路&#xff1a;创建一个对象绑定Polygon Collider2D 边界。然后在另外一个相机Cinemachine Confiner上绑定他 ​ 绑定边界 记得点这个&#…

2023年京东618全品类预售数据查询

这一期主要分享今年618京东数码产品的预售数据&#xff0c;包括笔记本电脑、投影机、微单相机三大品类。 -笔记本电脑- 今年618&#xff0c;笔记本电脑在京东累计预售量达到73万件&#xff0c;预售额达到41亿元。预售期间&#xff0c;微单相机品类均价在5661元左右。期间&#…

软件测试实验:链接测试

目录 前言实验目的实验环境实验内容实验步骤实验过程总结 前言 本实验的目的是学习和掌握软件测试中的链接测试方法和技巧。链接测试是指对Web应用系统中的各种链接进行检查和验证&#xff0c;以确保它们能正确地指向预期的目标&#xff0c;不出现错误链接、空链接、死链接或孤…

简单尝试:ChatGLM-6B + Stable diffusion管道连接

核心思想是&#xff1a; 1. 抛去算法设计方面&#xff0c;仅从工程角度考虑的话&#xff0c;Stable diffusion的潜力挖掘几乎完全受输入文字影响。 2. BLIP2所代表的一类多模态模型走的路线是"扩展赋能LLM模型"&#xff0c;思路简单清晰&#xff0c;收益明显。LLM …

电池状态估计 | Matlab实现利用卡尔曼滤波器估计电池充电状态

文章目录 效果一览文章概述研究内容程序设计参考资料效果一览 文章概述 电池状态估计 | Matlab实现利用卡尔曼滤波器估计电池充电状态 研究内容 目前,常用的电池模型有:数

外包干了5年,女朋友嫌弃我,跑了。。。

先说一下自己的情况。大专生&#xff0c;17年通过校招进入湖南某软件公司&#xff0c;干了接近5年的测试&#xff0c;今年年上旬&#xff0c;感觉自己不能够在这样下去了&#xff0c;长时间呆在一个舒适的环境会让一个人堕落&#xff01;而我已经在一个企业干了5年&#xff0c;…

一文带你了解MySQL之约束

在SQL标准中&#xff0c;一共规定了6种不同的约束&#xff0c;包括非空约束&#xff0c;唯一约束和检查约束等&#xff0c;而在MySQL中是不支持检查约束的&#xff0c;所以这篇文章先对其余5种约束做一个详解和练习。 文章目录 1. 约束的概念2. 约束的分类3. 非空约束4. 唯一约…

大数据:pyspark模块,spark core的RDD,RDD是弹性分布式数据抽象对象,RDD五大特性,wordcount案例展示RDD

大数据&#xff1a;pyspark模块 2022找工作是学历、能力和运气的超强结合体&#xff0c;遇到寒冬&#xff0c;大厂不招人&#xff0c;可能很多算法学生都得去找开发&#xff0c;测开 测开的话&#xff0c;你就得学数据库&#xff0c;sql&#xff0c;oracle&#xff0c;尤其sql…

English Learning - L3 作业打卡 Lesson4 Day29 2023.6.2 周五

English Learning - L3 作业打卡 Lesson4 Day29 2023.6.2 周五 引言&#x1f349;句1: I once made a big mistake at the office and felt foolish.成分划分弱读连读爆破语调 &#x1f349;句2: I had egg on my face.成分划分弱读语调 &#x1f349;句3: Over the weekend, m…

Java企业级信息系统开发学习笔记13 Spring Boot(使用maven方式构建Spring Boot项目)

文章目录 一、学习目标二、Spring Boot框架概述三、使用maven方式构建Spring Boot项目&#xff08;一&#xff09;创建Maven项目&#xff08;二&#xff09;添加依赖&#xff08;三&#xff09;创建入口类&#xff08;四&#xff09;创建控制器&#xff08;五&#xff09;运行入…

防火墙之服务器负载均衡

防火墙之服务器负载均衡 原理概述&#xff1a; 防火墙&#xff08;英语&#xff1a;Firewall&#xff09;技术是通过有机结合各类用于安全管理与筛选的软件和硬件设备&#xff0c;帮助计算机网络于其内、外网之间构建一道相对隔绝的保护屏障&#xff0c;以保护用户资料与信息安…

C语言---操作符详解

1、操作符分类 算术操作符 移位操作符 位操作符 赋值操作符 单目操作符 关系操作符 逻辑操作符 条件操作符 逗号操作符 下标引用、函数调用和结构成员。 2、算数操作符 - * / %// 7 / 2 ----->3 // 7 % 2 ----->1//那如果想要打印…

Java程序设计入门教程--类的创建过程

构造方法 在Java的每个类中都有一种特殊的成员方法&#xff0c;它的方法名和类名是一致的。在创建对象时&#xff0c;调用这种特殊方法对成员变量进行初始化&#xff0c;这种方法称为构造方法。 注意 创建构造方法与创建成员方法的格式相同&#xff0c;但要注意以下几点&#…

3GPP R16 HST

3GPP R16高铁场景为了能够支持最高3.6GHz载波频率以及最高500km/h的速度&#xff0c;提出了增强RRM要求和终端解调能力要求。 在增强RRM要求的维度&#xff0c;对intra-RAT和inter-RAT测量提出了新的要求。其中&#xff0c;intra-RAT测量包括NR小区重选要求、NR小区识别要求、波…

大数据:hadoop spark,spark特点,功能,架构,模块,角色

大数据&#xff1a;hadoop spark 2022找工作是学历、能力和运气的超强结合体&#xff0c;遇到寒冬&#xff0c;大厂不招人&#xff0c;可能很多算法学生都得去找开发&#xff0c;测开 测开的话&#xff0c;你就得学数据库&#xff0c;sql&#xff0c;oracle&#xff0c;尤其sq…