简单的爬虫代码爬（豆瓣电影）

news2026/2/12 6:39:36

路漫漫其修远兮，吾将上下而求索

这次写一个最简单的python爬虫代码，也是大多教程第一次爬取的，代码里面有个别的简单介绍，希望能加深您对python爬虫的理解。

本次爬取两个网页数据

一爬取的网站豆瓣电影

爬取网页中的（肖申克的救赎 1994 评分是： 9.7 共 911165人评价）

（电影名，年份，评分，评价人数）

代码

import csv
import re,requests
#拿到源代码 requests，通过re获取想要的数据，csv写入操作
url='https://movie.douban.com/top250'
h={
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.62'
}
r=requests.get(url,headers=h);r.encoding='utf-8'

yuanma=r.text# 拿到网页源代码
#解析数据
obj=re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>'
               r'.*?<p class="".*?<br>(?P<year>.*?)&nbsp.*?property="v:average".(?P<pf>.*?)</span>'
               r'.*?<span>.(?P<pl>.*?)</span>',re.S)
#开始匹配
r=obj.finditer(yuanma)
f=open('shuju.csv',mode='w')#打开一个文件
csvs=csv.writer(f)
for i in r:
  print(i.group("name"),i.group("year").strip(),'评分是：',i.group('pf'),'共',i.group('pl'))#strip()去掉空白
print("完成！")

实验效果：

二爬取保定学院官网网页的href（链接）

代码

#爬取保定学院官网网页的href（链接）
import re,requests
from bs4 import BeautifulSoup
#拿到源代码 requests，通过re获取想要的数据，csv写入操作
url="https://www.bdu.edu.cn/"
r=requests.get(url);r.encoding='utf-8'
yuanma=r.text# 拿到网页源代码
bs=BeautifulSoup(yuanma)
cha=bs.findAll('a')
for i in cha:
  if 'href' in i.attrs:
      #print(i)
      print(i.attrs['href'],'-',i.text)
r.close()

实验效果：

本文章只是单纯的从技术角度介绍使用python代码搜索网页数据，读者要正常使用技术。

希望对您有所帮助。

最后，谢谢您的观看

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/974315.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【无标题】can中继器 can隔离器本安型CAN中继器在无轨胶轮车电控箱和防爆变频器中的应用

【无标题】can中继器 can隔离器本安型CAN中继器在无轨胶轮车电控箱和防爆变频器中的应用

随着科学技术的不断发展和社会的不断进步,煤炭资源之于人类显得更加的重要,近年来,煤矿企业进一步发展,为我国的经济带来巨大的好处。在煤矿的运输过程中,无轨式脚轮车的应用是非常广泛的,它具有灵活、快速、激动、安全等特点,极大的提高了煤炭的运输效率。目前,在无轨胶轮车的…

阅读更多...

问道管理：存款利率多次调降后，为何银行存款成本率不降反升？

问道管理：存款利率多次调降后，为何银行存款成本率不降反升？

存款本钱是银行最首要的资金本钱，2022年以来，人民币存款利率阅历了5次会集下调，但上市银行发布的2023年半年报显现，存款均匀本钱率不降反升。 2023年上半年，42家A股上市银行存款均匀本钱率均值为2.18%，较2…

阅读更多...

服务端请求伪造(SSRF)及漏洞复现

服务端请求伪造(SSRF)及漏洞复现

文章目录渗透测试漏洞原理服务端请求伪造1. SSRF 概述1.1 SSRF 场景1.1.1 PHP 实现 1.2 SSRF 原理1.3 SSRF 危害 2. SSRF 攻防2.1 SSRF 利用2.1.1 文件访问2.1.2 端口扫描2.1.3 读取本地文件2.1.4 内网应用指纹识别2.1.5 攻击内网Web应用 2.2 SSRF 经典案例2.2.1 访问页面2.2.…

阅读更多...

QLoRA：量化LLM的高效微调策略与实践

QLoRA：量化LLM的高效微调策略与实践

如果你对这篇文章感兴趣，而且你想要了解更多关于AI领域的实战技巧，可以关注「技术狂潮AI」公众号。在这里，你可以看到最新最热的AIGC领域的干货文章和案例实战教程。一、前言在大型语言模型（LLM）领域，微…

阅读更多...

Android大厂需要刷的（999道）面试题

Android大厂需要刷的（999道）面试题

想必大家都在为今年的金九银十做准备，今年也是最为艰难的一年。作为程序员从未感觉到如此艰难，身边不是被辞退就是找不到工作。先不说2023年应届生毕业即失业，作为开发15年的老Android程序员，现在也在和300个人挣一个岗位。肉少…

阅读更多...

MySQL大数据量高速迁移，500GB只需1个小时

MySQL大数据量高速迁移，500GB只需1个小时

在上篇「快、准、稳的实现亿级别MySQL大表迁移」的文章中，介绍了NineData在单张大表场景下的迁移性能和优势。但在大部分场景中，可能遇到的是多张表构成的大数据量场景下的数据搬迁问题。因为搬迁数据量较大，迁移的时长、稳定性及准确性都受到…

阅读更多...

Maven编译java及解决程序包org.apache.logging.log4j不存在问题

Maven编译java及解决程序包org.apache.logging.log4j不存在问题

1、首先新建一个文件夹，比如hello Hello里新建pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi…

阅读更多...

Qt 5.15编译（MinGW）及集成Crypto++ 8.7.0笔记

Qt 5.15编译（MinGW）及集成Crypto++ 8.7.0笔记

一、背景为使用AES加密库（AES/CBC加解密），选用Crypto 库（官网）。最新Crypto C库依次为：8.8.0版本（2023-6-25）、8.7.0（2022-8-7）和8.6.0（202…

阅读更多...

电表数据采集红外抄表加密认证

电表数据采集红外抄表加密认证

红外操作前需要进行红外认证，打开操作权限。认证不通过，只能读出表号、通信地址、备案号、当前日期、当前时间、当前电能、当前剩余金额、红外认证查询命令， 其它信息不允许读出，所有信息均不允许设置。停电唤醒情况下&#xff0…

阅读更多...

小白学go基础04-命名惯例对标识符进行命名

小白学go基础04-命名惯例对标识符进行命名

计算机科学中只有两件难事：缓存失效和命名。命名是编程语言的要求，但是好的命名却是为了提高程序的可读性和可维护性。好的命名是什么样子的呢？Go语言的贡献者和布道师Dave Cheney给出了一个说法：“一个好笑话，如果你…

阅读更多...

elasticsearch的数据聚合

elasticsearch的数据聚合

聚合可以让我们极其方便的实现对数据的统计、分析、运算。例如： 什么品牌的手机最受欢迎？ 这些手机的平均价格、最高价格、最低价格？ 这些手机每月的销售情况如何？ 实现这些统计功能的比数据库的sql要方便的多，而且…

阅读更多...

文件夹改名利器！批量随机重命名并自定义长度

文件夹改名利器！批量随机重命名并自定义长度

你是否曾经为如何快速有效地重命名多个文件夹而感到困扰？我们为您带来了一款强大的文件夹改名工具，让您轻松实现批量随机重命名，并自定义长度，让您的文件夹管理更加高效便捷首先第一步，我们要打开文件批量改名高手并登…

阅读更多...

RLHF不再需要人类，AI 实现标注自循环

RLHF不再需要人类，AI 实现标注自循环

从人类反馈中强化学习（RLHF）在使大型语言模型（LLMs）与人类偏好保持一致方面非常有效，但收集高质量的人类偏好标签是一个关键瓶颈。我们进行了RLHF与来自AI反馈的强化学习（RLAIF）的头对头比较 - …

阅读更多...

Redis基础知识（三）：缓存穿透、缓存击穿、缓存雪崩

Redis基础知识（三）：缓存穿透、缓存击穿、缓存雪崩

文章目录一、缓存穿透出现过程解决方法二、缓存击穿出现过程解决方法三、缓存雪崩出现过程解决方法我们在项目中大量使用Redis承接海量数据的冲击，但是使用过程中也会遇到一些特殊的情况，这个就是缓存击穿、缓存穿透、缓存雪崩。一、缓存穿透缓存…

阅读更多...

ApachePulsar原理解析与应用实践（学习笔记一）

ApachePulsar原理解析与应用实践（学习笔记一）

随着时代的发展，软件设计的理念也在不断发展，从单体服务、面向服务、微服务，发展到云原生以及无服务。其演变的过程是一个能力不断增强，领域边界不断微分细化的过程。比如无服务就是将函数作为服务，就类似dns模式的服务…

阅读更多...

RK3568开发笔记（六）：开发板烧写ubuntu固件（支持mipi屏镜像+支持hdmi屏镜像）

RK3568开发笔记（六）：开发板烧写ubuntu固件（支持mipi屏镜像+支持hdmi屏镜像）

若该文为原创文章，转载请注明原文出处本文章博客地址：https://hpzwl.blog.csdn.net/article/details/132686096 红胖子网络科技博文大全：开发技术集合（包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软硬…

阅读更多...

【Python】pytorch，CUDA是否可用，查看显卡显存剩余容量

【Python】pytorch，CUDA是否可用，查看显卡显存剩余容量

CUDA可用，共有 1 个GPU设备可用。当前使用的GPU设备索引：0 当前使用的GPU设备名称：NVIDIA T1000 GPU显存总量：4.00 GB 已使用的GPU显存：0.00 GB 剩余GPU显存：4.00 GB PyTorch版本：1.10.1cu102 …

阅读更多...

webpack实战：某网站JS逆向分析

webpack实战：某网站JS逆向分析

文章目录 1. 写在前面2. 抓包分析3. 扣加密代码 1. 写在前面好的逆向能够帮助我们了解加密实现，然后根据加密方式（md5,base64,res,des,rsa…)还原加密算法的过程。可以看看我之前的这篇文章：快速定位查找加密方式特征与技巧目标站点&#…

阅读更多...

Qt应用开发(基础篇)——向导对话框 QWizard

Qt应用开发(基础篇)——向导对话框 QWizard

一、前言 QWizard类继承于QDialog，为有向导界面需求的应用环境提供了一个框架。对话框窗口 QDialog QWizard向导对话框是一个拥有队列界面的特殊对话框，向导的目的是引导用户一步一步的完成预设的流程。向导常用于软件安装界面向导、硬件线路安装向导、…

阅读更多...

【Linux】Ubuntu20.04版本配置pytorch环境2023.09.05【教程】

【Linux】Ubuntu20.04版本配置pytorch环境2023.09.05【教程】

【Linux】Ubuntu20.04版本配置pytorch环境2023.09.05【教程】文章目录【Linux】Ubuntu20.04版本配置pytorch环境2023.09.05【教程】一、安装Anaconda虚拟环境管理器二、创建虚拟环境并激活三、安装Pytorch四、测试pytorchReference 一、安装Anaconda虚拟环境管理器首先进入…

阅读更多...

推荐文章

最新文章