最简单的爬虫!只需要粘贴你要爬虫的网址

news2025/1/18 17:10:23

依赖

必须按照这个库,爬虫必备!

pip install requests

四行代码

import get
import save
spider_text = get.html("https://www.baidu.com/")
save.file(spider_text)

使用

更改 get.html() 中的参数,改成你想要爬取的网站的地址!

原理

get 和 set 被我做成模块,然后整个主体代码就简洁起来!

只需要调用 get 模块中的 html 函数,就能获取改网页中的 HTML 代码!

保存文件位置

默认保存路径为当前文件夹下的 output 文件夹

附录

工程文件目录:
在这里插入图片描述

get 模块源码:

import requests

def html(spider_url):
    """ 爬取网页文本内容
        :param spider_url 要爬取的网页
        :return 返回文本
    """
    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                      "Chrome/106.0.0.0 Safari/537.36 Edg/106.0.1370.42 "
    }

    response = requests.get(spider_url, headers=header)

    # 是否爬取成功
    response.raise_for_status()

    # 保证编码
    response.encoding = response.apparent_encoding

    return response.text

def hello(): 
    print("Hello get.py")

save 模块源码:

import random
import time
import os

"""
    本模块默认保存位置: 当前文件夹下的 output 
"""

# 默认输出路径
output_dir = "./output/"

def random_filename():
    """
        随机文件名
        :return 返回文件名
    """
    filename = str(time.time())
    return filename.replace(".","")

def check():
    """ output 文件夹是否被创建 """
    if os.path.exists(output_dir) == False:
        os.system("mkdir output")


def file(saved_text, filename="", filetype=".txt"):
    """
        保存文件, 默认保存为记事本格式
        :param saved_text 要保存的文本
        :param filename 文件名
        :param filetype 文件类型
    """
    check()

    if filename == "":
        filename = random_filename()    

    # 保存文件路径拼接
    save_path = output_dir + filename + filetype

    with open(save_path, 'w', encoding="utf-8") as f:
        f.write(saved_text)


def html(saved_text, filename=""):
    """
    保存网页文件到本地
    :param saved_text 要保存的网页文本
    """ 
    file(saved_text, filename, filetype=".html")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/943897.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何打造创新文化虚拟展厅?一文了解虚拟展厅优势

引言: 时光荏苒,科技在不断进步,创新也不再局限于产品和服务,而是深刻融入各行业的方方面面。在这个充满机遇与挑战的时代,创新文化虚拟展厅应运而生,成为展示创新实力、推动文化传承的独特方式。 一&…

数字孪生技术:智能化引领产业变革

数字孪生作为一项创新性技术,正逐渐引发全球范围内的广泛关注。它不仅仅是一种模拟或仿真工具,更是一种能够深刻影响人类生活和产业的前沿技术。数字孪生的终极价值在于为现实世界带来了前所未有的智能化、精准化和高效化,以及对未来可持续发…

42、基于51单片机的蓝牙智能手环系统(全套资料)

编号:42 基于51单片机的蓝牙智能手环系统 功能描述: 本设计由STC89C52单片机最小系统ADXL345三轴加速传感器模块DS1302时钟模块DS18B20温度传感器模块Pulse Sensor心率采集模块BT06蓝牙模块LCD1602显示模块键盘模块组成 1、采用STC89C52单片机为主控制…

Leetcode Top 100 Liked Questions(序号75~104)

75. Sort Colors 题意&#xff1a;红白蓝的颜色排序&#xff0c;使得相同的颜色放在一起&#xff0c;不要用排序 我的思路 哈希 代码 Runtime 4 ms Beats 28.23% Memory 8.3 MB Beats 9.95% class Solution { public:void sortColors(vector<int>& nums) {vector…

Ping32客户端安装注册

登录Ping32&#xff0c;进入主界面 回到“开始”界面 在桌面会生成客户端安装程序

EOCR电机保护器MODBUS通讯的使用

在工厂自动化中&#xff0c; 数据连接是必不可少的&#xff0c; 尤其是在工业4.0概念不断扩大其覆盖范围的今天。而通过EOCR的MODBUS通讯&#xff0c;用户可将电动机的运行状态、运行电流、故障原因及时间等信息传输至上位机中&#xff0c;以方便用户实时监测电动机的状态&…

《Linux多线程服务端编程》读书笔记(一)

线程安全 一个线程安全的类应该满足下面三个条件 多个线程同时访问&#xff0c;其表现出正确的行为无论操作系统如何调度这些线程&#xff0c;无论这些线程的执行顺序如何交织调用端代码无需额外的同步或其他协调动作 对象的线程安全 对象构造要做到线程安全&#xff0c;唯…

弹幕引擎使用教学

欢迎阅读 弹幕引擎 / 弹幕会模板 使用教学&#xff01; 不知道您是否听说过“弹幕游戏”&#xff0c;Scratch 闯关游戏作品&#xff1a;东方虹魔馆 如果听说过&#xff0c;那就太好啦&#xff01;您很有可能已经对“弹幕”甚至“符卡”有了认识基础。没有也不要紧&#xff0c;您…

智能化新十年,“全栈智能”定义行业“Copilot智能助手”

“智能化转型是未来十年中国企业穿越经济周期的利器”&#xff0c;这是联想集团执行副总裁兼中国区总裁刘军在去年联想创新科技大会上做出的判断&#xff0c;而2023年正值第四次工业革命第二个十年的开端&#xff0c;智能化是第四次工业革命的主题。2023年初&#xff0c;基于谷…

红盟云卡系统v1.1.17虚拟商品在线售卖平台源码

红盟云卡系统是一款基于PHPMySQL开发的虚拟商品在线售卖平台 v1.1.17.20230627 增加强制登录插件 增加QQ微信防红插件 增加首页弹窗插件 增加鱼儿游背景特效插件 官方微信支付插件增加jsapi类型 后台订单列表增加下单必填项字段显示 修复分站个人中心开通分站报错的问题 修复提…

FAST协议详解3 可null(空)类型

一、概述 所谓可null、可空&#xff0c;其实是一个特性的两个方面&#xff0c;某些情况下&#xff0c;我们不需要传递某个字段的值&#xff0c;则可以将该字段“空”起来&#xff0c;不赋值&#xff0c;则接收方在收到该字段时会自动解析为null值。所以空是对于发送方而言&…

控制各种开环伺服阀放大器

控制不带电气位置反馈模块式伺服阀开环控制&#xff0c;最大电流10mA至1000mA范围可选&#xff1b; 常规可选电流档位&#xff1a;10mA、15mA、20mA、40mA、100mA、300mA等&#xff1b; 前面板电位器或者上位机精细调整零位及增益。 颤振频率以及颤振幅度可选。 快速电流驱…

初入职场六个注意

点击下方关注我&#xff0c;然后右上角点击...“设为星标”&#xff0c;就能第一时间收到更新推送啦~~~ 作为一个职场新人&#xff0c;最重要的变化是从学校的学习生活转变进入职场的工作生活&#xff0c;一切都是新鲜的&#xff0c;步入职场就是进入了社会。 其实学校也是一个…

高忆管理:成交量突然放大股价下跌?

在出资股票时&#xff0c;咱们常常看到股票价格急剧跌落&#xff0c;而此时成交量正在暴增。许多出资者进入股市的初期或许会产生困惑&#xff0c;将“成交量忽然扩大股价跌落”视为出资时的一般改变和常态&#xff0c;但其实并不总是如此。这种现象或许暗示着不同的问题和情况…

Qt:界面实时响应鼠标拖动绘制

采用双缓冲实现界面实时响应鼠标的拖动绘制。 思想如下&#xff1a;首先需要两张画布pix和tempPix&#xff0c;他们都是QPixmap实例&#xff1b;pix用来保存初始界面或上一阶段以完成的绘制&#xff1b;tempPix用来作为鼠标拖动时的实时界面绘制&#xff1b;当鼠标左键按下后拖…

C# 生成唯一ID

1.首先通过nuget安装yitter.idgenerator 下面的三行代码搞定

文心一言 VS 讯飞星火 VS chatgpt (83)-- 算法导论8.1 4题

四、用go语言&#xff0c;假设现有一个包含n个元素的待排序序列。该序列由 n/k 个子序列组成&#xff0c;每个子序列包含k个元素。一个给定子序列中的每个元素都小于其后继子序列中的所有元素&#xff0c;且大于其前驱子序列中的每个元素。因此&#xff0c;对于这个长度为 n 的…

C++ | 源码分析 Why double free?

源码分析 Why double free? 文章目录 源码分析 Why double free?WhatWhy1.浅拷贝 VS 深拷贝浅拷贝深拷贝 2.push_back 和 emplace_backpush_back 源码emplace_back 源码 Example HowReference>>>>> 欢迎关注公众号【三戒纪元】 <<<<< What 前…

【爬虫小知识】如何利用爬虫爬网页——python爬虫

前言 网络时代的到来&#xff0c;给我们提供了海量的信息资源&#xff0c;但是&#xff0c;想要获取这些信息&#xff0c;手动一个一个网页进行查找&#xff0c;无疑是一项繁琐且效率低下的工作。这时&#xff0c;爬虫技术的出现&#xff0c;为我们提供了一种高效的方式去获取…

el-form的表单验证,有值却报红!

正确的写法是 el-form中的form用 :model绑定&#xff0c;各个输入项用 v-model绑定值 原因 显然&#xff0c;区别就是 v-model 和 :model的区别 V-mode v-model是一个语法糖&#xff0c;用于 “表单元素上” 实现双向数据绑定。包括数据绑定和事件监听。 <input v-model&q…