数据篇| 关于Selenium反爬杂谈

news2024/11/15 6:49:23

在这里插入图片描述

友情提示:本章节只做相关技术讨论, 爬虫触犯法律责任与作者无关。

LLM虽然如火如荼进行着, 但是没有数据支撑, 都是纸上谈兵, 人工智能的三辆马车:算法-数据-算力,缺一不可。之前写过关于LLM微调文章《微调入门篇:大模型微调的理论学习》、《微调实操一: 增量预训练(Pretraining)》、《微调实操三:人类反馈对语言模型进行强化学习(RLHF)》、《微调实操四:直接偏好优化方法-DPO》等文章, 奈何无大数据支撑,停留在浅显层面,所以有必要学习数据获取相关技术发展。数据在这个领域起着至关重要的角色。数据作为重要的生产要素, 是企业核心资产,但对于大部分普通用户基本利用爬虫方获取,强如搜索引擎也同样离不开爬虫, 爬虫离不开反爬这个话题。 爬虫除了能够获取数据之外, 对于自动化测试、提高重复性工作效率同样有借鉴意义。

细心的同学肯定会发现,现在网站的验证码、验证逻辑越来越复杂, 以下图为例, 让机器自动化的难度越来越大。

在这里插入图片描述

现在大部分网站都采用js动态渲染, 传统接口抓取的缺点是抓不到 js 渲染后的页面和服务器渲染的web页面。

Selenium 是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些 JavaScript 动态渲染的页面来说,此种抓取方式非常有效, Selenium虽然能够模拟人的行为, 依然会出现爬虫的限制, 有哪些针对Selenium反爬的策略呢?今天我们一起深入研究一下:

1、 ip 代理, 轮换ip

2、禁用webdriver等自动化标识

3、轮换http header等标识

4、移除JavaScript标志

5、使用cookie

6、使用浏览器插件

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2152022.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

选择五金车床精密加工厂的五大要点

在五金制造行业,五金车床精密加工是生产高品质零部件的关键环节。随着市场需求的日益多样化和对产品质量要求的不断提高,选择一家合适的五金车床精密加工厂变得至关重要。然而,面对众多的加工厂,如何做出正确的选择却是一个难题。…

光耦知识分享 | 晶体管光耦与可控硅光耦的区别

晶体管光耦和可控硅光耦是两种常见的光电耦合器件,它们在电子电路中扮演着重要的角色。下面将介绍晶体管光耦和可控硅光耦的区别以及它们的主要应用。 结构区别 晶体管光耦通常由一个发光二极管(LED)和一个光敏晶体管(光控晶体管…

微信小程序. tarojs webView的 onload 事件不触发

功能需求:想再webView加载成功后做一些逻辑操作。使用onLoad事件 现象:在taro里面webView的onload。onError 事件不触发了 版本:taro 3.6版本 分析:刚开始想着可能是版本,然后用另外一个项目(taro 3.4版…

PS教程,从零开始学PS

A01 进入PS的世界 广告设计\平面设计产品包装设计摄影后期图像美化\照片美化网页网店UI界面设计游戏美术动漫图形创意恶意创意\动态表情效果图后期调整 了解基本规律掌握操作规律开发扩展思维 A02 PS软件安装 获得PS安装程序安装PS启动PS A03 认识界面 1. PS主界面构成 …

读构建可扩展分布式系统:方法与实践10最终一致性

1. 最终一致性 1.1. 在一些应用领域,通常谈论的是银行和金融行业,最终一致性根本不合适 1.2. 事实上,最终一致性在银行业已经使用了很多年 1.2.1. 支票需要几天时间才能在你的账户上进行核对,而且你可以轻松地开出比账户余额多的…

前端vue-子组件对于父组件的传值的约束

组件中可以传字符串,布尔值,数组,对象,函数 如果子组件对于父组件传来的值进行校验,那么我们把子组件中的props中的数据写成{}的形式 ,在里面进行数据的约束 required:是必须要传值,…

使用Renesas R7FA8D1BH (Cortex®-M85)实现多功能UI

目录 概述 1 系统框架介绍 1.1 模块功能介绍 1.2 UI页面功能 2 软件框架结构实现 2.1 软件框架图 2.1.1 应用层API 2.1.2 硬件驱动层 2.1.3 MCU底层驱动 2.2 软件流程图 4 软件功能实现 4.1 状态机功能核心代码 4.2 页面功能函数 4.3 源代码文件 5 功能测试 5.1…

【渐冻勇士的营养秘籍!这些营养素让爱更坚强】

Hey小伙伴们~👋 今天我们来聊聊一个温暖而坚强的话题——渐冻症患者的营养补充攻略!💪 在这个充满挑战的路上,合理的营养摄入就像是他们最坚实的盔甲,让爱与希望的光芒更加耀眼。✨ 🌈 ‌蛋白质&#xff1…

macOS平台(intel)编译MAVSDK安卓平台SO库

1.下载MAVSDK: git clone https://github.com/mavlink/MAVSDK.git --recursive 2.编译liblzma 修改CMakeLists.txt文件增加C与CXX指令-fPIC set(CMAKE_C_FLAGS "-fPIC ${CMAKE_C_FLAGS}") set(CMAKE_CXX_FLAGS "-fPIC ${CMAKE_CXX_FLAGS}") 修改如下:…

k8s下的网络通信与调度

目录 一、k8s网络通信 1、k8s通信整体架构 2、flannel网络插件 (1)flannel跨主机通信原理 (2)flannel支持的后端模式 3、calico网络插件 (1)简介 (2)网络架构 (…

Maven 替换国内的镜像源

Maven 替换国内的镜像源 在使用 Maven 构建项目时,Maven 会从中央仓库中下载依赖。但由于网络环境的限制,访问 Maven 中央仓库的速度可能较慢。为了加快依赖下载速度,尤其是在大陆地区,建议将 Maven 默认的中央仓库替换为国内的镜…

【大模型教程】基于 InternLM 和 LangChain 搭建知识库助手

1 环境配置 1.1 InternLM 模型部署 在 InternStudio 平台中选择 A100(1/4) 的配置,打开开发机,打开终端开始环境配置,模型下载和运行demo。 进入开发机后,进入conda环境。 1.2 模型下载 在本地的 /root/share/temp/model_rep…

SiLM585x系列SiLM5852SHCG-AQ与其他单通道隔离驱动器的较量 —— 分离管脚输出与主动保护的优势

SiLM585x系列SiLM5852SHCG-AQ是一款单通道隔离驱动器,具有分离的管脚输出,提供3.0A源电流和6.0A灌电流。主动保护功能包括退饱和过流检测、UVLO、隔离故障报警和 2.5A 米勒钳位。输入侧电源的工作电压为3V至5.5V,输出侧电源的工作电压范围为1…

农业电商服务系统小程序的设计

管理员账户功能包括:系统首页,个人中心,会员管理,商家管理,商品分类管理,商品信息管理,农产品监督管理,助农信息管理,系统管理 微信端账号功能包括:系统首页…

Modular Elven Archer 幻想精灵女弓箭手游戏角色模型

可爱的精灵射手的3D模型。用额外的骨骼固定到人形。完全模块化,包括一个没有衣服的身体。包含苹果混合形状。 下载:​​Unity资源商店链接资源下载链接 效果图:

使用vue创建项目

一、安装环境 二、创建vue框架(创建文件夹,摁shift鼠标右键 打开) 1、项目配置 2、新增目录 三、路径别名配置 输入/ ,VSCode会联想出src下的所有子目录和文件,统一文件路径访问时不容易出错 四、ElementPlus配置 1、组件分为…

开源 AI 智能名片 S2B2C 商城小程序与正能量融入对社群归属感的影响

摘要:本文探讨了开源 AI 智能名片 S2B2C 商城小程序在社群运营中的作用,以及融入正能量对提高社群归属感的关键意义。通过分析正能量的精神感染力和对社群氛围的积极影响,阐述了在开源 AI 智能名片 S2B2C 商城小程序的各类活动中融入正能量的…

这几个优秀的工具网站真心值得推荐——搜嗖工具箱

即时工具 https://www.67tool.com/ 这是一个专注提升效率的办公工具网站;这也是一个拥有260多款自研在线工具和200多个客户端离线工具的服务网站;这还是一个可以满足包括视频处理、音频处理、图片处理、文档处理、文档转换、办公辅助、图表生成、文本工…

《Nginx核心技术》第18章:基于主从模式搭建Nginx+Keepalived双机热备环境

作者:冰河 星球:http://m6z.cn/6aeFbs 博客:https://binghe.gitcode.host 文章汇总:https://binghe.gitcode.host/md/all/all.html 星球项目地址:https://binghe.gitcode.host/md/zsxq/introduce.html 沉淀&#xff0c…

分享3款开源、免费的Avalonia UI控件库

Avalonia介绍 Avalonia是一个强大的框架,使开发人员能够使用.NET创建跨平台应用程序。它使用自己的渲染引擎绘制UI控件,确保在Windows、macOS、Linux、Android、iOS和WebAssembly等不同平台上具有一致的外观和行为。这意味着开发人员可以共享他们的UI代码…