一种新的爬虫网络解锁器

news2024/11/19 6:14:51

事出原由

遇到一个需要采集境外电商的需求,相比国内各种层出不穷的反爬手段,境外产品更注重于用户行为和指纹上。

所以笔者在想是否有类似于指纹浏览器的环境可以提供给爬虫采集器使用。

经过检索,找到了一种名为爬虫网络解锁器的新兴产品。


爬虫网络解锁器

所谓的网络解锁器,是指能够突破网络限制,让用户能够访问被封锁网站的工具。

而在爬虫领域,爬虫网络解锁器(本质上也属于一种代理通道)可以帮助爬虫程序访问一些具有反爬限制或被封锁的网站或数据源。

有时候逆向分析过于繁琐,人力开发成本过高,通过网络解锁器不必为了反爬限制增加人力和工时消耗,它在后台完全模拟真实用户操作,让你能获得完美畅通的响应。当然这并不代表所有的反爬都能绕过,相对于一些基于Cookie、指纹校验、行为记录 的网站会有更好的收益。

在这里插入图片描述

不过需要注意的是,使用不当的网络解锁器可能会违反相关法律法规或者用户协议。

爬虫使用网络解锁器时则需要格外小心,以免触犯相关规定导致法律风险。


解锁服务提供商

笔者大概找了一些厂商,没有全部进行测试,后续等空闲时间对此类解锁器进行测评。具体尝试了行业内拥有类似产品的三家供应商,包括以色列的亮数据。

有一些网络解锁器服务提供商,它们提供付费或者免费的解锁服务。需要注意的是,有些解锁服务提供商在提供解锁服务的同时,可能会进行数据监测和收集,这可能涉及到您的数据隐私问题,因此在选择解锁服务提供商时需要格外慎重。

比较下来,觉得 BrightData的产品亮网络解锁器好用,以下为示例。

在这里插入图片描述


如何使用

1、访问官网:点击 注册账号, 建议使用企业邮箱注册,因为可以免费试用。

2、注册需要验证,登录后,可转到后台控制面板。

3、选择Proxies & Scraping Infrastructure
在这里插入图片描述

4、创建通道,选择解锁器

在这里插入图片描述
5、查看访问参数

参数中有用户名和密码,可使用右侧的curl命令进行测试。
在这里插入图片描述

在 Check out code and integration examples 中,可选择适合自己开发语言的demo。

6、用python语言进行测试。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import requests

ProxyHandler = {
    'http': '用户名:密码@主机',
    'https': '用户名:密码@主机'
}

print(requests.get('http://lumtest.com/myip.json',proxies=ProxyHandler).text)

先运行测试代码查看自己的代理是否使用成功,当返回的IP不再是本机IP则说明使用成功了。

在这里插入图片描述


测试案例 Amazn

Amazn具有验证码、Cookie跟踪,IP访问频率限制,访问轨迹跟踪等反爬措施。

正常访问 https://www.amazon.com/dp/B00O4VR7B6?th=1&psc=1直接进入验证界面。

在这里插入图片描述
当我们用普通代理访问时会被防火墙检测到,并触发验证码。同时想要用程序大量访问接口时,则需要拿到经过人机验证后的参数。如果做逆向的话,需要开发时间和人力成本。此时不如采用网络解锁器来进行访问。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import requests

ProxyHandler = {
    'http': '',
    'https': ''}

headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36"
}

url = 'https://www.amazon.com/dp/B00O4VR7B6?th=1&psc=1'
print(requests.get(url,proxies=ProxyHandler,verify=False,headers=headers).text)

所以通过解锁器访问Amazn可以不考虑风控,用其动态住宅代理网络绕过行为校验,解锁Header、指纹等。


不过需要注意的是解锁器并不能通用于所有站点,由于一些网站的特殊性和代理行为的安全性,动态住宅都有风控,也就是说不管是谁来用这个动态住宅,都必须通过代理商的风控,很多不合法不合规的用例是不允许的。

查看了以下亮网络解锁器能用的网站,超过2千个,涵盖了各领域流行平台。

所以使用之前先联系厂商咨询是否可用于自己的需求。我本来是要测试台湾的Dcard网站,结果显示无法使用亮数据的解锁器,一经询问,技术支持告知凡是没有搜录到可使用这个产品的网站,需要先提交给他们,等待纳入后即可使用。
在这里插入图片描述

更多内容可到官网查看。

测试案例二 Yandex

Yandex是俄罗斯的一款搜索引擎,也有人把它比作俄罗斯的谷歌。其反爬虫措施也是基于多层的cookie参数和人机验证。境外的搜索引擎大都使用了相同的反爬措施,所以不太建议逆向分析。

针对于这些特种站点,Bright data亮数据提出了一种专用于搜索引擎爬虫SERP代理类型。

在这里插入图片描述
Python代码 demo:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import requests
from lxml import etree

ProxySerp = {
    'http': 'your proxy info',
    'https': 'your proxy info'
}

headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36"
}

url = 'https://yandex.com/search/?text=lx'
html = requests.get(url,proxies=ProxySerp,verify=False,headers=headers).text
print(html)
e = etree.HTML(html)
print(e.xpath('//title/text()'))
print(e.xpath('//span[@class="OrganicTitleContentSpan organic__title"]//text()'))

Serp除了很适用于Yandex外,还支持Google、GoogleMap、Bing、DuckDuckGo等互联网搜索引擎。

GoogleMap搜索示例:

在这里插入图片描述

经笔者测试后,Serp采集效果较为稳定,有境外搜索引擎采集需求的可以前往官网试用。

地址:https://luminati-china.biz/cp/zones/serp_playground


经验总结

使用网络解锁器并发采集时先了解相关法律法规和技术实现,以及仔细评估需要访问的网站的实际情况,谨慎决策。

本文给大家分享的内容到这里收尾了,后续会通过更多的案例来测试 Bright Data亮数据 的其它产品。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/562940.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SAP: 建立HTTPS 连接时,报错 ICM_HTTP_SSL_PEER_CERT_UNTRUSTED

报错1: SSL handshake with tpm-uat.jlbry.cn:443 failed: SSSLERR_PEER_CERT_UNTRUSTED (-102)#The peers X.509 Certificate (chain) is untrusted##SapSSLSessionStartNB()SSSLERR_PEER_CERT_UNTRUSTED# SSL:SSL_read() failed (536872221/0x2000051d)# >…

【正点原子STM32连载】第十四章 蜂鸣器实验 摘自【正点原子】STM32F103 战舰开发指南V1.2

1)实验平台:正点原子stm32f103战舰开发板V4 2)平台购买地址:https://detail.tmall.com/item.htm?id609294757420 3)全套实验源码手册视频下载地址: http://www.openedv.com/thread-340252-1-1.html 第十四…

【无标题】ELISA-3(加装跟踪装置)—让群体协作更智能!

群体智能是近年来发展迅速的一个人工智能学科领域,通过对蚂蚁、蜜蜂等为代表的社会性昆虫群体行为的研究,实现分布式等智能行为。作为新一代人工智能的重要方向,群体智能通常用于无人机、机器人集群的协同作业。目前,群体智能在基…

零操作难度,轻松进行应用测试,App专项测试之Monkey测试完全指南!

目录 前言: 一、 Monkey测试的基础参数 1.1 事件类型参数: 1.2 覆盖包 1.3 事件数量 二、 Monkey测试的高级参数 2.1 稳定性级别 2.2 策略参数 2.3 包含选项参数 三、 附加代码 四、 总结 前言: 在移动应用的开发过程中&#xff0…

数据结构(C语言):有序顺序表的设计及相关操作函数

一、题目 有序顺序表的设计 实验要求: 有序顺序表的操作,包括初始化,求数据元素个数,插入,删除和取数据元素。放在头文件中(建议尝试用动态数组实现有序顺序表);注意有序顺序表的…

【正点原子STM32连载】 第十七章 串口通信实验摘自【正点原子】STM32F103 战舰开发指南V1.2

1)实验平台:正点原子stm32f103战舰开发板V4 2)平台购买地址:https://detail.tmall.com/item.htm?id609294757420 3)全套实验源码手册视频下载地址: http://www.openedv.com/thread-340252-1-1.html 第十七…

2023年25个Java8面试问题和答案

Java是一种非常流行的编程语言,从Android应用程序到物联网(IoT)无处不在。事实上,根据Codeplatoon的数据,Java在1年的招聘信息中排名#2022。考虑到它的普遍存在,对精通Java的专业人员的需求仍然很高也就不足…

【vlan高级特性——super vlan概述】

今天给大家分享Windows常用cmd网络命令,希望对大家能有所帮助! 1、arp [option] [address] 显示/修改ARP缓存 执行命令:arp -a 参数说明: 显示和修改地址解析协议(ARP)使用的“IP 到物理”地址转换表。 ARP -s inet_addr eth…

那些30多岁的测试工程师都是怎么走过来的?

最近工作真的不好找了,感觉身边的朋友明显变得焦虑了,一个个都在抱怨生活的迷茫和疑惑。 30岁测试员该何去何从? 如今我们往往能够看到网上的各种新闻,什么“30岁是程序员的一道坎“ “非诚勿扰:32岁 程序员登台,遭美…

【Java-Crawler】爬取动态页面(WebMagic、Selenium、ChromeDriver)

WebMagicSeleniumChromeDriverMaven 爬取动态页面 一、需要下载的资源和引入的依赖资源依赖 二、实战代码测试效果 在上一篇说WebMagic框架的时候( 一文学会WebMagic爬虫框架),提到了WebMagic仅能解析静态页面,满足不了小编的爬虫…

chatgpt赋能Python-python_numpy转置

Python中的Numpy转置:使用transpose()函数 在Python中,Numpy是非常常用的一个科学计算库,它提供了大量的数学函数、矩阵计算等功能。其中,矩阵的转置是一个非常基本的运算,在Numpy中,我们可以使用transpos…

SSRS rdlc报表 六 报表分组和总计

报表分组和总计在报表中是一个很常用的功能,比如我们需要按部门进行分组,统计每个部门的费用支出,或者在进一步分组,每个部门每个月的费用支出,通过rdlc报表,很容易实现这个需求。 我们下面要讲解的案例&a…

Thinkphp漏洞详解合集

文章目录 Thinkphp6.0.12LTS反序列化漏洞环境漏洞分析 thinkphp lang命令执行环境影响版本漏洞分析漏洞复现 CNVD-2018-24942(t5RCE)环境影响版本漏洞分析漏洞复现 Thinkphp3.2.x命令执行环境漏洞分析漏洞复现 thinkphp-2x-rce漏洞环境影响版本漏洞分析 Thinkphp5.0.23变量覆盖…

人机交互软件工程视角 第3-11章部分课后习题答案

4. 对于用于帮助儿童之间进行交流和合作的移动设备, 核心可用性目标: 简单易用性:移动设备应该具备简单直观的界面和操作方式,以便儿童能够轻松理解和使用。 可靠性:设备应该稳定运行,并且提供可靠的通…

什么是智能制造?制造企业该如何发展?

智能制造是落实我国制造强国战略的重要举措,加快推进智能制造,是加速我国工业化和信息化深度融合、推动制造业供给侧结构性改革的重要着力点,对重塑我国制造业竞争新优势具有重要意义。 ——摘自《中国制造 2025》 概念的提出 德勤公司(Delo…

使用 PAI-Blade 优化 Stable Diffusion 推理流程(二)

背景 上一篇中,我们使用了 PAI-Blade 优化了 diffusers 中 Stable Diffusion 模型。本篇,我们继续介绍使用 PAI-Blade 优化 LoRA 和 Controlnet 的推理流程。相关优化已经同样在 registry.cn-beijing.aliyuncs.com/blade_demo/blade_diffusion镜像中可以…

Linkage Mapper 连通性模型的构建方法详解(含实际案例分析)

✅创作者:陈书予 🎉个人主页:陈书予的个人主页 🍁陈书予的个人社区,欢迎你的加入: 陈书予的社区 🌟专栏地址: Linkage Mapper解密数字世界链接 文章目录 一、 简介1.1 连通性模型概述二、 Linkage Mapper工具箱2.1 工具箱概述2.2 安装和加载工具箱

【Android定制】BUILD_AGO_GMS = no 和 BUILD_GMS=no属性

文章目录 概要名词解释细节小结 概要 在安卓底层源码中,有这样的两个属性,这两个第一眼看上去都像是带不带谷歌,BUILD_AGO_GMS no和BUILD_GMSno有什么区别?? 如果带了谷歌,那么这个设备就差不多是国外定…

低代码平台盘点:这5款平台备受欢迎!

随着数字化转型需求的持续增长,企业正在寻求更高效的方式来构建定制软件。低代码平台因其能够以最少的编码需求促进更快的应用程序开发而广受欢迎。这些平台提供拖放界面、预置模板和可视化设计工具,使用户无需具备编程语言专业知识即可构建自定义应用程…

超详细的React路由基础使用

目录 基础路由 结构准备 封装自定义NavLink 路由的模糊匹配 嵌套路由 路由传参 声明式路由 路由传递params参数 search(也称query)参数 state传参 编程式路由导航 withRouter 演示 基础路由 单页应用程序 SPA: 整个应用只有一个完整的页面 点击页面中的链接不会刷新…