前言
继上次我们写了数据采集与AI分析,亮数据+通义千问助力跨境电商前行的文章之后,好多小伙伴来后台留言,表示对亮数据的数据采集非常感兴趣,并且感觉用起来非常顺手,大大减少了小白用户获取数据的成本。
在这儿,阿Q有必要再重复一下数据采集在跨境电商领域的重要性:随着行业竞争的日益激烈和市场的快速演变,数据采集不仅能让企业洞悉不同国家和地区的市场需求与消费习惯,还能深入剖析目标市场的特征、客户行为模式以及行业发展的新趋势。通过数据采集,跨境电商企业能够精确调整产品定位,优化营销策略,以实现更高的市场响应度和顾客满意度。
今天阿Q将带领大家一起来探索下亮数据的其他重要功能:亮数据浏览器、亮网络解锁器。
数据采集工具
工欲善其事,必先利其器。接下来介绍下本次实战用到的两款采集工具:
亮数据浏览器
亮数据浏览器是市面上第一款内置自动网站解锁功能的浏览器,它可以轻松实现批量网页数据的抓取。他的特点如下:
- 兼容Puppeteer, Playwright和Selenium:
比内置代理和解锁技术的自动浏览器和无头浏览器更强大,轻松调用API以获取任意数量的浏览器会话,并使用Puppeteer (Python)、Playwright (Node.js)或Selenium与它们交互。非常适合需要网站交互来检索数据的抓取项目,例如将鼠标悬停在页面上、单击按钮、滚动、添加文本等。 - 解锁最强大的网页屏蔽:
大规模抓取总是需要复杂的解锁操作,亮数据浏览器后台自动管理所有网站解锁操作:CAPTCHA解决、浏览器指纹识别、自动重试、标头选择、cookie和Javascript渲染等,节省时间和资源。 - 轻易绕过任何机器人检测软件:
使用 AI 技术,亮数据浏览器会不断调整,自动学习绕过机器人检测系统,以真实用户浏览器的形式出现在机器人检测系统中,以实现比代理更高的解锁成功率,告别屏蔽麻烦,节约成本。 - 根据需要批量使用网络抓取浏览器:
亮数据浏览器托管在强大的可高度扩展的基础架构之上,这赋予你自由使用任何数量的浏览器来运行数据抓取项目的可能 - 具有一系列集成的多合浏览器:
使用由API支持的一站式浏览器来抓取公开网络数据,节省时间和成本。
亮网络解锁器
亮网络解锁器可以以前所未有的成功率自动解锁防范最严密的网站。它的成功率超高,不成功不收费,自动化周期管理,并且不需要任何的编码和爬虫经验即可使用。
亮网络解锁器主要亮点:
- 自动重试请求管理:机器学习重试和验证码解析,让我们的请求获得快速成功
- 内容验证:请求时间、数据类型、响应内容进行验证
- 网络指纹全程自动处理:网络(IP类型、动态IP、TSL协议)、协议(HTTP标头控制,生成用户代理,支持HTTP2)、OS/硬件(模拟设备、屏幕分辨率、内存、cpu等)、浏览器Cookie管理,仿真浏览器指纹(字体,音频,画布等)
数据采集实战
ebay网站数据采集
ebay是一个全球知名的电商平台,以其多样化的产品选择和便捷的交易方式著称。从古董、艺术品到电子产品、时尚服饰,ebay上几乎可以找到各种消费者需求的商品,为卖家提供了一个庞大的全球市场,也为买家提供了丰富多样的购物选择。
进入ebay官网,只需在搜索框中输入“Mouse”,点击搜索后,会被迅速引导至一个与鼠标相关的商品列表页面。这个页面以直观的方式展示了众多鼠标产品,每张商品图片都清晰地展示了鼠标的外观,而旁边的文字描述则详细列出了鼠标的品牌、型号、价格等关键信息,让我们能够轻松浏览并找到满足您需求的鼠标产品。
环境配置与安装
首先进入控制台页面,点击基础设施,然后点击开始使用
进入亮数据浏览器配置页面后,填写解决方案名称,然后添加到控制台中
在控制台中显示通道中有刚刚创建好的亮数据浏览器后,则说明配置成功。
要使用亮数据浏览器,需要在本机安装相关依赖环境。首先切换到本机,打开CMD窗口,输入pip3 install playwright安装playwright,系统会默认安装其相关依赖。如图所示,安装成功
数据采集
回到控制台,点击代理IP网络和爬虫基础设施,选择刚刚创建好的亮数据浏览器,点击进入详情。
访问参数介绍:
- 主机是远程浏览器代理的默认主机地址和端口。其中brd.superproxy.io是服务器的地址,而9222和9515则是这个服务监听的两个端口号。通过这个地址和端口,客户端可以与远程的浏览器实例进行通信。
- 用户名和密码是用于身份验证的,只有在成功连接到远程浏览器代理并提供了正确的用户名和密码之后,才能证明客户端对代理的访问权限。
- IP用于授权可以访问远程浏览器代理的地址,需要将本机的IP添加到有使用权限的IP这一栏中。
然后点击右下角的查看代码和集成示例,进入集成示例页面
可以看到,亮数据浏览器为我们提供了Node.js、Python、C#、Java语言,提供了Puppeter、Playwright、Selenium等多种库,这里选择使用Python + Playwright的方法进行设计。
将鼠标列表的链接https://www.ebay.com/sch/i.html?_from=R40&_trksid=p2334524.m570.l1313&_nkw=Mouse&_sacat=0&_odkw=%E9%BC%A0%E6%A0%87&_osacat=0
作为目标网站,定位国家选择印度(India),生成代码如下,部分信息用*号进行加密处理
import asyncio
from playwright.async_api import async_playwright
SBR_WS_CDP = 'wss://brd-customer-hl_****-zone-browser_mouse-country-in:*****@brd.superproxy.io:9222'
async def run(pw):
print('Connecting to Scraping Browser...')
browser = await pw.chromium.connect_over_cdp(SBR_WS_CDP)
try:
page = await browser.new_page()
print('Connected! Navigating to https://www.ebay.com/sch/i.html?_from=R40&_trksid=p2334524.m570.l1313&_nkw=Mouse&_sacat=0&_odkw=%E9%BC%A0%E6%A0%87&_osacat=0...')
await page.goto('https://www.ebay.com/sch/i.html?_from=R40&_trksid=p2334524.m570.l1313&_nkw=Mouse&_sacat=0&_odkw=%E9%BC%A0%E6%A0%87&_osacat=0')
# CAPTCHA handling: If you're expecting a CAPTCHA on the target page, use the following code snippet to check the status of Scraping Browser's automatic CAPTCHA solver
# client = await page.context.new_cdp_session(page)
# print('Waiting captcha to solve...')
# solve_res = await client.send('Captcha.waitForSolve', {
# 'detectTimeout': 10000,
# })
# print('Captcha solve status:', solve_res['status'])
print('Navigated! Scraping page content...')
html = await page.content()
print(html)
finally:
await browser.close()
async def main():
async with async_playwright() as playwright:
await run(playwright)
if __name__ == '__main__':
asyncio.run(main())
然后将生成的代码复制到 mouse.py中,使用python mouse.py 执行,得到完整的content数据如下,完成本节任务!
Temu网站数据采集
Temu,作为一家创立于2019年的电商平台,专注于服务年轻消费群体。该平台汇集了众多时尚、潮流且品质上乘的消费品,涵盖了从时尚的服饰鞋类,到实用的家居用品,再到贴心的个人护理产品,以及运动健康用品等多元化选择。Temu的一大亮点在于其亲民的价格策略,它始终致力于为顾客提供物有所值、性价比高的商品。
此外,Temu深知网络安全的重要性,因此在网站安全方面采取了多项严密措施。在用户进行登录、注册或提交表单等操作时,Temu会要求用户输入验证码,以验证用户身份的真实性;同时,它还会检测访问请求的IP地址,以识别并防止潜在的网络攻击;此外,Temu还采用了动态页面加载技术,以提高网站的安全性和稳定性,从而有效防止异常访问的发生。
如上图在使用Temu时,系统会跳出验证码,要求正确输入验证码以完成操作。这一机制的主要目的是确认用户不是机器人或自动化脚本,从而有效防止恶意注册、暴力获取数据等不当行为。
亮网络解锁器能在后台完全模拟真实用户操作,能高效绕过验证码的阻止和限制,模拟真实用户和网络指纹,发送并发请求,获得完美畅通的响应。
亮网络解锁器配置
进入控制台页面,点击基础设施,选择亮网络解锁器,开始使用。
进入亮网络解锁器配置页面,填写解决方案名称,然后添加到控制台中。
数据采集
跟亮数据浏览器一样,需要配置一下本地ip,开放权限,然后点击代码示例
亮网络解锁器提供了API、浏览器、移动代理等类型,并提供了Chrome、Edge、Safari、Firefox、Android等多种方式。这里选择API方法,选择Python作为语言。
将搜索的车载支架链接https://www.temu.com/search_result.html?search_key=%E8%BD%A6%E8%BD%BD%E6%94%AF%E6%9E%B6&search_method=user&refer_page_el_sn=200010&srch_enter_source=top_search_entrance_10005&_x_sessn_id=m7zkobrml4&refer_page_name=home&refer_page_id=10005_1718866879913_0rhl7yv3dt&refer_page_sn=10005
放到目标网站内,然后定位国家依旧是印度(India),生成代码示例,使用*
进行加密处理
#!/usr/bin/env python
print('If you get error "ImportError: No module named \'six\'" install six:\n'+\
'$ sudo pip install six');
print('To enable your free eval account and get CUSTOMER, YOURZONE and ' + \
'YOURPASS, please contact sales@brightdata.com')
import sys
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
if sys.version_info[0]==2:
import six
from six.moves.urllib import request
opener = request.build_opener(
request.ProxyHandler(
{'http': 'http://brd-customer-*******-zone-web_unlocker1-country-in:******@brd.superproxy.io:22225',
'https': 'http://brd-customer-hl_******-zone-web_unlocker1-country-in:******@brd.superproxy.io:22225'}))
print(opener.open('https://www.temu.com/search_result.html?search_key=%E8%BD%A6%E8%BD%BD%E6%94%AF%E6%9E%B6&search_method=user&refer_page_el_sn=200010&srch_enter_source=top_search_entrance_10005&_x_sessn_id=m7zkobrml4&refer_page_name=home&refer_page_id=10005_1718866879913_0rhl7yv3dt&refer_page_sn=10005').read())
if sys.version_info[0]==3:
import urllib.request
opener = urllib.request.build_opener(
urllib.request.ProxyHandler(
{'http': 'http://brd-customer-hl_*****-zone-web_unlocker1-country-in:*****@brd.superproxy.io:22225',
'https': 'http://brd-customer-hl_*****-zone-web_unlocker1-country-in:*****@brd.superproxy.io:22225'}))
print(opener.open('https://www.temu.com/search_result.html?search_key=%E8%BD%A6%E8%BD%BD%E6%94%AF%E6%9E%B6&search_method=user&refer_page_el_sn=200010&srch_enter_source=top_search_entrance_10005&_x_sessn_id=m7zkobrml4&refer_page_name=home&refer_page_id=10005_1718866879913_0rhl7yv3dt&refer_page_sn=10005').read())
将以上代码放到test.py文件中,使用python test.py执行,得到完整的content数据如下,完成本节任务!
总结
在对比内置代理和解锁技术的自动或无头浏览器时,亮数据浏览器以其卓越的功能脱颖而出。用户通过亮数据浏览器的管理界面,能够轻松设置抓取任务和参数,实现多会话的批量数据抓取,从而显著提高了工作效率,降低了人力和时间成本。这种高度自动化的特性让亮数据浏览器在面对网络环境的各种挑战时,都能展现出卓越的适应性。
亮网络解锁器不仅模拟浏览网页、点击链接和数据抓取等操作,而且能够精准高效地完成任务。其智能IP请求管理功能尤为出色,可以根据目标网站的规则和限制,自动调整请求频率,有效防止因请求过于频繁而导致的IP屏蔽问题。对于数据科学家、网络开发者乃至广大用户而言,亮网络解锁器无疑是一个高效且可靠的得力助手。
在数据采集领域,一个稳定、高效且灵活的解决方案是企业和开发者不可或缺的。亮数据平台正是这样一个全面、可定制且灵活的解决方案,它提供了卓越的用户体验和专业技术支持,是数据采集工作的理想选择。
赶快来体验吧!