Java爬虫攻略:应对JavaScript登录表单

news2024/11/26 14:41:11

16yun (2).png

问题背景

在进行网络抓取数据时,经常会遇到需要登录的网站,特别是使用JavaScript动态生成登录表单的情况。传统的爬虫工具可能无法直接处理这种情况,因此需要一种能够模拟用户行为登录的情况解决方案。
在实际项目中,我们可能需要从一些需要登录的网站上获取数据,比如京东、淘宝等电商网站,这就需要我们编写一个爬虫程序来模拟用户登录并获取所需数据。但是,由于这些网站通常采用JavaScript动态生成的登录表单,传统的爬虫工具可能无法直接处理,因此我们需要一种更专业的解决方案。

项目需求场景

假设我们需要编写一个Java爬虫程序,用于登录京东网站并获取特定商品的价格信息。由于京东网站采用了JavaScript动态生成的登录表单,传统的爬虫工具无法直接处理该情况,因此我们需要一个能够模拟登录用户行为的解决方案。

遇到的问题

在尝试使用传统的Java爬虫工具进行京东网站数据抓取时,发现无法直接处理JavaScript动态生成的登录表单,导致无法完成登录操作,进而无法获取所需的商品价格信息。这就需要我们寻找一种更专业的解决方案,方便能够顺利地模拟用户登录并获取数据。

解决方案

使用Selenium进行模拟登录

Selenium是一个用于Web应用程序测试的工具,也可以用于模拟用户在浏览器中的操作。我们可以利用Selenium来模拟用户打开浏览器、输入用户名和密码、点击登录按钮等操作,从而实现对JavaScript登录表单的处理。
在我们的示例代码中,我们使用了Chrome浏览器作为演示,首先创建一个ChromeDriver实例,打开京东网站,找到登录链接并点击,然后找到用户名和密码的输入框,输入相应的信息,最后点击登录按钮。这样就可以模拟用户登录京东网站。

// 示例代码
WebDriver driver = new ChromeDriver();
driver.get("https://www.jd.com/");
WebElement loginLink = driver.findElement(By.linkText("你好,请登录"));
loginLink.click();
WebElement username = driver.findElement(By.id("loginname"));
username.sendKeys("your_username");
WebElement password = driver.findElement(By.id("nloginpwd"));
password.sendKeys("your_password");
WebElement loginButton = driver.findElement(By.id("loginsubmit"));
loginButton.click();

使用Scrapy-Selenium扩展

Scrapy是一个强大的Python爬虫框架,而Scrapy-Selenium是一个Scrapy的扩展,可以与Selenium集成,实现在Scrapy爬虫中使用Selenium进行页面操作。虽然Scrapy本身是Python编写的,但是可以通过Jython或者我们使用Python调用Java程序的方式来实现在Java环境中使用Scrapy-Selenium。
在我们的示例中,我们将使用Scrapy-Selenium扩展来处理JavaScript登录表单。我们首先创建一个ChromeOptions实例,并设置代理信息,然后创建一个ChromeDriver实例,将代理信息应用到ChromeDriver的选项中,最后打开京东网站并进行其他操作。

// 示例代码
import org.openqa.selenium.Proxy;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.processor.PageProcessor;

public class JdPriceProcessor implements PageProcessor {
    private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);

    @Override
    public void process(Page page) {
        String proxyHost = "www.16yun.cn";
        String proxyPort = "5445";
        String proxyUser = "16QMSOML";
        String proxyPass = "280651";

        ChromeOptions options = new ChromeOptions();
        Proxy proxy = new Proxy();
        proxy.setHttpProxy(proxyHost + ":" + proxyPort);
        proxy.setSslProxy(proxyHost + ":" + proxyPort);
        proxy.setSocksProxy(proxyHost + ":" + proxyPort);
        proxy.setSocksUsername(proxyUser);
        proxy.setSocksPassword(proxyPass);
        options.setCapability("proxy", proxy);

        WebDriver driver = new ChromeDriver(options);
        driver.get("https://www.jd.com/");
        // 其他操作
    }

    @Override
    public Site getSite() {
        return site;
    }
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1291964.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

⭐Unity 搭建UDP客户端(01) 配合网络调试助手测试

1.接收来自服务器的消息 using System.Net; using System.Net.Sockets; using System.Text; using System.Threading; using UnityEngine;public class UDPManager:MonoBehaviour {public string recvStr; //服务器返回值public string UDPClientAddRess "192.168.2.39&q…

高速风筒解决方案,基于高性价比的普冉单片机开发

高速风筒也就是高速吹风机,与传统的吹风机相比,高速吹风机具有更强大的风力和更快的干燥速度,可以更快地干燥头发或其他物体表面的水分。它通常由一个电动机驱动,并通过旋转的叶片来产生气流。高速风筒广泛应用于个人护理、美容、…

低代码平台和数据中台存在异曲同工之妙

低代码开发是近年来迅速崛起的软件开发方法,让编写应用程序变得更快、更简单。有人说它是美味的膳食,让开发过程高效而满足,但也有人质疑它是垃圾食品,缺乏定制性与深度。你认为低代码到底是美味的膳食还是垃圾食品呢,…

常见动物经济手术3d模拟交互演示教学实现了教育资源的共享

动物常见病防治是兽医必备的技能,为了让实习兽医在上岗作业前拥有丰富的常见病防治经验。借助动物常见病防治VR虚拟仿真技术开展动物常见病防治VR模拟实操培训,能极大方便院校实训。 提高教学质量 传统的动物医学教学往往依赖于理论知识和实验室实践&…

Ngxin实现301重定向映射

要实现将abc.love域名映射到http://baidu.com网站,并进行重定向,你需要在Nginx的配置文件中添加一个新的server块,如下所示: server {listen 80;server_name abc.com; #替换成自己的域名,记得要映射到这台服务器&…

来了!轻量对象存储重磅上线

轻量对象存储 Lighthouse-COS 是腾讯云专为中小企业开发者打造的轻量级数据存储服务,适用于云端网站、小程序、课堂演示、云盘/图床等场景下的数据存储和处理任务。针对图像、音视频等对象类型数据进行可视化一键管理。相比传统的对象存储服务更加开箱即用&#xff…

2024黑龙江省职业院校技能大赛信息安全管理与评估样题第二三阶段

2024黑龙江省职业院校技能大赛暨国赛选拔赛 "信息安全管理与评估"样题 *第二阶段竞赛项目试题* 本文件为信息安全管理与评估项目竞赛-第二阶段试题,第二阶段内容包括:网络安全事件响应、数字取证调查和应用程序安全。 极安云科专注技能竞赛…

CCF编程能力等级认证GESP—C++1级—20230611

CCF编程能力等级认证GESP—C1级—20230611 单选题(每题 2 分,共 30 分)判断题(每题 2 分,共 20 分)编程题 (每题 25 分,共 50 分)时间规划累计相加 答案及解析单选题判断题编程题1编程题2 单选题…

如何编写元描述?

您是否正在寻找提高网站知名度和吸引更多客户的方法?撰写引人入胜的元描述就是一个有效的策略。元描述是出现在搜索引擎结果中网页标题下的简短文本片段。它们为潜在访客提供信息,让他们了解点击进入后会显示哪些页面内容。利用这些标签撰写正确的信息可…

01-SDV软件定义汽车思考

前言: 随着汽车产业“新四化”(电动化、网联化、智能化、共享化)的加速推动,智能汽车已成为各国科技发展战略重点,在社会数字化转型的浪潮下逐渐形成跨领域协作、多技术融合的汽车产业新赛道。 软件定义汽车已成为行业趋势与共识&#xff…

热烈祝贺许战海老师成为北京湖南商会特聘专家!

在北京的初冬时节,一股商业的暖流在世纪华天大酒店的湖南厅中涌动。2023年12月3日下午,这里迎来了一场盛大的聚会——北京湖南企业商会成立20周年的预热活动之一:“湘商大讲堂”。这不仅是一次庆祝,更是一次对未来的展望&#xff…

【改进YOLOv8】融合重参数结构DiverseBranchBlock的冬小麦物候期检测系统

1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 研究背景与意义 近年来,随着计算机视觉技术的迅速发展,物体检测成为了计算机视觉领域的一个重要研究方向。物体检测的目标是在给定图像中准确地识别和定位…

2023-12-07 LeetCode每日一题(重新规划路线)

2023-12-07每日一题 一、题目编号 1466. 重新规划路线二、题目链接 点击跳转到题目位置 三、题目描述 n 座城市,从 0 到 n-1 编号,其间共有 n-1 条路线。因此,要想在两座不同城市之间旅行只有唯一一条路线可供选择(路线网形成…

Pytorch线性回归教程

import torch import numpy as np import torch.nn as nn import matplotlib.pyplot as plt生成测试数据 # 长期趋势 def trend(time, slope0):return slope * time# 季节趋势 def seasonal_pattern(season_time):return np.where(season_time < 0.4,np.cos(season_time * …

el-tooltip (element-plus)修改长度

初始状态&#xff1a; 修改后&#xff1a; 就是添加 :teleported"false"&#xff0c;问题解决&#xff01;&#xff01;&#xff01; <el-tooltipeffect"dark"content"要求密码长度为9-30位&#xff0c;需包含大小写字母、数字两种或以上与特殊字…

你的轻量化设计能有效提高模型的推理速度吗?

写在前面&#xff1a;本博客仅作记录学习之用&#xff0c;部分图片来自网络&#xff0c;如需引用请注明出处&#xff0c;同时如有侵犯您的权益&#xff0c;请联系删除&#xff01; 文章目录 前言预备知识模型指标MACs计算卷积MACs全连接MACs激活函数MACsBN MACs 存储访问存储构…

EasyExcel如何读取全部Sheet页数据方法

一、需求描述 Excel表格里面大约有20个sheet页&#xff0c;每个sheet页65535条数据&#xff0c;需要读取全部数据&#xff0c;并导入至数据库。 找了好多种方式&#xff0c;EasyExcel比较符合&#xff0c;下面看代码。 二、实现方式 采用EasyExcel框架的doReadAll()方法 1、…

千梦网创:为什么要做一个专业的倒爷?

培训是什么&#xff1f;教书育人&#xff0c;传递价值。 割韭菜是什么&#xff1f;贩卖焦虑&#xff0c;制造需求。 做培训难还是割韭菜难&#xff1f;不言而喻。 有人边割边培&#xff0c;有人边培边割&#xff0c;有人只割不培&#xff0c;只培不割的有&#xff0c;但我接…

【移动端vant 地址选择滑动不了】

分析&#xff1a; H5页面直接在浏览器打开是没有任何问题的&#xff0c;但是内嵌到小程序中就会出现&#xff0c;目前已出现在抖音&#xff0c;快手&#xff0c;小程序中&#xff0c;其他的没有试 大致看了一下&#xff0c;滑动不了的原因&#xff0c;可能是页面禁止滑动或滚动…

Linux下查看端口占用

第一种&#xff1a;通过命令查看 1.netstat -ntulp&#xff1a;查看所有的被占用的端口 在列表中最后一列就列出了&#xff0c;某个端口被占用的进程 其中&#xff1a; -t : 指明显示TCP端口 -u : 指明显示UDP端口 -l : 仅显示监听套接字(所谓套接字就是使应用程序能够读写与收…