Python控制本地浏览器并获取网页数据

news2026/2/7 23:52:50

1、前言

在自动化办公中，我们经常需要利用爬虫技能去批量获取网页的数据，但是有时候我们在利用爬虫的时候，会遇到一个问题，就是登录的时候要携带参数，不如账号、密码、其他的加密信息

就好比我现在公司，好多网址都要放一个加密的信息，例如：时间戳+账号+密码，在经过base64加密，但是我们公司的那个我实在不知道怎么加密。。。

所以曲线救国，如果在已登录的网页中，是否可以操控它，让他自动查询，并爬取下来想要的数据呢，这一点完全可行！

主要靠这行代码：

 cd C:\Program Files (x86)\Google\Chrome\Application & chrome.exe --remote-debugging-port=9222 --user-data-dir="D:\selenum\AutomationProfile"

分析：

1、：cd C:\Program Files (x86)\Google\Chrome\Application，这是你的谷歌浏览器的位置

2、：& chrome.exe --remote-debugging-port=9222 --user-data-dir=“D:\selenum\AutomationProfile”

绑定一个端口号，可随意写一个，并在D盘创建一个文件及，忽略我单词写错了😂

填好之后将代码，粘贴进cmd,按下回车，会打开一个新的浏览器，那么这个浏览器就是我们可控制的浏览器

在这里插入图片描述

视频展示

在这里插入图片描述

2、那么如何操控这个浏览器呢，代码如下：

运行之前请将自己浏览器版本的chrome驱动器下载下来备用：点我进入官网下载

测试进入百度

查看目录

只要把谷歌驱动器放进去就好了

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")
chrome_driver = "./谷歌驱动器(勿动)/chromedriver.exe"
driver = webdriver.Chrome(chrome_driver, chrome_options=chrome_options)

driver.get("https://www.baidu.com/")