selenium消除启动特征避免被反爬
启动特征很多,如何消除selenium启动特征呢?这个也是因站而异,如果规避常规的检测,做到以下2点就可以。
1 是消除window.navigator.webdriver的值;
2 是修改chromedriver.exe的源码,改掉$cdc_xxx的值(用同等数量字符替换即可)。
以往在防止window.navigator.webdriver被识别时的方法是
from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptions
option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
driver = Chrome(options=option)
但在高版本的谷歌浏览器下,通过以上方式已经无效了,最新解决办法详情查看http://www.python66.com/bbs/162.html
另外,还有一种比较强大的配置可以去除webdriver一些特征。
屏蔽webdriver特征
option.add_argument("--disable-blink-features")
option.add_argument("--disable-blink-features=AutomationControlled")
有些站检测的非常全面,上述做法不能规避检测,怎么办呢?
如果要彻底干净一些,可以借助1段js,这段js可以干掉所有的webdriver特征!用 相关的检测工具站也检测不出来。感兴趣可以联系站长。
即使所有特征被干掉了,依然有办法可以检测(了解如何检测可以加站长一起交流),遇到这样的站就可以考虑放弃selenium了。
如果不想放弃,可以在cmd下指定端口手动启动谷歌浏览器,然后在脚本中接管这个浏览器。这样就和正常启动浏览器无任何区别。详情查看selenium接管本地浏览器
此外,上述webdriver特征的去除也可以考虑用中间人代理的方式解决,本人从网络上收集了一篇比较靠谱的文章。(原理不难,就是给浏览器找个代理,代理获取网页后把对方页面的一些检测代码修改后再返回给浏览器,有点类似于fiddler、charles这些抓包工具)。
3 selenium使用已经打开的浏览器
Selenium 本身不支持直接连接到一个已经打开的浏览器页面。Selenium 启动的浏览器实例是一个全新的会话,它与手动打开的浏览器页面是分开的。但是,有一些变通的方法可以实现类似的效果。
一种方法是通过附加代理连接到已经打开的浏览器。下面是如何实现这一目标的步骤。
配置 Selenium WebDriver 以连接到现有的 Chrome 实例
1) 启动 Chrome 浏览器:以调试模式启动 Chrome 浏览器,使其监听指定端口。
注意
启动 Chrome 浏览器时使用调试端口,找到chrome的安装位置,执行命令:
确保 Chrome 的可执行文件路径正确,并指定一个用户数据目录,以便保留浏览器状态。
参数说明:
–remote-debugging-port=9222:指定 Chrome 浏览器的远程调试端口。
–user-data-dir=“C:\path\to\your\chrome\profile”:指定 Chrome 的用户数据目录。
chrome.exe --remote-debugging-port=9222 --user-data-dir="C:\path\to\your\chrome\profile"
# --user-data-dir="C:\path\to\your\chrome\profile" 目录需要提前创建好
2) 编写脚本连接到这个已经运行的 Chrome 实例:
参数说明:
通过调试地址 127.0.0.1:9222 连接到已经运行的 Chrome 实例。
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
# 配置 ChromeDriver 的选项以连接到已经运行的 Chrome 实例
chrome_options = Options()
chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")
# 获取当前脚本的目录
import os
current_dir = os.path.dirname(os.path.abspath(__file__))
chrome_driver_path = os.path.join(current_dir, 'chromedriver')
# 设置 ChromeDriver 的服务
service = Service(chrome_driver_path)
# 启动 WebDriver 并连接到现有的 Chrome 实例
driver = webdriver.Chrome(service=service, options=chrome_options)
# 现在你可以使用 Selenium 控制已经打开的 Chrome 实例
driver.get("https://www.baidu.com")
# 打印网页标题
print(driver.title)
# 关闭浏览器
driver.quit()
通过这种方式,你可以让 Selenium 控制一个已经打开的 Chrome 浏览器实例,从而在现有会话中执行自动化任务。