爬虫 selenium语法（八）

news2025/4/12 10:18:46

一、为什么使用selenium

二、selenium语法——元素定位

1.根据 id 找到对象

2.根据标签属性的属性值找到对象

3.根据Xpath语句获取对象

4.根据标签名获取对象

5.使用bs语法获取对象

6.通过链接文本获取对象

三、selenium语法——访问元素信息

1.获取属性的属性值

2.获取标签名

3.获取元素文本

四、selenium 交互

五、无界面操作

参考

1.什么是selenium？

selenium是一个用于web应用程序测试的工具。
selenium测试直接运行在浏览器中，就像真正的用户一样。
支持通过各种driver（FirefoxDriver，IternetExplorerDriver，OperaDriver，ChromeDriver）驱动真实浏览器完成测试。
selenium也是支持无界面浏览器操作的。

2.为什么使用selenium？

        模拟浏览器功能，自动执行网页中的js代码，实现动态加载。

3.如何安装selenium？

  安装selenium及谷歌驱动

4.selenium的使用步骤？

导入：from selenium import webdriver
创建谷歌浏览器操作对象：

        path = 谷歌浏览器驱动文件路径

        browser = webdriver.Chrome(path)

访问网址

        url = 要访问的网址

        browser.get(url)

selenium 的元素定位

      元素定位：自动化要做的就是模拟鼠标和键盘来操作这些元素，如点击、输入等等。操作这些元素前首先要找到它们，webdriver提供很多定位元素的方法。

       方法：

   （1）find_element(By.ID, 'id 名')

                eg:button = browser.find_element(By.ID, ‘su’)

   （2）find_element(By.NAME, 'name 名')

                eg:name = browser.find(By.NAME,‘wd’)

   （3）find_elements(By.XPATH, 'Xpath语法')

eg:xpath = browser.find_elements(By.XPATH, "//input[@id-"su"]")

   （4）find_elements(By.TAG_NAME,' Tag name ')

eg:names = browser.find_elements (By.TAG_NAME, "input")

   （5）find_elements(By.CSS_SELECTLOR, ' bs4语法 ')

eg:my_input = browser.find_elements(By.CSS_SELECTLOR, "#kw")[0]

（6）find_elements(By.LINK_TEXT, ' 链接文本')

eg:browser.find_elements(By.LINK_TEXT,"新闻")

访问元素信息

       获取元素属性

              .get_attribute(‘class’)

       获取元素文本

              .text

       获取id

              .id

       获取标签名

              .tag_name

selenium 交互

（1）点击：click()

（2）输入：send_keys()

（3）后退操作：browser.back()

（4）前进操作：browser.forward()

（5）模拟js滚动：

js = ‘document.documentElement.scrollTop=100000’

browser.execute_script(js) 执行js 代码

（6）获取网页代码：page_source

（7）退出：browser.quit()

一、为什么使用selenium

import urllib

url = 'http://www.jd.com'

response = urllib.request.urlopen(url)

content = response.read().decode()
print(content)

我们模拟浏览器获取网页内容，然后搜索获取的内容，是否有 “J_seckill” 这个元素

可以看到，显示没有该元素。

原因是验证你的浏览器不是真实的浏览器，所以没有返回数据。

但是！！！用selenium就可以解决这个问题。

# （1）导入
from selenium import webdriver
# from selenium.webdriver.common.by import BY

# （2）创建浏览器操作对象
browser = webdriver.Chrome()

# （3）访问网站
url = 'https://www.jd.com'
browser.get(url)

# （4）获取源码
# page_source获取网页源码
content = browser.page_source
print(content)