任务目标

在浏览器加载网页的过程中，网页的有些元素时常会有延迟的现象，在HTML元素还没有准备好的情况下去操作这个HTML元素必然会出现错误，这个时候Selenium需要等待HTML元素。例如：上节实例中出现的select的下拉框元素，选项填充需要执行JavaScript脚本。
我们来学习如果使用Selenium等待延迟的HTML元素并最终爬取元素的数据。

创建Ajax网站

phone.html 如下：

注：phone.html 文件要位于 templates 这个目录下

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Document</title>
</head>
<body>
    <form name="frm" action="/">
        <div>
            <span id="msg"></span>
            <label for="xmark"></label><select id="xmark"></select>
        </div>
        <input type="submit" value="提交" id="submit" disabled="true">
    </form>
</body>
<script>
    function loadMarks(){
        var http=new XMLHttpRequest(); 
        http.open("get","/marks",true);
        http.send(null);
        http.onreadystatechange=function(){
            // onreadystatechange存储函数，每当 readyState 属性改变时，就会触发调用该函数。
            // readystate存有 XMLHttpRequest 的状态。从 0 到 4 发生变化。
            // 0: 请求未初始化    1: 服务器连接已建立     2: 请求已接收    3: 请求处理中    4: 请求已完成，且响应已就绪
            // status，200（OK），404（未找到页面）
            if (http.readyState===4 && http.status===200){ //请求完成并且成功返回
                var xmark=document.getElementById("xmark"); 
                var xcolor=document.getElementById("xcolor"); 
                marks=eval("("+http.responseText+")");// JS中将JSON的字符串解析成JS对象格式
                for(var i=0;i<marks.length;i++) 
                    xmark.options.add(new Option(marks[i],marks[i])); 
                    document.getElementById("submit").disabled=false;
                    document.getElementById("msg").innerHTML="品牌";
            }
        };
    }
	loadMarks();
</script>
</html>

创建服务器程序

服务器server.py程序如下：

import flask
import json
import time

app = flask.Flask(__name__)


@app.route("/")
def index():
    return flask.render_template("phone.html")


@app.route("/marks")
def loadMarks():
    time.sleep(1)
    marks = ["华为", "苹果", "三星"]
    return json.dumps(marks)  # 将JSON的对象格式转化成str格式


app.run()

模拟网站结果如下：

Selenium强制等待

必须等待的时间，缺点：不能准确把握需要等待的时间（有时操作还未完成，等待就结束了，导致报错；有时操作已经完成了，但等待时间还没有到，浪费时间），如果在用例中大量使用，会浪费不必要的等待时间，影响测试用例的执行效率。

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

driver = webdriver.Chrome()
driver.get("http://127.0.0.1:5000")

# 设置强制等待1.5秒，
time.sleep(1.5)

marks = driver.find_elements(By.XPATH, "//select/option")
print("品牌数量:", len(marks))
for mark in marks:
    print(mark.text)
form = driver.find_element(By.XPATH, "//form")
print(form.get_attribute("innerHTML").strip())
time.sleep(5)
driver.close()

Selenium隐性等待

该方法是浏览器对象调用的方法，即设置浏览器打开网页均等待的时长，同样如果设置的隐性等待时间不够长，还是爬取不到需要的数据。

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

driver = webdriver.Chrome()

# 设置隐性加载时间1.5秒，即网页在加载时最长等待 seconds 秒
driver.implicitly_wait(1.5)

driver.get("http://127.0.0.1:5000")
marks = driver.find_elements(By.XPATH, "//select/option")
print("品牌数量:", len(marks))
for mark in marks:
    print(mark.text)
form = driver.find_element(By.XPATH, "//form")
print(form.get_attribute("innerHTML").strip())
time.sleep(5)
driver.close()