概念
XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。
XPath定位在爬虫和自动化测试中都比较常用,通过使用路径表达式来选取 XML 文档中的节点或者节点集,熟练掌握XPath可以极大提高提取数据的效率。
因为XPath解析数据,是基于元素(Element)的树形结构,所以学习XPath前,先了解一下html的结构及常用标签。
XPath常用的定位方式:
1.元素属性,快速定位,唯一属性: //*[@id="images"]
2.层级与属性结合,解决没有属性问题://div[@id="images"]/a[1]
3.属性与逻辑结合,解决多个属性重名问题://*[@id="su" and @class="bg s_btn" ]
那么,如何在浏览器中查找和验证XPath?
1.使用Chrome浏览器的开发者工具,可以快速获取XPath表达式:
点击选择光标,选择页面上的元素位置,在控制台右键选择Copy XPath,表达式就复制到粘贴板中了。
2.验证表达式:
按键“Ctrl+F”,在控制台中输入需要检查的XPath路径,对应的元素会有的颜色标识
熟练使用XPath来定位页面中的元素,能有效帮助你在开发过程中提升效率和完成工作