1.网页结构分析
提取其中一部分核心介绍 :
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Title</title>
</head>
<body>
<div class="item masonry-brick" style="position: absolute; top: 0px; left: 202px;">
<img src="//270242aa339_s.jpg" style="height: 279px; display: block;" data-original="/a339_s.jpg" class="lazy"
alt="野生绿头鸭图片">
<div class="bot-div">
<a class="name" href="/tupian/22121952142.htm" title="野生绿头鸭图片" target="_blank">野生绿头鸭图片</a>
</div>
</div>
</body>
</html>
拿出其中最终要的一部分内容进行分析
<a class="name" href="/tupian/22121952142.htm" title="野生绿头鸭图片" target="_blank">野生绿头鸭图片</a>
a标签里面的 :
<a class="name" href="/tupian/22121952142.htm" title="野生绿头鸭图片" target="_blank">野生绿头鸭图片</a>
其中下面的属性是属性1=“属性值2” 属性2=“属性值2
class="name"
href="/tupian/22121952142.htm"
title="野生绿头鸭图片"
target="_blank"
================================
野生绿头鸭图片
这个就是文本内容
<a 属性1=“属性值2” 属性2=“属性值2”>文本内容</a>
网页爬虫核心就是获取上面的几个内容,解决如何找到这个属性,以及如何获取属性的值的过程
上面是属性:
在简单介绍下元素的定位
<body>
<div class="item masonry-brick" style="position: absolute; top: 0px; left: 202px;">
<img src="//270242aa339_s.jpg" style="height: 279px; display: block;" data-original="/a339_s.jpg" class="lazy"
alt="野生绿头鸭图片">
<div class="bot-div">
<a class="name" href="/tupian/22121952142.htm" title="野生绿头鸭图片" target="_blank">野生绿头鸭图片</a>
</div>
</div>
</body>
元素定位:
我的需求就是找到这个页面的jpg图片的地址
img src="//270242aa339_s.jpg"
定位1:按照一层层定位“/”
/body/div/img
定位2:从任意位置一下定位过去“//”
//img[@属性名称=“属性值”” ] 属性定位
元素获取值:
1.获取/body/div/img的文本值就是
/body/div/img/text() --获取到文本内容
2.获取元素的属性值:如获取img src="//270242aa339_s.jpg"中的src中的270242aa339_s.jpg内容
img src="//270242aa339_s.jpg"
//img/@src 就是可以获取到img的src内容