一、实现的目标
在使用爬虫获取网页html数据时,解析到的链接是/或./ 开头的相对链接,不是以http开头的链接,如:/picture/0/cca65350643c441e80d390ded3975db0.png 。此时需要完成对该链接的补全,以得到正确的链接。此外,我们需要将解析到的html数据保存到起来,将来需要展示在网页端,如果链接不完整,则html中的图片、附件等链接将无法正常显示出来,比如一段html数据:
<p style="text-indent:2em;" align="center">
<img alt="" src="/attached/image/20170123/20170123085007_663.jpg" width="800" height="533"/>
</p>
<p style="text-indent:2em;" align="center">
<img alt="" src="/attached/image/20170123/20170123085027_727.jpg" width="800" height="533"/>
</p>
<p style="text-indent:2em;" align="center">
<img alt=