第二章

数据抓取

首先，我们会介绍一个叫做Firebug Lite 的浏览器扩展，用于检查网页内容，如果你有一些网络开发背景的话，可能己经对该扩展十分熟悉了。然后，我们会介绍三种抽取网页数据的方法，分别是正则表达式、 Beauti削Soup up 和lxml 。最后，我们将对比这三种数据抓取方法。

2.1 分析网页

想要了解一个网页的结构如何，可以使用查看源代码的方法。在大多数浏览器中，都可以在页面上右键单击选择 ViView page source 选工页工页，获取网页的源代码，如图 2. 1 所示。我们可以在 H刊伍的下述代码中找到我们感兴趣的数据。

<table>

<tr id＝ ”place s_national_flag_row ” ＞＜td class＝”w2p_f l ” ＞＜label

for＝ ”place s_national_flag ”

2.2.2 Beautiful Soup

Beautifuful Soup

是一个非常流行的Pythython模块。该模块可以解析网页，并提供定位内容的便捷接口。如果你还没有安装该模块，可以使用下面的命令安装其最新版本：pip install beautifuls。up4使用 Beauautiful Soup 的第一步是将己下载的 HTML 内容解析为 soup 文档。由于大多数网页都不具备良好的 HTML 格式，因此 Beautiful Soup需要对其实际格式进行确定。例如，在下面这个简单网页的列表中，存在属性值两侧引号缺失和标签未闭含的问题。

<li>Area

<li>Population

< /ul>

2.2.3 Lxml

Lxml 是基于 l ibxml 2 这一 XML 解析库的 Python封装。该模块使用 C语言编写，解析速度比 Beauautiful Soup 更快，不过安装过程也更为复杂。最新的安装说明可以参考 http : / / Lxml . de / instal l at i on . html o和 Beauautiful Soup 一样，使用 lxml 模块的第一步也是将有可能不合法的HTML 解析为统一格式。下面是使用该模块解析同一个不完整 HTML 的例子。

》＞ import lxml . html

》＞ bro ken html ＝ ’ ＜ul clas s=country><li>Area<li>Population</ul＞ ’ 》＞ tree = lxml . html . fromstring (broken_ html ) # parse the HTML

》＞ fixed html = lxml . html . tos tring ( tree , pretty_pr int=True )

》＞ print fixed_html

<li>Popul ation< /li>

< /ul>

的例子相同

2.2.5 结论表

2. 1 总结了每种抓取方法的优缺点 。

如果你的爬虫瓶颈是下载网页，而不是抽取数据的话，那么使用较慢的方法（如 Beauautiful Soup ）也不成问题。如果只需抓取少量数据，并且想要避免额外依赖的话，那么正则表达式可能更加适合。不过，通常情况下，l xml 是抓取数据的最好选择，这是因为该方法既快速又健壮而正则表达式和Beautiful Soup up 只在某些特定场景下有用。

2.2.6 为链接爬虫添加抓取回调

前面我们已经了解了如何抓取国家数据，接下来我们需要将其集成到上一章的链接爬虫当中。要想复用这段爬虫代码抓取其他网站，我们需要添加一个 cal lback参数处理抓取行为。 cal lba c k 是一个函数在发生某个特定事件之后会调用该函数（在本例中，会在网页下载完成后调用）。该抓取 cal lback 函数包含url和html 两个参数，并且可以返回一个待爬取的URL 列表。下面是其实现代码，可以看出在 Python 中实现该功能非常简单。

de f link_crawler ( ... , , s c rape_cal lbac k=None ):

links = []

if scrapape_callback :

links . extend ( scrape__callback (url , ht皿1） or [ ] )

2.3 本章小结

在本章中，我们介绍了几种抓取网页数据的方法。正则表达式在一次性数据抓取中非常有用，此外还可以避免解析整个网页带来的开销：BeautifulSoup提供了更高层次的接口，同时还能避免过多麻烦的依赖。不过通常情况下，lxml 是我们的最佳选择，因为它速度更快，功能更加丰富，因此在接下来的例子中我们将会使用 l xml 模块进行数据抓取。

下一章，我们会介绍缓存技术，这样就能把网页保存下来，只在爬虫第一次运行时才会下载网页。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/652389.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！