URL 管理器

news2025/10/30 15:44:11

基本介绍

对外接口

对外提供两个接口：一个可以提取URL，一个可以增加URL，分别对应图上的1和2。

当要爬取某个网页时，则可以从1接口提取出该网页的URL进行爬取。

有时候爬取的网页内容中会包含别的网页链接，即包含有URL，此时可以把包含的URL提取出来，放入URL管理器，以便后续进行爬取，则可以利用2接口向URL管理器新增URL

实现逻辑

图中的3：从URL管理器取出一个URL时，将该URL的状态进行更改，如已爬取、爬取成功、爬取失败等（有多少种状态根据具体需求定义），以防止重复对同一URL进行爬取。

图中的4：把从爬取的网页内容中解析出来的URL放入到URL管理器中前，需要判断URL管理器中是否已存在该URL，已存在就不需要再添加，还是防止对同一URL进行重复爬取。

数据存储

实现URL管理器有5、6、7三种，

图中的5：利用python内存实现。

用python中的set集合实现URL管理器，set集合可以实现自动去重，而且可以快速的判断集合中是否已存在某个元素。

已爬取的URL可以用一个set来表示，未爬取的URL用另一个set集合表示。从未爬取的URL集合中取出一个URL进行爬取，并将该URL标记为已爬取URL，放入到已爬取URL的set集合中。当要新增一个URL时，即把新增URL放入未爬取URL集合中，如果未爬取URL集合已存在该URL，则不会重复添加，实现了图中4的逻辑。

如果一个URL有多种状态，如正在爬取中，爬取失败、爬取成功等，可以为每种状态设置一个set集合进行存储。当状态发生转变时，从相应的集合中取出放入到转变后的集合中。

图中的6：利用Redis实现

实现逻辑和python内存类似，区别在于Python内存一旦断电就要从头开始执行，但是Redis可以保存中间状态，断电后数据不会消失

图中的7：利用MySQL数据库表

可以利用一张urls表进行存储，该表中有两个字段：url 和 url 对应的状态（已爬取、未爬取等）

URL 管理器的代码实现（python内存实现）

class UrlManage:
    """URL 管理器"""
    def __init__(self):
        # 待爬取 URL 集合
        self.new_urls = set()
        # 已爬取 URL 集合
        self.old_urls = set()

    def get_url(self):
        """从URL管理器中获取URL进行爬取"""
        if self.has_new_url():
            url = self.new_urls.pop()
            self.old_urls.add(url)
            return url
        return None

    def add_new_url(self, url):
        """新增一个 URL"""
        if url is None or len(url) == 0:
            return
        if url in self.old_urls or url in self.new_urls:
            return
        self.new_urls.add(url)

    def add_new_urls(self, *urls):
        """批量新增 URL"""
        if urls is None or len(urls) == 0:
            return
        for url in urls:
            self.add_new_url(url)

    def has_new_url(self):
        """判断是否还有待爬取 URL"""
        return len(self.new_urls) > 0

# 测试代码
if __name__ == '__main__':
    url_manage = UrlManage()
    url_manage.add_new_url('url1')
    url_manage.add_new_urls('url1', 'url2', 'url3')
    print('已爬取set：', url_manage.old_urls, '未爬取set：', url_manage.new_urls)
    print('-' * 20)

    url = url_manage.get_url()
    print(url)
    print('已爬取set：', url_manage.old_urls, '未爬取set：', url_manage.new_urls)
    print('-' * 20)

    url = url_manage.get_url()
    print(url)
    print('已爬取set：', url_manage.old_urls, '未爬取set：', url_manage.new_urls)
    print('-' * 20)

    url = url_manage.get_url()
    print(url)
    print('已爬取set：', url_manage.old_urls, '未爬取set：', url_manage.new_urls)
    print('-' * 20)

    print(url_manage.has_new_url())
    print('已爬取set：', url_manage.old_urls, '未爬取set：', url_manage.new_urls)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1020760.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！