链家网房源价格信息的爬虫分析工具

news2025/1/10 23:28:53

亿牛云代理.jpg

导语

链家网是中国最大的房地产交易平台之一,提供了全国各地的房源信息,包括价格、面积、户型、楼层、朝向、小区、地理位置等。这些信息对于房地产市场的分析和预测有着重要的价值,但是链家网并没有提供方便的数据接口,因此需要使用爬虫技术来抓取和分析这些数据。本文将介绍如何使用Scrapy框架和代理IP技术来实现一个链家网房源价格信息的爬虫分析工具,该工具可以根据指定的城市和区域,抓取并保存链家网上的房源信息,并对数据进行简单的统计和可视化。

概述

本文使用的爬虫技术主要包括以下几个方面:

  • Scrapy框架:Scrapy是一个用Python编写的开源爬虫框架,提供了强大的功能和灵活的扩展性,可以快速地开发高效的爬虫程序。
  • 代理IP技术:由于链家网有反爬虫机制,如果使用同一个IP地址频繁地访问网站,可能会被封禁或者返回错误页面。为了避免这种情况,可以使用代理IP技术,即通过不同的IP地址来访问目标网站,从而降低被检测到的风险,亿牛云爬虫代理是一个提供稳定、高效、安全的爬虫代理服务的平台,可以通过域名、端口、用户名、密码等方式来获取代理IP,并且支持多种协议和格式。

正文

爬虫项目结构

本文使用Scrapy框架来创建一个名为lianjia的爬虫项目,其结构如下:

lianjia/
├── lianjia/
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders/
│       ├── __init__.py
│       └── lianjia_spider.py
└── scrapy.cfg

其中,主要涉及到以下几个文件:

  • items.py:定义了要抓取和保存的数据结构,即Item类。
  • middlewares.py:定义了用于处理请求和响应的中间件类,主要用于设置代理IP。
  • pipelines.py:定义了用于处理Item对象的管道类,主要用于保存数据到文件或数据库。
  • settings.py:定义了爬虫项目的全局配置参数,例如日志级别、并发数、下载延迟等。
  • lianjia_spider.py:定义了用于抓取链家网房源信息的爬虫类,即LianjiaSpider类。

Item类定义

在items.py文件中,定义了一个名为LianjiaItem的类,用于存储链家网房源信息。该类继承了scrapy.Item类,并定义了以下几个字段:

  • title:房源标题,例如“南北通透三居室 采光好 精装修”。
  • price:房源总价,单位为万元,例如“450”。
  • unit_price:房源单价,单位为元/平方米,例如“37889”。
  • area:房源面积,单位为平方米,例如“118.8”。
  • layout:房源户型,例如“3室2厅”。
  • floor:房源楼层,例如“中楼层(共6层)”。
  • direction:房源朝向,例如“南 北”。
  • community:房源所在小区,例如“金地名京”。
  • location:房源所在地理位置,包括区域、商圈和街道,例如“朝阳 望京 望京西园四区”。
  • url:房源详情页的链接,例如“https://bj.lianjia.com/ershoufang/101113667258.html”。

LianjiaItem类的代码如下:

# 导入scrapy模块
import scrapy

# 定义LianjiaItem类
class LianjiaItem(scrapy.Item):
    # 定义字段
    title = scrapy.Field()
    price = scrapy.Field()
    unit_price = scrapy.Field()
    area = scrapy.Field()
    layout = scrapy.Field()
    floor = scrapy.Field()
    direction = scrapy.Field()
    community = scrapy.Field()
    location = scrapy.Field()
    url = scrapy.Field()

中间件类定义

在middlewares.py文件中,定义了一个名为ProxyMiddleware的类,用于设置代理IP。该类继承了scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware类,并重写了process_request方法。该方法的作用是在每个请求发送之前,根据亿牛云爬虫代理的域名、端口、用户名、密码等参数,生成一个代理IP,并将其设置到请求的meta属性中。这样,请求就会通过代理IP来访问目标网站。

ProxyMiddleware类的代码如下:

# 导入scrapy模块
import scrapy
# 导入HttpProxyMiddleware类
from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddleware

# 定义ProxyMiddleware类
class ProxyMiddleware(HttpProxyMiddleware):
    # 重写process_request方法
    def process_request(self, request, spider):
        # 设置亿牛云 爬虫代理的域名、端口、用户名、密码等参数
        proxy_host = "www.16yun.cn"
        proxy_port = "7020"
        proxy_user = "16YUN"
        proxy_pass = "16IP"

        # 生成代理IP
        proxy_ip = f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}"

        # 将代理IP设置到请求的meta属性中
        request.meta["proxy"] = proxy_ip

管道类定义

在pipelines.py文件中,定义了一个名为LianjiaPipeline的类,用于保存数据到文件或数据库。该类继承了scrapy.pipelines.files.FilesPipeline类,并重写了process_item方法。该方法的作用是在每个Item对象被抓取之后,将其转换为字典格式,并使用json模块将其追加到一个名为lianjia.json的文件中。这样,就可以将所有抓取到的数据保存到一个文件中。

LianjiaPipeline类的代码如下:

# 导入scrapy模块
import scrapy
# 导入FilesPipeline类
from scrapy.pipelines.files import FilesPipeline
# 导入json模块
import json

# 定义LianjiaPipeline类
class LianjiaPipeline(FilesPipeline):
    # 重写process_item方法
    def process_item(self, item, spider):
        # 将Item对象转换为字典格式
        data = dict(item)

        # 打开一个名为lianjia.json的文件,如果不存在则创建
        with open("lianjia.json", "a", encoding="utf-8") as f:
            # 使用json模块将数据转换为json格式,并追加到文件中,每行一个数据
            json.dump(data, f, ensure_ascii=False)
            f.write("\n")

        # 返回Item对象
        return item

配置参数设置

在settings.py文件中,设置了一些爬虫项目的全局配置参数,例如日志级别、并发数、下载延迟等。这些参数可以根据实际情况进行调整,以提高爬虫的性能和稳定性。以下是一些重要的参数的说明:

  • LOG_LEVEL:设置日志的输出级别,可以选择DEBUG、INFO、WARNING、ERROR等,用于控制日志的详细程度。默认为INFO。
  • CONCURRENT_REQUESTS:设置并发请求的最大数量,即同时发送的请求的数量。默认为16。
  • DOWNLOAD_DELAY:设置下载请求之间的延迟时间,单位为秒。用于避免过快地访问目标网站,导致被封禁或者返回错误页面。默认为0。
  • ITEM_PIPELINES:设置启用的管道类及其优先级,用于处理Item对象。优先级越低,越先执行。本文只启用了LianjiaPipeline类,并设置其优先级为300。
  • DOWNLOADER_MIDDLEWARES:设置启用的中间件类及其优先级,用于处理请求和响应。优先级越低,越先执行。本文只启用了ProxyMiddleware类,并设置其优先级为100。

settings.py文件的部分代码如下:

# 设置日志级别
LOG_LEVEL = "INFO"

# 设置并发请求的最大数量
CONCURRENT_REQUESTS = 16

# 设置下载延迟
DOWNLOAD_DELAY = 0.5

# 设置启用的管道类及其优先级
ITEM_PIPELINES = {
   "lianjia.pipelines.LianjiaPipeline": 300,
}

# 设置启用的中间件类及其优先级
DOWNLOADER_MIDDLEWARES = {
   "lianjia.middlewares.ProxyMiddleware": 100,
}

爬虫类定义

在lianjia_spider.py文件中,定义了一个名为LianjiaSpider的类,用于抓取链家网房源信息。该类继承了scrapy.Spider类,并定义了以下几个属性和方法:

  • name:爬虫的名称,用于运行爬虫时指定。本文设置为"lianjia"。
  • allowed_domains:允许爬取的域名列表,用于过滤不相关的链接。本文设置为[“lianjia.com”]。
  • start_urls:起始URL列表,用于开始爬取的页面。本文根据指定的城市和区域,生成对应的链家网二手房列表页的链接。
  • parse:解析响应的方法,用于提取数据和链接。本文使用XPath语法来提取房源信息和下一页链接,并生成Item对象和Request对象。

LianjiaSpider类的代码如下:

# 导入scrapy模块
import scrapy
# 导入LianjiaItem类
from lianjia.items import LianjiaItem

# 定义LianjiaSpider类
class LianjiaSpider(scrapy.Spider):
    # 定义爬虫名称
    name = "lianjia"

    # 定义允许爬取的域名列表
    allowed_domains = ["lianjia.com"]

    # 定义起始URL列表
    def start_requests(self):
        # 设置要爬取的城市和区域,可以根据需要修改
        city = "bj"
        region = "chaoyang"

        # 生成起始URL
        start_url = f"https://{city}.lianjia.com/ershoufang/{region}/"

        # 发送请求,并指定回调函数为parse
        yield scrapy.Request(url=start_url, callback=self.parse)

    # 定义解析响应的方法
    def parse(self, response):
        # 使用XPath语法提取房源信息列表
        house_list = response.xpath("//ul[@class='sellListContent']/li")

        # 遍历房源信息列表
        for house in house_list:
            # 创建一个LianjiaItem对象
            item = LianjiaItem()

            # 提取房源标题,并赋值给item的title字段
            item["title"] = house.xpath(".//div[@class='title']/a/text()").get()

            # 提取房源总价,并赋值给item的price字段
            item["price"] = house.xpath(".//div[@class='priceInfo']/div[@class='totalPrice']/span/text()").get()

            # 提取房源单价,并赋值给item的unit_price字段
            item["unit_price"] = house.xpath(".//div[@class='priceInfo']/div[@class='unitPrice']/span/text()").get()

            # 提取房源面积,并赋值给item的area字段
            item["area"] = house.xpath(".//div[@class='houseInfo']/text()")\
                .re_first(r"\d+\.?\d*平米")

            # 提取房源户型,并赋值给item的layout字段
            item["layout"] = house.xpath(".//div[@class='houseInfo']/text()")\
                .re_first(r"\d+室\d+厅")

            # 提取房源楼层,并赋值给item的floor字段
            item["floor"] = house.xpath(".//div[@class='positionInfo']/text()")\
                .re_first(r".*楼层")

            # 提取房源朝向,并赋值给item的direction字段
            item["direction"] = house.xpath(".//div[@class='positionInfo']/text()")\
                .re_first(r"[东南西北 ]+")

            # 提取房源所在小区,并赋值给item的community字段
            item["community"] = house.xpath(".//div[@class='positionInfo']/a/text()")\
                .get()

            # 提取房源所在地理位置,并赋值给item的location字段
            item["location"] = "".join(house.xpath(".//div[@class='positionInfo']/a/text()")\
                .getall()[1:])

            # 提取房源详情页的链接,并赋值给item的url字段
            item["url"] = house.xpath(".//div[@class='title']/a/@href")\
                .get()

            # 返回Item对象
            yield item

        # 使用XPath语法提取下一页链接
        next_page = response.xpath("//div[@class='page-box fr']//@page-url")\
            .get()

        # 如果存在下一页链接,继续发送请求,并指定回调函数为parse
        if next_page:
            # 拼接完整的URL
            next_url = response.urljoin(next_page)

            # 发送请求,并指定回调函数为parse
            yield scrapy.Request(url=next_url, callback=self.parse)

结语

本文介绍了如何使用Scrapy框架和代理IP技术来实现一个链家网房源价格信息的爬虫分析工具,该工具可以根据指定的城市和区域,抓取并保存链家网上的房源信息,并对数据进行简单的统计和可视化。本文只是一个简单的示例,实际应用中还可以根据需要进行更多的优化和扩展,例如增加异常处理、增加数据清洗、增加数据分析、增加数据可视化等。希望本文能对你有所帮助,谢谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1024033.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

用flask框架flask-sock和websocket创建一个自己的聊天界面

WebSocket 协议在10年前就已经标准化了(在2011年,你能相信吗?)所以我相信你不需要介绍。但是如果你不熟悉它,WebSocket 是 HTTP 协议的一个扩展,它在客户端和服务器之间提供了一个永久的、双向的通信通道,在这里双方可以实时地发…

91 # 实现 express 的优化处理

上一节实现 express 的请求处理,这一节来进行实现 express 的优化处理 让 layer 提供 match 方法去匹配 pathname,方便拓展让 layer 提供 handle_request 方法,方便拓展利用第三方库 methods 批量生成方法性能优化问题 进行路由懒加载&#…

亚马逊 CodeWhisperer 初体验

1、CodeWhisperer 介绍 CodeWhisperer 是亚马逊出品的一款基于机器学习的通用代码生成器,可实时提供代码建议。类似 Cursor 和 Github Copilot 编码工具。 官网:AI 代码生成器 - Amazon CodeWhisperer - AWS 在编写代码时,它会自动根据您现…

Flink sql 1.17笔记

环境准备 # 启动hadoop集群 # 启动Flink yarn session (base) [link999hadoop102 flink-1.17.0]$ bin/yarn-session.sh -d# 启动finksql客户端 (base) [link999hadoop102 flink-1.17.0]$ bin/sql-client.sh -s yarn-session# 如果有初始化文件 bin/sql-client.sh embedded -s …

数据结构 - 二叉树

文章目录 目录 文章目录 前言 一 . 树型结构 1.1 树的概念(了解) 1.2 数的常用术语 (掌握) 1.3 树的应用(了解) 1.4 树相较于数组和链表的优势(了解) 二 . 二叉树(重点) 2.1 二叉树的概念 2.2 两种特殊的二叉树 2.3 二叉树的性质 2.4 二叉树的基本操作 2.4.1 二叉树的前序遍历 …

高云FPGA系列教程(7):ARM GPIO外部中断

文章目录 [toc]GPIO中断简介FPGA配置常用函数MCU程序设计工程下载 本文是高云FPGA系列教程的第7篇文章。 本篇文章介绍片上ARM Cortex-M3硬核处理器GPIO外部的使用,演示按键中断方式来控制LED亮灭,基于TangNano 4K开发板。 参考文档:Gowin_E…

go学习之函数知识

函数 文章目录 函数1.函数入门(1)为什么需要函数?(2)什么是函数:2.包3.函数的调用机制通俗理解调用过程:return语句递归调用 4.函数注意事项和细节讨论5.init函数6.匿名函数7.闭包8.defer9.函数参数的传递方式10.字符串中常用的函数11.时间和…

JVM中的java同步互斥工具应用演示及设计分析

1.火车站售票系统仿真 某火车站目前正在出售火车票,共有50张票,而它有3个售票窗口同时售票,下面设计了一个程序模拟该火车站售票,通过实现Runnable接口实现(模拟网络延迟)。 伪代码: Ticket类…

Java代码质量评估工具

概述 Java代码的质量评估主要包括代码的可维护性、健壮性、以及在运行时能达到既定的性能目标,可维护性主要包括代码的可读性、在关键的代码上提供详细注释、在设计类、方法以及代码逻辑时符合设定的编码规范,健壮性主要包括编写代码时应使用常用的设计…

【JAVA-Day26】数组解析:什么是数组?如何定义?

数组解析:什么是数组?如何定义? 数组解析:什么是数组?如何定义?摘要一、什么是数组数组的特性:不同类型的数组:数组的应用场景:数组的限制和挑战: 二、如何定…

【论文阅读 07】Anomaly region detection and localization in metal surface inspection

比较老的一篇论文,金属表面检测中的异常区域检测与定位 总结:提出了一个找模板图的方法,使用SIFT做特征提取,姿态估计看差异有哪些,Hough聚类做描述符筛选,仿射变换可视化匹配图之间的关系&#xf…

【算法基础】数学知识

质数 质数的判定 866. 试除法判定质数 - AcWing题库 时间复杂度是logN #include<bits/stdc.h> using namespace std; int n; bool isprime(int x) {if(x<2) return false;for(int i2;i<x/i;i){if(x%i0) return false;}return true; } signed main() {cin>&g…

Git学习笔记1

任务要求&#xff1a; 1、使用git提交代码到仓库&#xff1b; 2、实现自动代码发布系统&#xff1b; 1、了解DevOps的发展历程和思想&#xff1b; 2、学会git版本控制&#xff1b; 3、会使用github公有仓库和gitlab私有仓库&#xff1b; 4、了解CI/CD&#xff1b; 5、使用…

svn(乌龟svn)和SVN-VS2022插件(visualsvn) 下载

下载地址: https://www.visualsvn.com/visualsvn/download/

Go的error接口

从本书的开始&#xff0c;我们就已经创建和使用过神秘的预定义error类型&#xff0c;而且没有解释它究竟是什么。实际上它就是interface类型&#xff0c;这个类型有一个返回错误信息的单一方法&#xff1a; type error interface { Error() string } 创建一个error最简单的方…

cutree 算法

传播 ​ 由于块与块之间具有参考关系&#xff0c;提升被参考块的质量&#xff0c;可以改善后续参考块的质量 ​ Pn1帧中CU0,1完全参考Pn的CU1,1。且Pn1帧中CU0,1块帧内预测和帧间预测的代价分别为 c x , y n 1 ( 0 , 0 ) c_{x,y}^{n1}(0,0) cx,yn1​(0,0)和 c x , y n 1 ( d…

vue获取本地缓存并转为json格式

场景 要求获取当前登录用户id&#xff0c;传入后台去筛选属于该用户的数据&#xff1b; 当前登录用户信息一般会在本地存储中&#xff0c;有些则是在session中&#xff0c;此处只对本地存储做讨论&#xff1b; 本地缓存的用法 1 存储数据 localStorage.setltem(userId,"…

【版本控制】Github和Gitlab同时使用ssh

前言 最近在使用 WSL 时会同时用到 GitHub和 Gitlab &#xff0c;因此与传统配置 ssh 方式有些不一样的地方&#xff0c;这里特别记录一下 本地生成公私密钥 首先确保把之前的 ssh 信息清除&#xff0c;也可以将整个 ~/.ssh 目录删除 rm -rf ~/.ssh/*我们分别生成 Github 和…

Bigemap如何添加谷歌历史影像

工具 Bigemap gis office地图软件 BIGEMAP GIS Office-全能版 Bigemap APP_卫星地图APP_高清卫星地图APP 很多粉丝私信都在问怎么才可以看到谷歌的历史影像&#xff0c;其实这个图源目前是没有对大陆网络ip进行开放&#xff0c;所以如果需要查看&#xff0c;也是需要看你当前…

阿里云产品试用系列-Serverless 应用引擎 SAE

Serverless 应用引擎 SAE&#xff08;Serverless App Engine&#xff09;是一个全托管、免运维、高弹性的通用 PaaS平台。SAE 支持 Spring Boot、Spring Cloud、Dubbo、HSF、Web 应用和 XXL-JOB、ElasticJob任务的全托管&#xff0c;零改造迁移、无门槛容器化、并提供了开源侧诸…