第一章 房地产定价模型概述
受疫情和房地产发展模式影响,目前我国房地产行业遭受着多重冲击,消费者不断降低的购房意愿,频繁出现的烂尾楼问题,建筑材料和工人价格的不断上涨等。而房地产行业本身又是带动如电器,装修,水电,家具等诸多行业的核心,因此促进房地产健康平稳的发展是保证良好经济秩序的重要前提,而正确科学的定价是房地产行业振兴的第一步,正确的定价能在满足消费者有效需求的前提下实现房地产企业利润的最大化,促进整个产业进入良性循环,促进经济发展和社会进步。
房地产定价模型是用于确定房地产价格的一种数学模型。房地产定价模型可以帮助房地产投资者和开发商了解房地产市场的动态,并制定最佳的定价策略。以下是几种常见的房地产定价模型:
-
比较市场分析法:该方法基于比较类似物业的价格进行房地产估值。这种方法通常用于住宅房产,因为相似的住宅房产更容易找到并进行比较。
-
收益法:该方法根据房地产产生的收益来确定其价值。收益法通常用于商业房地产,因为商业房地产的价值通常与其租金有关。
-
成本法:该方法根据建造或重建物业的成本来确定其价值。该方法通常用于开发土地和建造新建筑物的情况。
-
折现现金流法:该方法根据未来现金流的折现值来确定房地产的价值。这种方法通常用于商业房地产,因为商业房地产通常有多个现金流来源,例如租金收入和销售收入。
以上是几种常见的房地产定价模型,每种模型都有其独特的优缺点。在实际应用中,通常会根据不同情况和目的选择合适的模型来进行房地产定价。
本文将站在消费者的角度,从消费者可直接获得的信息出发,探索对其满意的房源的定价模型。
第二章 模型概述
2.1 变量设定
从贝壳找房等售房中介我们了解到,目前消费者购房时所考虑的主要因素有:房屋面积,装修程度,地理位置,楼层高低,房屋户型,建筑结构,有无电梯,,地区均价,交通便利程度等多项因素有关。
从模型简化的角度出发,我们选取房屋面积,地区均价,物业类型,房屋朝向,装修程度,小区均价6个指标对房价进行初步的定价。
其中部分赋值变量的设定如下:
1/ 房屋朝向:
资料来源:资产信息网 千际投行 房地产项目与定价策略
2/ 物业类型:按照不同物业费进行计算。
2.2 模型选取
由于地区均价,小区均价等与房屋面积之间存在较强的共线性,于是暂时选取岭回归模型进行定价。
岭回归(Ridge Regression)是一种用于处理线性回归问题的正则化方法,它通过对模型参数的大小进行限制,可以避免模型过度拟合数据的问题。岭回归的核心思想是在损失函数中添加一个惩罚项,这个惩罚项对于参数的大小进行限制,使得模型更加稳定。在机器学习中岭回归也称作权重衰减,也有人称之为Tikhonov正则化。
岭回归主要解决的问题是两种:一是当预测变量的数量超过观测变量的数量的时候(预测变量相当于特征,观测变量相当于标签),二是数据集之间具有多重共线性,即预测变量之间具有相关性。
回归分析模型如下:
资料来源:资产信息网 千际投行
模型求解的模式为:
资料来源:资产信息网 千际投行
2.3 模型拟合
用岭回归法对数据进行拟合可以得到如下岭回归图:
资料来源:资产信息网 千际投行
根据方差扩大因子法确定K=0.119
岭回归分析结果如下:
资料来源:资产信息网 千际投行
模型的公式:
实价=3812.61+10.906 × 面积+0.179 × 均价-0.027 × 装修+1431.662 × 朝向-1086.912 × 物业类型+0.219 × 小区均价
模型路径图为:
资料来源:资产信息网 千际投行
岭回归的结果显示:基于F检验显著性P值为0.000***,水平上呈现显著性,拒绝原假设,表明自变量与因变量之间存在着回归关系。同时,模型的拟合优度R²为0.34,模型表现为较差。
模型拟合结果为:
资料来源:资产信息网 千际投行
由此可知,模型与实际值差距较大,拟合结果较差。
2.4 变量检验
利用Python对以上变量与房地差价格之间的相关性进行检验可以得到:
资料来源:资产信息网 千际投行
由图可知,房屋价格与房屋面积,小区均价,地区均价之间的关系较为明显,而与装修费用,房屋朝向等变量关系并不明显。
进一步建立各变量之间的相关性图:
资料来源:资产信息网 千际投行
从图中我们可以了解到,房屋面积,小区均价,地区均价与房屋价格的关系强,并且小区均价与地区均价之间的相关性达到了0.95,因此在计算中二者取其一即可。
据此我们利用房屋面积,地区均价对模型进行线性回归训练。
首先利用可决系数判断两个变量对于房屋价格的拟合优度。
可决系数,亦称测定系数、决定系数、可决指数。. 与 复相关系数 类似的,表示一个随机变量与多个随机变量关系的数字特征,用来反映回归模式说明因变量变化可靠程度的一个统计指标,一般用符号"R"表示,可定义为已被模式中全部自变量说明的自变量的变差对自变量总变差的比值。
计算公式为:
资料来源:资产信息网 千际投行
通过计算我们的房屋面积的可决系数为:0.041625576804176445。
用Python进行操作具体过程为:
资料来源:资产信息网 千际投行
第三章 目前模型存在问题
1/ 对于变量的选取出现问题,只选择了如上6个变量而且变量与价格之间的关系较弱,需要重新选择有效的变量。
2/ 部分变量的赋值误差,如房屋朝向的变量进行人为赋值时可能出现不符合实际的情况,需要进一步优化。
3/ 模型参数问题,对于模型的部分参数进行微调,保证结果的准确性,合理性。
4/ 训练数据的数量问题,此次对于数据的选取去除的大部分含有空值的数据组,使得整体数据规模下降,影响结果准确性。
第四章 模型进一步优化
加大对于变量的筛查,尽可能选择更多的有效变量如楼房高度,户型等进行拟合。
可以尝试用变量的均值填充空值,保证数据规模。
在上述完成后可以考虑用更高级的模型进行拟合训练。
增加整体程序运行的自动化和功能的广泛性。
使用Python对Excel数据进行大规模处理可以有效提高效率。
Cover Photo by Gennady Zakharin on Unsplash