【2023年4月美赛加赛】Y题:Understanding Used Sailboat Prices 建25页完整论文及代码
1 题目
2023年MCM 问题Y:理解二手帆船价格
和许多奢侈品一样,帆船的价值也会随着年代和市场条件的变化而变化。所附的“2023_MCM_Problem_Y_Boats.xlsx”文件包括2020年12月在欧洲、加勒比地区和美国销售的约3500艘36至56英尺长的帆船的数据。一名划船爱好者向COMAP提供了这些数据。像大多数现实世界的数据集一样,它可能有缺失的数据或其他问题,需要在分析之前进行一些数据清理。Excel文件包括两个选项卡,一个用于单体帆船,另一个用于双体船。在每个excel中的列包括:
-
Make:船的制造商名称。
-
Variant:标识特定型号的船名。
-
Length (ft):以英尺为单位的船的长度。
-
Geographic Region:船所在的地理区域(加勒比海、欧洲、美国)。
-
Country/Region/State:船只所在的具体国家/地区/州。挂牌价格(USD):以美元标价购买该船的广告价格。
-
Year:船的制造年份。
对于给定的制造、变体和年份,除了提供的Excel文件之外,还有许多其他来源可以提供特定帆船特征的详细描述。你可以用你选择的任何额外数据来补充所提供的数据集;但是,你必须在建模中包含“2023_MCM_Problem_Y_Boats.xlsx”中的数据。一定要完全识别并记录所使用的任何补充数据的来源。帆船经常通过经纪人出售。为了更好地了解帆船市场,中国香港(SAR)的一位帆船经纪人委托您的团队准备一份关于二手帆船定价的报告。该经纪人希望您:
-
开发一个数学模型,解释提供的电子表格中每艘帆船的挂牌价格。包括任何你认为有用的预测因素。您可以利用其他来源来了解给定帆船的其他特征(如横梁、吃水、排水量、索具、帆面积、船体材料、发动机小时数、睡眠容量、净空、电子设备等)以及按年份和地区划分的经济数据。识别和描述所使用的所有数据来源。包括对每个帆船变种价格估计精度的讨论。
-
用你的模型解释地区对上市价格的影响(如果有的话)。讨论是否所有帆船变体的区域效应是一致的。说明所注意到的任何区域影响的实际和统计意义。
-
讨论你对给定地理区域的建模如何在香港(SAR)市场上发挥作用。从提供的电子表格中选择一个信息丰富的帆船子集,分为单船体和双体船。从香港(SAR)市场找到该子集的可比上市价格数据。建模香港(特区)对子集中帆船的每艘帆船价格的区域影响(如果有的话)。双体帆船和单体帆船的影响是一样的吗?
-
识别并讨论你的团队从数据中得出的任何其他有趣和有信息的推论或结论。
-
为香港(SAR)帆船经纪人准备一到两页的报告。包括一些精心挑选的图表,以帮助经纪人理解你的结论。
总页数不超过25页的PDF解决方案应包括:
-
一页总结表,清楚地描述你解决问题的方法,以及在问题的背景下分析得出的最重要的结论。
-
目录。
-
您的完整解决方案。
-
给经纪人一到两页的报告。
附件
**数据文件。**2023_MCM_Problem_Y_Boats.xlsx
Monohulled Sailboats:单体帆船
Catamarans:双体船
数据文件条目描述
-
Make:船的制造商名称。Make、Variant、Length、Geographic Region
-
Variant:标识特定型号的船名。
-
Length (ft):以英尺为单位的船的长度。
-
Geographic Region:船所在的地理区域(加勒比海、欧洲、美国)。
-
Country/Region/State:船只所在的具体国家/地区/州。挂牌价格(USD):以美元标价购买该船的广告价格。
-
Year:船的制造年份。
术语表
-
横梁(Beam):船最宽处的宽度。
-
Broker: 一艘帆船。
-
双体船(Catamarans):一种多体船,有两个大小相等的平行船体。
-
排水量(Displacement):一艘船排水量的重量。
-
吃水(Draft): 使船在不触底的情况下浮起来所需要的最小水深。
-
发动机小时数(EngineHours):自新船以来,船舶发动机运行的小时数。
-
净空高度(Headroom):在船舱中可以站立的高度。
-
船体(Hull): 船或其他船只的主体或外壳,包括底部、侧面和甲板。
-
船壳材料(Hull Materials):制作船壳的材料。所用的材料包括玻璃纤维、钢、木材和复合材料。
-
挂牌价格(Listing Price): 卖方要求的价格。这艘船可能会以不同的价格出售。
-
制造商(Make):帆船的制造商。
-
单体帆船(Monohull Sailboats):只有一个船体的帆船,通常以一个沉重的龙骨(中心桨叶)为中心。
-
索具(Rigging) :由绳索、缆索和滑轮组成的系统,用来支撑和控制帆船的帆、舵和其他系统。
-
帆面积(Sail Area): 一艘船的帆完全扬起时的总表面积。
-
变体(Variant):表示某一特定型号帆船的名称。例如,“Sun Odyssey 54 DS”。
2 论文
2.1 论文一:二手游艇市场研究(27页)
随着经济的发展,二手游艇市场日益繁荣,但价格因地区而异。为了让买卖双方知情,我们使用PLSR-GA-BP模型研究了不同型号游艇的价格预测,并使用参数检验分析了区域有效性。
针对问题1,首先从区域效应和船体属性两方面对数据进行重构,然后对数据进行清洗,利用三次样条插值方法对缺失数据和异常数据进行填充;然后运用PLSR分析了各指标的重要性。单体游艇中影响最大的指标是排水量(0.773),影响最小的指标是GDP(0.008),双体游艇中影响最大的指标是使用年份(0.537),影响最小的指标是总物流成本(0.003);采用PLSR-GA-BP模型进行预测研究,PLSR预测大量数据,GA-BP预测残差序列对大量数据进行校正。模型的最终性能为:单体游艇的RMSE=0.019, MAPE=0.154, R2=0.844;双体游艇的RMSE=0.028, MAPE=0.211, R2=0.837。
为了解决问题二,我们首先对两艘游艇的数据进行整合,然后将其按区域划分,并将各区域的价格变化作为变异量进行分析,采用单因素方差分析,结果显示P=0.003<0.05,说明各区域的价格存在变异性,然后使用Kendall一致性检验分析四个区域属性与价格变化之间的一致性,P= 0.000<0.05;这证明了结果是可信的,一致性系数为0.996,说明我们的区域属性是造成区域价格差异的主要因素,最后分析了造成区域价格差异的可能原因;我们还研究了区域效应对船体硬件指标造成的变异性,结果表明,只有风帆面积不存在变异性,其余五个指标都存在变异性。这些变化主要是由各区域的地理环境决定的。
对于问题三,我们从香港收集相关数据,模拟香港市场的区域效应,筛选出符合要求的游艇模型,如BavariaCruiser46(单体游艇)和Lagoon450(双体游艇),将相应数据带入PLSR-GA-BP模型进行训练,拟合曲线如图7.2所示。BavariaCruiser46的检验结果为MAPE=0.188,RMSE=0.026,R2=0.881, Lagoon450的检验结果为RMSE=0.041,MAPE=0.174,R2=0.904,可见检验结果非常好,这足以证明我们的区域效应分析的检验结果非常好,这证明我们的区域效应分析是足够适合实际的。
针对问题四,我们从订单的洲际分布、游艇价格的大陆分布等方面挖掘了更多的信息。我们发现,双体船的产量逐年增加,而单体船的产量逐年减少
最后,我们对PLSR-GA-BP模型进行了灵敏度测试,对影响游艇价格的两个最重要因素进行了噪声测试,结果表明,MAPE和RMSE的变化小于10%,因此我们的模型非常稳健;然后我们在给香港地区负责人的信中总结了这篇文章。
2.2 论文二:基于多项式回归的帆船价格预测研究(26页)
摘要
随着帆船运动的逐渐流行,越来越多的人开始接触并爱上这项运动,帆船的消费市场也随之扩大。如何合理地对帆船进行定价,是帆船经销商需要着重考虑的问题。
本文探讨了帆船的制造年份、尺寸、吃水深度、帆面积、排水量这些帆船自身的因素以及GDP这一地区因素对当地帆船定价的影响。首先,我们从帆船数据网sailboatdata.com上搜集帆船数据,结合各地GDP数据,组成帆船特征矩阵。之后再用主成分分析对特征矩阵进行降维。实验表明,只需要两个主成分,即可涵盖所有特征99.8%的信息。最后,我们用多项式回归算法,训练出可以预测帆船价格的回归函数,从而得到各特征与帆船定价的关系,预测精确率达到98.4%
为了探讨地区对不同型号帆船的影响是否相同,我们针对各种型号的帆船分别建立回归模型。通过对比不同型号帆船对应模型的主成分权重与多项式回归系数,我们发现地区因素对不同型号帆船的影响是相似的。
通过搜集香港地区的GDP以及帆船售价数据,套用相同的多项式回归模型,可以计算出我们的模型在香港地区也是适用的,并且地区因素对单体船和双体船的影响是一样的。
针对模型中计算出的主成分与原始特征对应的权重,我们可以看出,像吃水深度、GDP这样的特征对帆船定价的影响是相当大的,而制造年份的影响可以忽略不计。
最后,我们根据数学建模的结果,给香港的帆船经销商提出了相应的建议。
关键词:帆船定价,主成分分析,多项式回归
2.3 论文三:二手帆船市场:因素分析与定价模型(35页)
二手物品的价值往往受到多种因素的影响,二手帆船也不例外。本文的目的是建立一个帆船定价模型,以评估不同因素对二手帆船定价的影响。研究这一问题可以为市场参与者提供更可靠的价格参考,从而提高整个市场的交易效率。
对于Factor Analysis Model,我们从相关网站获取更多的数据,并对数据进行相关性分析。为了探究分类变量与价格之间的关系,我们使用了方差分析,结果表明所有分类变量对价格都有显著影响。对于连续变量,我们使用Pearson相关分析,结果表明,一些连续变量与价格相关,而另一些则可能呈现非线性关系。
对于二手帆船定价模型,我们使用五重交叉验证方法对数据进行分割,并在8个不同模型中使用贝叶斯优化对模型进行优化。基于极度随机树(ERT)算法在评价中的优越性能,选择ERT作为二级帆船定价模型。此外,我们使用梯度增强决策树(GBDT)算法计算特征重要性,并将其与ERT算法进行比较。模型建立后,我们计算了各个影响因素的重要性,发现横梁因素对价格的影响最大,其他因素的影响如表所示
6.最后,我们计算了每个类别的预测精度,发现有276个类别的预测精度超过70%。
对于香港市场模型,我们将香港加入我们的数据集,并对香港进行一热编码后重新训练模型。然后,我们使用方差分析来探讨地理区域与香港上市价格之间的关系。结果显示,即使在加入香港数据后,地理区域对上市价格仍有显著影响。香港对价格的影响为0.0038,小于美国和欧洲。最后,我们发现香港地区对双体船价格的影响大于对单体船价格的影响。
同时,我们还发现了其他有益的结论。我们通过方差分析探讨了各帆船品种的地理区域与上市价格之间的关系,统计结果显示,18%的品牌与地区显著相关。但在整体二手帆船市场中,这一比例相对较小,80%以上的帆船品牌不受地域限制。最后,我们写了一份报告,向经纪人展示了数据分析结果和相关结论。
关键词:方差分析,梯度增强决策树,极度随机树,表征
3 获取方式
见知乎文章底部,或者私信我