一、题目简析
今年的B题是一道较为综合的题目,包括了数据分析、综合评价、时间序列预测、最优化问题以及概率估计问题。考察范围广,但是整体看来题目背景简单,切入点多,难度适中。
二、逐问思路
1.问题1:附件1为该快递公司记录的2018年4月19日—2019年4月17日的站点城市之间(发货城市-收货城市)的快递运输数据,请从收货量、发货量、快递数量增长/减少趋势、相关性等多角度考虑,建立数学模型,对各站点城市的重要程度进行综合排序,并给出重要程度排名前5的站点城市名称,将结果填入表1。
思路提要:首先根据题目选取指标,各个城市的总累计收货量(收货量)、累计发货量(发货量)、平均月度增长率或线性拟合的斜率代替(快递数量增长/减少趋势)、收货来自的城市数目和发货至的城市数目、与其他城市的时间序列相关系数平均值(相关性)。然后根据附件1数据计算出这些指标。
接着,采用评价模型来计算出每个指标的权重,比较客观好用的方法是TOPSIS-熵权法,也可以采用其他的赋权方法,然后对数据进行归一标准化,按权重计算各个城市的得分、排序。
2.问题2:请利用附件1数据,建立数学模型,预测2019年4月18日和2019年4月19日各“发货-收货”站点城市之间快递运输数量,以及当日所有“发货-收货”站点城市之间的总快递运输数量,并在表2中填入指定的站点城市之间的快递运输数量,以及当日所有“发货-收货”站点城市之间的总快递运输数量。
思路提要:首先要提取出所有的“发货-收货”站点城市对,然后整理出每个城市对的时间序列数据(发货、收货以及总和)。预测模型则可以直接采用一些主流的时间序列预测方法,如ARIMA/LSTM/SVR等,也可以用灰色预测方法。输入的序列可以是总和,也可以是对发货、收货分别预测然后把得到的结果加和。
3.问题3:附件2为该快递公司记录的2020年4月28日—2023年4月27日的快递运输数量。由于受到突发事件影响,部分城市之间快递线路无法正常运输,导致站点城市之间无法正常发货或收货(无数据表示无法正常收发货,0表示无发货需求)。请利用附件2数据,建立数学模型,预测2023年4月28日和2023年4月29日可正常“发货-收货”的站点城市对(发货城市-收货城市),并判断表3中指定的站点城市对是否能正常发货,如果能正常发货,给出对应的快递运输数量,并将结果填入表3。
思路提要:首先注意到题目里说,“部分城市之间快递线路无法正常运输,导致站点城市之间无法正常发货或收货”,说明无法正常发货或收货的情况往往发生在一块区域(不止1个城市)。那么我们判断异常城市的时候需要重点看它附近或者关联紧密的城市是否已经异常。在建立预测模型的时候,可以把通过分析已知数据找出时序相关系数高的城市,将其发收货量作为特征输入预测模型来进行预测。预测模型需要选取多变量的时间序列预测模型,常用的是LSTM。
4.问题4:图1给出了所有站点城市间的铁路运输网络,铁路运输成本由以下公式计算:
。在本题中,假设实际装货量允许超过额定装货量。所有铁路的固定成本、额定装货量在附件3中给出。在运输快递时,要求每个“发货-收货”站点城市对之间使用的路径数不超过5条,请建立数学模型,给出该快递公司成本最低的运输方案。利用附件2和附件3的数据,计算该公司2023年4月23—27日每日的最低运输成本,填入表4。
思路提要:典型的图最优化问题,目标函数为成本,路径数和装货量等条件是约束条件。可以采用贪心算法或者动态优化算法等计算结果。
5.问题5:通常情况下,快递需求由两部分组成,一部分为固定需求,这部分需求来源于日常必要的网购消费(一般不能简单的认定为快递需求历史数据的最小值,通常小于需求的最小值);另一部分为非固定需求,这部分需求通常有较大波动,受时间等因素的影响较大。假设在同一季度中,同一“发货-收货”站点城市对的固定需求为一确定常数(以下简称为固定需求常数);同一“发货-收货”站点城市对的非固定需求服从某概率分布(该分布的均值和标准差分别称为非固定需求均值、非固定需求标准差)。请利用附件2中的数据,不考虑已剔除数据、无发货需求数据、无法正常发货数据,解决以下问题。
(1) 建立数学模型,按季度估计固定需求常数,并验证其准确性。将指定季度、指定“发货-收货”站点城市对的固定需求常数,以及当季度所有“发货-收货”城市对的固定需求常数总和,填入表5。
(2) 给出非固定需求概率分布估计方法,并将指定季度、指定“发货-收货”站点城市对的非固定需求均值、标准差,以及当季度所有“发货-收货”城市对的非固定需求均值总和、非固定需求标准差总和,填入表5。
思路提要:可以采用时间序列分解的方式,将原时间序列分解成趋势(固定需求常数,趋势应为一条平行于时间轴的直线)、季节性和残差。