Problem F: Reducing Illegal Wildlife Trade
美赛F题以非法野生动物贸易为背景进行命题,需要我们选择客户进行一系列的问题。本文正式解题前需要收集客户的数据以及数据预处理。对于客户的选择,这里考虑的点在于该客户需要能够对非法贸易交易产生影响。因此,本次基于这一点选择了国家为客户,收集了现在世界上253个国家的1000多项指标数据作为自变量。这也是跟大家免费分享的数据集中所提及的数据。
(注释:大家如果需要其他,数据集中没有的数据,欢迎大家留言,我们会尽力帮大家收集)
美赛分享数据
https://pan.baidu.com/s/17IX4yZKr_CadiOJIp7yLYQ
提取码:sxjm
对于选择因变量,即使用何种数据表示非法野生动物贸易,这里再第二波给大家收集的数据中为大家分享了各种美国野生动物、非法获取动物数据中有所展示。(该数据集还不完善,后续会继续补充)使用该数据中的部分指标作为因变量即可。
刚才所有的工作可以理解为是指标的构建,我们需要构建去解决这个问题的大致框架,类似于之前助攻的华数杯、亚太,形成下面的框架体系。
问题一、您的客户是谁?那个客户到底能做些什么呢?(换句话你的客户应该拥有实施你 提出的项目所需的权力、资源和兴趣。)
问题一,题设是客户是谁,其实问题一的本质就是让我们选择本次的客户主体并构建指标评价体系,根据指标评价体系收集数据。对于收集的数据集我们还需要进行数据清洗工作,即进行异常值、缺失值、数据降维等工作。
确定收集到的数据指标后,就是整理数据。建议大家可以绘制几张折线图(图一这种的)等,完成对收集到数据的描述,对于数据预处理,包括缺失值处理、异常值处理、数据降维等。异常值处理,首先判定数据分布方式,对于正态分布的数据利用3西格玛原则判定异常值;非正态分布的数据利用箱型图判定异常值。对于判定的异常值进行剔除处理,变为缺失值。
对缺失值,两部分既有数据收集本身所有的,还有就是异常值处理带来的异常值。这里比较建议大家选择线性插值(平均值插值、克里斯插值等都是可以的)。对于较高维度的数据,还可以选择就降维处理。
如果大家选择了7-10个指标,数量合适不需要进行降维。但是如果选择了超过十个指标,使用过多的指标分析问题会使得问题复杂化。对于过多的指标,我们需要进行降维处理。即使用KMO检验判定指标之间关系,通过检验使用线性降维:主成分分析等方法,未通过检验则应该使用T-SNE等非线性降维方法。
问题二、解释为什么您开发的项目适合这个客户。从已发表的文献和你自己的分析中,有哪些 研究支持你所提议的项目的选择?使用数据驱动的分析,你将如何说服你的客户,这是一个他们应该承担的项目?
问题二,有两部分其一,需要我们对选择的指标评价体系进行分析。其二,需要进行驱动分析说服客户。对于第一小问,我们可以使用一些文献支撑或文章报道进行验证即可。对于第二问,需要我们使用数据分析驱动,即我们可以使用原有数据直接进行预测,与我们5年项目进行比对分析,根据结果来说服客户即可。
对于预测模型的选择,我们可以在下图根据介绍进行选择。回归预测、灰色预测、时间序列、机器学习都是可以的。模型的选择大家只需要知道,只要大方向对即可。数模是没有绝对的对与错之分。对于问题二,使用数据驱动,个人认为可以使用有无五年项目的干预的预测结果进行会对即可。
对于该问题,应该就是小样本短期预测,大家可以根据使用范围选择合适的方法即可。
问题三、您的客户执行该项目还需要哪些额外的权力和资源?(记住要使用假设,但也要尽可 能地把你的工作建立在现实中。)
问题三,初步看来可以理解为是一个定性分析的问题,也可以理解为指标体系的扩建。即问我们还可以能加那些指标来表示额外的权力和资源。既可以用一定的文字进行描述分析;也可以根据一些文献支撑寻找一些其他的指标描述权利和资源。
问题四、如果这个项目得以实施,将会发生什么?换句话说,对非法野生动物贸易的可衡量的影响将是什么?你做了什么分析来确定这个问题?
问题四、问题实质在于需要我们确定影响非法野生动物贸易影响。即在问题三的基础上,进一步改进指标评价体系。利用新的指标评价体系预测实行五年项目后会出现什么样的结果。即需要我们利用五年项目进行预测。
这里两种方法,一、进行十年乃至二十年的中长期预测,对之后长久地事件进进行分析。二、仅仅预测五年项目实现后,五年内每一年的具体数据,分析五年内的数据。无论那种方式,究其本质还是预测。这一问的预测可以与问题二相同,这样可以凸显问题的整体性。也可以比问题二的预测模型高级一些,这样增增递进,整体复杂度不错。
比如,问题二是三元线性预测模型,问题四经过问题三的新指标引入变成了五元非线性模型,从而实现模型的改进,这是可行的。
还可以使用更加高级、复杂度更好的预测模型:建立加权平均预测(arima、lstm、多元回归模型),个人最喜欢的模型,模型复杂度很高,但是主要问题就是篇幅很长,可能25页的篇幅限制会超出限制。有点自卖自夸的嫌疑,但是这个就是我们保奖模版的预测模版。该模型也是本次我论文写作的模型,下面是其原理图,会在更新的视频里面进行说明,看不懂的,只能使用方案其他方案即可。
问题五、该项目达到预期目标的可能性有多大?此外,基于上下文化的敏感性分析,是否存在一些条件或事件可能会不成比例地帮助或损害项目达到其目标的能力?
问题五本质在问能够实现该目标能够实现,还是验证预测的结果能否达成具体的要求。即分析问题四的预测结果与五年项目目标即可。主要在于后半问,敏感性分析,通俗一下即我们需要判定一些指标是否对我们的结果存在非常关键的影响。例如,对于一个五元线性模型,我们剔除一个自变量好,四元线性预测的结果与五元结果的差异。也可以是使得五元线性回归模型的输入值发生变化,查看具体的Y是怎么变化的。
问题六、非技术型文章,须为你的客户提交一份1页的备忘录,其中包括你的重点,强调你的5 年项目提案,以及为什么这个项目适合他们作为客户(例如,获取资源,他们的部分任 务,与他们的使命声明一致,等等)。
非技术型文章,八仙过海各显神通即可。