最近,“city 不 city”这一网络流行语在外国网红的推动下备受关注。随着我国过境免签政策的落实,越来越多外国游客来到中国,通过网络平台展示他们在华旅行的见闻,这不仅推动了中国旅游业的发展,更是在国际舞台上展现了一个真实而生动的中国,一举多得。
假设外国游客入境后能在中国境内逗留144小时,且能从任一城市附近的机场出境。由于每个城市景点较多,为了便于外国游客能够游览到更多的城市,现假定“每个城市只选择一个评分最高的景点游玩”,称之为“城市最佳景点游览原则”。
现有一个包含中国(不含港澳台)352个城市的旅游景点的数据集,每个城市的 csv 文件中有 100个景点,每个景点的信息包含有景点名称、网址、地址、景点介绍、开放时间、图片网址、景点评分、建议游玩时长、建议游玩季节、门票信息、小贴士等。
请建立数学模型,回答下列问题:
问题一:请问 352 个城市中所有 35200 个景点评分的最高分(Best Score,简称 BS)是多少?全国有多少个景点获评了这个最高评分(BS)?获评了这个最高评分(BS)景点最多的城市有哪些?依据拥有最高评分(BS)景点数量的多少排序,列出前 10 个城市。
- 问题描述
我们需要在352个城市中寻找景点评分的最高分(Best Score, 简称BS),并统计获得这个最高评分的景点数量,最后找出拥有最高评分景点最多的前10个城市。由于数据中存在空值和地址格式不一致的问题,需要进行适当的数据清洗和处理。 - 数据预处理
为了确保数据的准确性和有效性,我们首先进行数据预处理。数据预处理包括以下步骤:
移除无效评分和缺失评分的行:对于评分列中的非数值字符,我们将其转换为缺失值,然后移除这些行。
清理地址字段:由于地址字段中可能包含多余的空格、换行符和无效字符,需要对其进行清理以便后续提取城市名称。 - 评分数据处理
我们将评分列转换为数值类型,并计算数据集中评分的最大值,即最高评分(Best Score, BS)。记为:
- 景点数量统计
统计获得最高评分的景点数量,记为:
- 城市名称提取
从地址字段中提取城市名称。我们定义一个函数 clean_city(address)来清理地址并提取城市名称。具体步骤如下:
使用 re.sub 去除地址中的多余空格和换行符。
尝试匹配“省”后的城市名称,若成功匹配则返回该城市名称。
尝试匹配“自治区”后的城市名称,若成功匹配则返回该城市名称。
尝试直接匹配城市名称,若成功匹配则返回该城市名称。
若上述匹配均失败,则返回“未知”。
清理后的城市名称记为:
- 排除无效城市
为了确保结果的准确性,我们将标记为“未知”的城市排除在外。记为清理后的数据集:
- 统计各城市的最高评分景点数量
在清理后的数据集中,统计每个城市中获得最高评分的景点数量。记为:
- 排序并找出前10个城市
对统计结果按景点数量进行降序排序,取前10个城市。记为:
求解结果如下:
问题二:假如外国游客遵循“城市最佳景点游览原则”,结合城市规模、环境环保、人文底蕴、交通便利,以及气候、美食等因素,请你对 352 个城市进行综合评价,选出“最令外国游客向往的 50个城市”。
-
问题描述
假如外国游客遵循“城市最佳景点游览原则”,我们需要综合评价352个城市,并选出最令外国游客向往的50个城市。综合评价需要考虑以下因素:城市规模、环境环保、人文底蕴、交通便利、气候、美食等。
2. 数据准备与清理
为了确保数据的准确性和有效性,我们首先对数据进行清理和处理。现有的数据包含景点名称、链接、地址、介绍、开放时间、评分等字段。我们需要从地址字段中提取城市名称,并移除无效的评分数据。
3. 城市评分计算
基于现有的景点评分数据,我们将构建以下评分:
城市规模评分:假设城市景点数量与城市规模成正比。
环境环保评分:假设评分较高的景点更多集中在环境更好的城市。
人文底蕴评分:假设评分较高的景点更多集中在人文底蕴深厚的城市。
交通便利评分:假设评分较高的景点更多集中在交通便利的城市。
气候评分:假设评分较高的景点更多集中在气候宜人的城市。
美食评分:假设评分较高的景点更多集中在美食丰富的城市。
这些评分均假设与景点评分成正比,使用景点评分的平均值作为基准:
4. 数据标准化
为了使不同单位的指标进行比较,我们需要对数据进行标准化处理。我们采用Min-Max标准化方法,将每个指标缩放到0到1的范围内。
5. 综合评分计算
在获得标准化后的各个因素评分后,我们需要对每个城市的多个评分进行加权求和,计算综合评分。设定各个因素的权重为:
城市规模评分权重:0.2
环境环保评分权重:0.2
人文底蕴评分权重:0.2
交通便利评分权重:0.2
气候评分权重:0.1
美食评分权重:0.1
综合评分的计算公式为:
6. 排名与选择
根据综合评分对城市进行排序,选择综合评分前50的城市。
求解结果如下:
问题三:现有一名外国游客从广州入境,他想在144小时以内游玩尽可能多的城市,同时要求综合游玩体验最好,请你规划他的游玩路线。需要结合游客的要求给出具体的游玩路线,包括总花费时间,门票和交通的总费用以及可以游玩的景点数量。他的要求有:
遵循城市最佳景点游览原则:
城市之间的交通方式只选择高铁;
只在“最令外国游客向往的 50 个城市”中选择要游玩的城市。
问题四:如果将问题3的游览目标改为:既要尽可能的游览更多的城市,又需要使门票和交通的总费用尽可能的少。请重新规划游玩路线,并给出门票和交通的总费用,总花费时间以及可以游玩的城市数量。
问题五:现有一名外国游客只想游览中国的山景,他乘飞机入境中国的城市不限。请你为他选择入境的机场和城市,并个性化定制他的144小时旅游路线既要尽可能的游览更多的山,又需要使门票和交通的总费用尽可能的少。需要结合游客的要求给出具体的游玩路线,包括总花费时间,门票和交通的总费用以及可以游玩的景点数量。他的要求有:
每个城市只游玩一座评分最高的山;
城市之间的交通方式只选择高铁;
旅游城市不局限于“最令外国游客向往的50个城市”,游览范围拓展到352 个城市。
完整内容与源代码: