基于python的百度迁徙迁入、迁出数据分析(三)

news2024/9/17 7:37:58

百度迁徙定义

百度迁徙释义:

百度迁徙以用户常住地所在地市或停留超过一天的非常住地定义为出发城市,以用户离开出发城市,并在非出发城市停留超过4 h以上定义为到达城市。采用4h阈值,排除了城际出行中的途经地。

定义参考来源:人口迁居视角下的中国人口城镇化空间格局——基于百度迁徙数据的研究 - 中国知网 (cnki.net)

 是钮心毅这位博导的2023年9月的文章,并在文中感谢了百度慧眼官方的支持,所以这个定义大概率是官方给出的定义,可以更明确的指导我们对数据的应用;

历史数据可溯源的时间区间

这里补充一历史迁徙数据来源可以溯源的时间区间,上次只是粗略测了一下,这次给出具体可以获取的历史数据时间区间;

这里以上海迁入为例,打开“开发人员工具”,快捷键Ctrl+Shift+i,点击网络,快捷键Ctrl+R刷新页面;

快捷键Ctrl+F,搜索historycurve,找到这个文件,双击打开;huiyan.baidu.com/migration/historycurve.jsonp?dt=province&id=310000&type=move_in&callback=jsonp_1722252952677_1248358

我们可以看到百度迁徙数据记录了这个城市从2019年1月12日到2019年3月9日,2023年1月4日到今天的所有迁徙指数,所以我们可以查到历史数据的范围就明确了(20190112, 20190309),(20240104, 20240728),也就是直到今天的截止日期前一天的数据;

当然这些数据看着密密麻麻比较费眼神,我们把它导出.csv,编码用了''gb18030 ''支持简体中文、繁体中文以及一些少数民族的文字,是一种比较全面的中文编码方案;

import pandas as pd
import requests
import json
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry


def get_migration_index(direction):
    # 创建一个会话对象来保持请求之间的状态
    session = requests.Session()
    # 定义重试策略以应对连接问题
    retry_strategy = Retry(connect=5, backoff_factor=0.5)
    # 设置 HTTP 和 HTTPS 适配器,并应用重试策略
    adapter = HTTPAdapter(max_retries=retry_strategy)
    session.mount('http://', adapter)
    session.mount('https://', adapter)

    # 定义 CSV 文件保存的路径
    file_path = './'

    try:
        # 动态构建 URL
        url = f'https://huiyan.baidu.com/migration/historycurve.jsonp?dt=city&id=310000&type={direction}'
        # 发送 GET 请求
        response = session.get(url)

        # 检查响应状态码
        response.raise_for_status()  # 如果响应状态码不是 200,则抛出异常

        # 获取响应文本并去除开头和结尾的不需要的部分
        response_text = response.text[4:-1]
        # 将处理后的文本转换为字典
        data_dict = json.loads(response_text)

        # 检查是否成功获取数据
        if data_dict['errmsg'] == 'SUCCESS':
            # 从字典中提取数据列表
            migration_data = data_dict['data']['list']

            # 创建一个 DataFrame 对象,将数据列表作为列,并转置以便按行存储
            dataframe = pd.DataFrame({f'上海市_{direction}': migration_data}).T

            # 保存 DataFrame 到 CSV 文件
            dataframe.to_csv(file_path + f'上海市历史迁{direction}指数.csv', encoding='gb18030')
            #  gb18030 支持简体中文、繁体中文以及一些少数民族的文字,是一种比较全面的中文编码方案
            print(f"数据已成功保存到 {file_path} 上海市历史迁{direction}指数.csv")
        else:
            print("未能成功获取数据,请检查 URL 或服务器响应。")
    except requests.exceptions.RequestException as e:
        print(f"请求过程中发生错误:{e}")
    except (KeyError, ValueError) as e:
        print(f"数据解析错误:{e}")


# 调用函数,传入 'move_in' 参数表示迁入数据
get_migration_index('move_in')  #  迁出move_out



为了看着更加直观,对输出结果略做调整,这里只做示意,只要了解我们可以获取历史数据区间即可;

文章仅用于分享个人学习成果与个人存档之用,分享知识,如有侵权,请联系作者进行删除。所有信息均基于作者的个人理解和经验,不代表任何官方立场或权威解读。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1959143.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

当年很流行,现在已经淘汰的Java技术,请不要学了!【建议收藏】

在Java技术的发展历程中,确实有一些曾经流行但现在已经被淘汰或不再推荐使用的技术。了解这些技术可以帮助你避免学习过时的知识,从而更高效地提升自己的技能。 以下是一些曾经流行但现在已经不太推荐学习的Java技术: 1. Servlet 2.x&#x…

日程管理多源归一,服务场景一键直达

时间对于每个人来说都是非常宝贵的,曾经我们使用台历、挂历来标记和查看重要日程,通过翻页来见证时光的流逝,随着信息化时代的不断发展,更加灵活简洁的电子日历成为主流,日历也从一个最简单的日期看板,慢慢…

RuntimeError: No CUDA GPUs are available

RuntimeError: No CUDA GPUs are available 目录 RuntimeError: No CUDA GPUs are available 【常见模块错误】 【解决方案】 解决步骤如下: 欢迎来到英杰社区https://bbs.csdn.net/topics/617804998 欢迎来到我的主页,我是博主英杰,211科…

如何利用代理ip探索外国新闻视角?

引言 在日常的网络使用中我们常常会遇到诸多难题,让我们无法获取到想要的信息或服务,若访问速度很慢还会影响好的在线工作和娱乐体验。其次,随着网络安全问题的频发,个人隐私泄露成为了一个不容忽视的问题。这些痛点,…

React Native新架构系列-新架构介绍

从今天起,会陆续更新React Native新架构相关的系列内容,本系列基于React Native 0.73.4版本,从一名Android开发者的视角进行介绍。本系列介绍的内容默认读者对React Native有一定的了解,对基础的开发内容不再赘述。 前言 首先介绍…

AI绘画3分钟解决英文恐惧症,comfyui汉化插件

前言 全面解析:Comfy UI汉化插件的安装与配置指南 本文涉及的工作流和插件,需要的朋友请扫描免费获取哦 引言 本文图片来源网络,侵权联删除。 在全球化的今天,软件界面的本地化是提升用户体验的重要一环。对于许多非英语母语的…

辅听耳机芯片型号介绍—云信通讯

辅听耳机系列芯片介绍: 杰理芯片型号: AC7003D / AC7006F 芯片特点: 1.内置啸叫抑制算法 2.内置辅听专用动态多段增益调节 3.内置人声增强和环境噪声压制算法 4.公版手机app开放定制服务,支持听力测试和个性化增益配置 5.支…

WAAP替代传统WAF已成趋势

数字化时代,Web应用和API已成为企业运营的核心。然而,随着网络攻击手段的不断进化,自动化攻击愈发频繁,传统的Web应用防火墙(WAF)已难以满足现代企业的安全需求。WAAP(Web Application and API …

Springboot手工艺品交易平台—计算机毕业设计源码11541

摘 要 信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻克的课题。针对手工艺品交易平台等问题,对手工…

办公人导航-一个资源丰富的网站

办公人导航是一个资源丰富的网站,旨在为办公人员提供各种优质资源和工具,以提高工作效率和生活质量。 ★★★★★办公人导航:https://www.bgrdh.com/ 这个网站涵盖了以下几个方面: 综合性的导航平台:办公人导航集成了…

机械学习—零基础学习日志(高数15——函数极限性质)

零基础为了学人工智能,真的开始复习高数 这里我们将会学习函数极限的性质。 唯一性 来一个练习题: 再来一个练习: 这里我问了一下ChatGPT,如果一个值两侧分别趋近于正无穷,以及负无穷。理论上这个极限值应该说是不存…

虹科技术前沿 | TSN网络中时间感知整形器的性能验证实测

来源:虹科技术前沿 | TSN网络中时间感知整形器的性能验证实测 原文链接:https://mp.weixin.qq.com/s/h3hTRAAEVN42DjDRifGxnA 欢迎关注虹科,为您提供最新资讯! #时间敏感网络 #TSN #时间感知整形器 导读 本文旨在验证时间敏感…

vscode搭建rust开发环境

由于rustrover不是免费的,此处教学搭建一套基于vscode的rust开发环境,可运行,可调式 1.下载vscode1.91.1 Download Visual Studio Code - Mac, Linux, Windows 2.下载插件 打开网站下载插件 rust-analyzer-0.4.2049、vscode-lldb-1.10.0、…

SQL数据库如何修改表中栏位的长度

1.问题 已经建立的表中MEMO 栏位原来长度是20,随着使用需要将MEMO长度调整为200; 即 MEMO VARCHAR(20) → MEMO VARCHAR(200) 2.修改办法 -- ALTER TABLE 表名 ALTER COLUMN 栏位名字 类型(长度);ALTER T…

java通过poi解析word入门

文章目录 介绍一、了解word docx文档的结构二、引入POI的依赖三、解析Word文档常用API加载Word文档获取文档整体结构获取文档中的段落获取文档中的表格获取文档中的脚注 四、解析Word中的段落示例五、读取Word文档并遍历图片六、解析Word中的图片示例 介绍 Apache POI 是一个处…

6. 运行时数据区-程序计数器和栈帧

运行时数据区分类 Java虚拟机在运行Java程序过程中管理的内存区域,称之为运行时数据区。运行时数据区分为两大类,线程共享和线程不共享,线程共享的有: 方法区堆 线程不共享的有: 程序计数器Java虚拟机栈本地方法栈…

收银系统源码-会员营销

系统概况 专门为零售行业的连锁店量身打造的收银系统,适用于常规超市、生鲜超市、水果店、便利店、零食专卖店、服装店、母婴用品、农贸市场等类型的门店使用。同时线上线下数据打通,线下收银的数据与小程序私域商城中的数据完全同步,如商品…

Luma AI发布文生视频大模型Dream Machine——可免费在线试玩

Sora模型的文生视频能力,想必一定惊艳过你。虽然Sora模型很惊艳,但是并没有开放给普通大众。Luma AI发布文生视频大模型Dream Machine模型,可以免费供大家使用,任何人只要到Luma AI的官方网站,就可体验Luma AI的文生视…

vue3前端开发-小兔鲜项目-sku的实现

vue3前端开发-小兔鲜项目-sku的实现!这是一个会计学的特殊专业名词,可以理解为产品的型号,规格的货品计量单位。 它是一组数据的混合体。比如:尺寸,材料,品质,等等。组合在一起形成的一个混合数…

Java——多态(Polymorphism)

一、多态 1、什么是多态 多态(Polymorphism)是面向对象编程的三大核心特性之一(另外两个是封装和继承)。多态性允许一个接口或基类的不同实现或子类以统一的方式处理。 二、方法多态 方法的多态性主要通过方法重载&#xff08…