核密度分析

news2024/12/25 2:08:04

一.算法介绍

核密度估计(Kernel Density Estimation)是一种用于估计数据分布的非参数统计方法。它可以用于多种目的和应用,包括:

  • 数据可视化:核密度估计可以用来绘制平滑的密度曲线或热力图,从而直观地表示数据的分布情况。它可以帮助我们观察数据集中的高密度区域、低密度区域以及变化趋势。
  • 异常检测:通过核密度估计,我们可以识别数据中的异常点或离群值。异常点通常表现为低密度区域或与其他数据点明显不同的区域。
  • 概率密度计算:核密度估计可以用于计算给定数值的概率密度。通过将新数据点带入核密度估计函数,可以估计出该点在数据分布中的密度。
  • 模式识别:核密度估计可以用于识别数据中的模式或聚类。通过观察密度最高的区域,可以推断数据的聚类情况或潜在的模式。
  • 预测建模:核密度估计可以用于构建概率模型,进而进行预测。例如,在分类问题中,可以使用核密度估计来估计每个类别的概率密度,然后根据新的数据点所属的密度来进行分类预测。

根据具体的应用需求,我们可以灵活地使用核密度估计来分析和理解数据集的特征和结构,可能的用途包括针对社区规划分析房屋密度或犯罪行为,或探索道路或公共设施管线如何影响野生动物栖息地。
每个点位可以设置 weight 字段赋予某些要素比其他要素更大的权重,该字段还允许使用一个点表示多个观察对象。例如,一个地址可以表示一栋六单元的公寓,或者在确定总体犯罪率时可赋予某些罪行比其他罪行更大的权重。

二.算法计算原理

本算法以四次核函数为基础,四次核函数的特点是具有平滑的曲线形状,具有较宽的窗口,对数据点的贡献在距离较远时会迅速减小。由于其平滑性和较大的支持范围,四次核函数在核密度估计中被广泛使用。

在这里插入图片描述

在核密度估计中,通过将核函数应用于每个数据点,并对所有数据点的贡献进行求和,可以计算出在每个位置上的密度估计值。四次核函数的结果可视为在核密度估计中每个位置的密度贡献权重。较大的结果表示该位置的密度较高,而较小或接近零的结果表示该位置的密度较低。
本算法中主要利用核密度公式计算空间范围内的核密度值,根据核密度值生成 png 或 jpg 格式的热力图,或者将整个空间切割成网格,用网格中心点参与核密度计算生成 geojson 文件,以供进一步空间探索分析。

    /**
     *  计算单个核密度
     * @param radius 半径
     * @param dist 两点的距离
     * @param weight 权重
     * @return
     */
    public static double computeKernel(double radius, double dist, double weight){
        return  (3 / Math.PI) * weight * Math.pow((1 - Math.pow(dist / radius,2)), 2);
    }

创新性说明:

  • 1.算法会自适应数据中的空间点位范围,此范围可根据参数bufferSize 设置缓冲区扩展,以获取数据范围外的点参与计算。
  • 2.根据空间范围每隔特定步长创建虚拟点位或划分网格,灵活性较高,步长越小则结果在地图分布上的精度越高,步长参数step(米) 可选,如果没有设置, 则默认在空间范围内自适应创建一百万左右虚拟点或网格。
  • 3.采用多线程的方式进行核密度计算,速度更快。
  • 4.可将结果值进行归一化处理,核密度计算出来的结果值主要用于观察数据分布,但是各个结果值之间相差范围较大,不易观察数据分布,归一化后能更清晰观察不同区域间的分布情况。
  • 5.可根据核密度值的大小根据不同需求生成热力图或 geojson 文件。可在geojson文件上做进一步探索。

三.算法程序

1. 核心流程代码

从csv中获取源数据点信息, 获取坐标范围,如果需要缓冲区, 则设置缓冲区, 获取步长长度(默认一百万个像素点或网格),然后根据核密度信息创建图片或geojson

        // 输入文件路径
        String inputPath ="D:\\测试数据.csv";
        // 输出文件路径
        String outPath ="D:\\测试数据.geojson";
        // String outPath ="D:\\测试数据.jpg";
        // 经度字段
        String lonKey = "lon";
        // 纬度字段
        String latKey = "lat";
        // 权重字段
        String weightKey = "";
        // 影响半径
        double radius = 300.0;
        // 缓冲区
        double bufferSize = 0.1;
        // 生成的网格长度(单位: 米)
        int step = 0;
        
        int type;
        if (outPath.endsWith("png") || outPath.endsWith("jpg")){
            type = 0;
        }else if (outPath.endsWith("geojson")){
            type = 1;
        }else {
            throw new RuntimeException("输出文件格式只能是 png、jpg 或者 geojson");
        }

        // 从csv中获取源数据点信息
        List<EntryPoint> entryPoints = EntryPoint.formatToEntryPoints(inputPath, lonKey, latKey, weightKey, radius);
        
        // 获取坐标范围
        double[] coordsScope = KernelUtils.getCoordsScope(entryPoints);
        
        // 如果需要缓冲区, 则设置缓冲区
        if (bufferSize != 0){
            coordsScope = KernelUtils.getBufferScope(coordsScope[0], coordsScope[1], coordsScope[2], coordsScope[3], bufferSize);
        }

        // 获取默认的步长长度, 默认一百万个像素点或网格
        if (step ==0){
            step = KernelUtils.getDefaultSize(coordsScope);
        }
        
        // 根据核密度信息创建图片或geojson
        kernel(coordsScope, entryPoints, step, radius, type, outPath);
    /**
     * 核密度方法
     * @param coordsScope 坐标范围
     * @param entryPoints  从csv中获取源数据点信息
     * @param step 步长长度
     * @param radius 影响半径
     * @param type 输出文件类型
     */
    public static void kernel(double[] coordsScope, List<EntryPoint> entryPoints, int step, double radius, int type, String path){
        // 获取网格坐标系的lon, lat的列表
        List<Double[]> coords = KernelUtils.getKennelPointCoords(coordsScope[0], coordsScope[1],coordsScope[2],coordsScope[3], step);
        Progress.progress( progress++);

        int width =  coords.get(0).length;
        int high = coords.get(1).length;
        if (type == 1){
            // 生产 geojson 网格结果
            generatorGridGeojson(coords, entryPoints, width-1, high-1, radius, path, step);
        }else {
            // 生产热力图图片
            generatorThermalMap(coords, entryPoints, width, high, radius, path, step);
        }
    }

2.创建面的 geojson 文件

    /**
     *  根据核密度信息创建面的 geojson 文件
     * @param coords 虚拟数据点经纬度列表
     * @param entryPoints 数据点
     * @param width 横向点位数量
     * @param high 纵向点位数量
     * @param radius 影响半径
     */
    public static void generatorGridGeojson(List<Double[]> coords, List<EntryPoint> entryPoints,
                                            int width, int high, double radius, String path, int step){
        // 获取所有中心点位的数据
        List<PixelPoint> pixelPoints = KernelUtils.getGridCenters(coords);

        // 进行核密度计算, 并记录受到影响的网格信息
        KernelResult kernelResult = kernelCompute(entryPoints, pixelPoints, width, high, radius);
        Double[][] matrix = kernelResult.getMatrix();
        Double max = kernelResult.getMax();
        Double min = kernelResult.getMin();

        // 生产面的 geojson 文件
        writeToFile(KernelUtils.jointGridGeojson(matrix, max, min, coords), path);
        System.out.println(String.format("计算完成, 生成 geojson 文件, 参与计算网格  %d 个, 受影响网格 %d 个, 相邻网格间距 %s 米",
                pixelPoints.size(), KernelUtils.effectiveGrid, step));
    }

3.热力图图片

    /**
     * 根据核密度信息创建热力图图片
     * @param coords 虚拟数据点经纬度列表
     * @param entryPoints 数据点
     * @param width 横向点位数量
     * @param high 纵向点位数量
     * @param radius 影响半径
     */
    public static void generatorThermalMap(List<Double[]> coords, List<EntryPoint> entryPoints,
                                           int width, int high, double radius, String path, int step){
        // 获得所有点位
        List<PixelPoint> pixelPoints = KernelUtils.spliceKennelPoints(coords);

        // 进行核密度计算, 并记录受到影响的网格信息
        KernelResult kernelResult = kernelCompute(entryPoints, pixelPoints, width, high, radius);
        Double[][] matrix = kernelResult.getMatrix();
        Double max = kernelResult.getMax();
        Double min = kernelResult.getMin();

        // 生产热力图
        ImageGenerator.generatorImage(matrix, max, min, path);
        System.out.println(String.format("计算完成, 生成图片 像素: %d x  %d, 相邻像素点实际代表距离 %s 米", width, high, step));
    }

4.计算所有点位的核密度

    /**
     * 计算所有点位的核密度
     * @param entryPoints 数据点信息
     * @param pixelPoints 创建的虚拟像素点
     * @param radius 影响半径
     * @return
     */
    public static KernelResult kernelCompute(List<EntryPoint> entryPoints, List<PixelPoint> pixelPoints, int width, int high, double radius){

        List<Double> values = new ArrayList<>();
        double affectLat = KernelUtils.getLatDist(radius);

        // 记录受到影响的网格
        Double[][] matrix = new Double[high][width];
        // 建立线程池
        ThreadPoolExecutor threadPool = new ThreadPoolExecutor(
                30, 30, 0L, TimeUnit.MILLISECONDS, new LinkedBlockingQueue(Integer.MAX_VALUE));
        // 线程等待计数器
        CountDownLatch countDownLatch = new CountDownLatch(pixelPoints.size());
        // 创建锁, 使计算数据具有线程间可见性
        Lock lock = new ReentrantLock();

        int stepPosition = pixelPoints.size() / 75;
        for (int i = 0; i < pixelPoints.size(); i++){
            PixelPoint pixelPoint = pixelPoints.get(i);
            Double kennelLon = pixelPoint.getLon();
            Double kennelLat = pixelPoint.getLat();
            threadPool.execute(() -> {
                        // 开始计算每个网格受到其他所有点所影响的核密度
                        double kernel = 0.0;
                        for (int j = 0; j < entryPoints.size(); j++){
                            EntryPoint entryPoint = entryPoints.get(j);
                            double lon = entryPoint.getLon();
                            double lat = entryPoint.getLat();

                            if (Math.abs(lon - kennelLon) > entryPoint.getAffectLon() || Math.abs(lat - kennelLat) > affectLat){
                                continue;
                            }

                            // 获取权重, 默认为 1.0
                            double weight = 1.0;
                            if (entryPoint.getWeight() != null){
                                weight = entryPoint.getWeight();
                            }
                            // 计算网格中心点与源数据点的距离
                            double distance = KernelUtils.getDistance(lon, lat, kennelLon, kennelLat);

                            // 影响半径大于距离的点直接去掉
                            if (distance <= radius){
                                // 计算每个网格所受影响的核密度
                                kernel += computeKernel(radius, distance, weight);
                            }
                        }

                        lock.lock();
                        // 为中心点实体类赋予核密度的值
                        Double value = 1 / Math.pow(radius, 2) * kernel;
                        matrix[pixelPoint.getI()][pixelPoint.getJ()] = value;
                        values.add(value);
                        lock.unlock();
                        countDownLatch.countDown();

                        if (countDownLatch.getCount() % stepPosition == 0 && progress < 80){
                            Progress.progress(progress++);
                        }
                    }
            );
        }

        // 等待所有任务执行完毕
        try {
            countDownLatch.await();
        } catch (InterruptedException e) {
            throw new RuntimeException(e);
        }
        // 关闭线程池
        threadPool.shutdown();
        return  new KernelResult(matrix, Collections.max(values), Collections.min(values));
    }

5.可执行 jar 包

该程序可打为可执行jar包, 文件夹中的: kernel.jar
运行环境: jdk 1.8

执行示例:

java -jar kernel.jar 杭州市超市营业额.csv 杭州市超市营业额热力.jpg 经度 纬度 利润 2000.0 0.1 0
java -jar kernel.jar 杭州市超市营业额.csv 杭州市超市营业额分布.geojson 经度 纬度 利润 2000.0 0.1 0
java -jar kernel.jar 测试数据.csv 测试数据.jpg lon lat "" 300.0 0.1 0
java -jar kernel.jar 测试数据.csv 测试数据.geojson lon lat "" 300.0 0.1 0
参数参数位置参数说明
inputPath1输入的csv文件路径
outPath2输出的文件路径,程序根据文件后缀选择生产的文件类型,只允许 jpg、png、geojson 三种文件。
lonKey3输入文件中的经度字段名
latKey4输入文件中的纬度字段名
weightKey5输入文件中的权重字段名,没有则输入””
radius6影响半径,单位米,影响半径越长,周围空间受该数据的影响越广,需根据不同的输入数据情况调整
bufferSize7空间缓冲区,可扩大数据空间范围,一般0.1即可,即扩大 10% 的区域
step8空间划分步长,步长越小则参与计算的空间点数据越多,计算量越大,结果数据越精确, 需根据不同的输入数据情况调整,当值为0时,程序则适配生成一百万个点或网格参与计算,注:尽量不要在城市级别范围设置过低步长

四.执行结果展示

热力图示例:
在这里插入图片描述

平台分析示例:

在这里插入图片描述

杭州市超市营业额区域性分析-热力图:

在这里插入图片描述

杭州市超市营业额区域性分析-平台分析:
在这里插入图片描述

五、应用场景

  1. 金融风险评估:核密度算法可以用于评估某种投资方式的风险程度。将历史数据输入核密度估计器中,可以得出该投资方式在不同风险水平下的收益概率密度分布。这有助于金融机构更好地了解风险和收益之间的平衡。

  2. 生态学:核密度算法可用于研究动植物的栖息地和迁徙模式。将动植物的观察数据输入核密度估计器中,可以得出它们在不同地点出现的概率密度分布,帮助科学家更好地了解动植物的栖息地范围和活动规律。

  3. 交通流量预测:核密度算法可以用于预测道路上的交通流量。将历史交通流量数据输入核密度估计器中,可以得出在不同时间段内和不同位置上的交通流量概率密度分布。这有助于交通管理人员更好地规划道路、优化路线和管理交通拥堵。

  4. 模式识别:核密度算法可以使用于人脸识别、图像处理等领域。将输入数据的特征值输入核密度估计器中,可以得出不同特征值下相应数据的概率密度分布。这可用于识别图像中不同物体的特征值,例如人脸的轮廓和眼睛的位置,从而实现自动化识别。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1463176.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用transformer来训练自己的大模型实现自定义AI绘图软件的详细操作步骤

使用transformer来训练自己的大模型实现自定义AI绘图软件的详细操作步骤!下面的步骤是非常细致的,如果你有一台自己的GPU算力还算可以的服务器主机,想自己训练AI大模型。可以按照如下步骤开展操作。 要使用 Transformer 框架训练属于自己的大模型来完成 AI 绘图,需要经历以…

数字之美:探索人工智能绘画的奇妙世界

目录 引言AI绘画的定义与发展历程定义与发展历程AI绘画产品有哪些? AI绘画的应用领域设计与创意产业影视与游戏制作数字艺术与展览 AI绘画的基本原理与技术深度学习与神经网络生成对抗网络&#xff08;GAN&#xff09;风格迁移算法 AI绘画效果展示一只带着墨镜的小猫在高楼林立…

Vivado 2015.4安装记录

一、资源 安装破解包&#xff1a;Vivado2015.4,提取码&#xff1a;4eaw 二、安装 2.0 解压缩 2.0.1 解压缩Xilinx_Vivado_SDK_Win_2015.4_1118_2.tar.gz 2.0.2 解压缩Xilinx_Vivado_SDK_Win_2015.4_1118_2.tar 2.1 安装 安装驱动前&#xff0c;要拔掉与电脑连接的Xilinx下载…

qt-动画圆圈等待-LED数字

qt-动画圆圈等待-LED数字 一、演示效果二、关键程序三、下载链接 一、演示效果 二、关键程序 #include "LedNumber.h" #include <QLabel>LEDNumber::LEDNumber(QWidget *parent) : QWidget(parent) {//设置默认宽高比setScale((float)0.6);//设置默认背景色se…

fastjson解析自定义get方法导致空指针问题

背景 为了在日志中把出入参打印出来&#xff0c;以便验证链路和排查问题&#xff0c;在日志中将入参用fastjson格式化成字符串输出&#xff0c;结果遇到了NPE。 问题复现 示例代码 public static void main(String[] args) {OrganizationId orgId new OrganizationId();N…

HTML+CSS+JS:花瓣登录组件

效果演示 实现了一个具有动态花朵背景和简洁登录框的登录页面效果。 Code <section><img src"./img/background.jpeg" class"background"><div class"login"><h2>Sign In</h2><div class"inputBox"…

CoordConv(NeurIPS 2018)

paper&#xff1a;An Intriguing Failing of Convolutional Neural Networks and the CoordConv Solution official implementation&#xff1a;https://github.com/uber-research/coordconv 存在的问题 本文揭示并分析了CNN在两种不同类型空间表示之间转换能力的欠缺&#…

新书推荐:《分布式商业生态战略:未来数字商业新逻辑与企业数字化转型新策略》

近两年&#xff0c;商业经济环境的不确定性越来越明显&#xff0c;市场经济受到疫情、技术、政策等多方因素影响越来越难以预测&#xff0c;黑天鹅事件时有发生。在国内外经济方面&#xff0c;国际的地缘政治对商业经济产生着重大的影响&#xff0c;例如供应链中断&#xff0c;…

这才是No.1的门禁管理技巧!赶紧抄作业

随着社会的不断发展和科技的飞速进步&#xff0c;安全管理成为各个领域不可或缺的重要环节。在这个背景下&#xff0c;门禁监控系统作为一种先进而高效的安全管理工具逐渐受到了广泛关注和应用。 客户案例 企业大厦管理 在江苏某繁忙的商业大厦中&#xff0c;管理人员常常面临…

Elastic Stack--01--简介、安装

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 1. Elastic Stack 简介为什么要学习ESDB-Engines搜索引擎类数据库排名常年霸榜![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/051342a83f574c8c910cda…

尝试一下最新的联合办公利器ONLYOffice

下载下来一起试试吧 桌面安装版下载地址&#xff1a;https://www.onlyoffice.com/zh/download-desktop.aspx) 官网地址&#xff1a;https://www.onlyoffice.com 普通Office对联合办公的局限性 普通Office软件&#xff08;如Microsoft Office、Google Docs等&#xff09;在面对…

记一次 migo 报错 M7097 没有可用于物料 XXX 的库存过账

背景:公司重构SAP后&#xff0c;引入返利物料&#xff0c;此部分物料的数量统计单位是USD/CNY,不启用会计类视图&#xff0c;但是启用批次管理&#xff0c;但是正常物料不启用批次管理。这是大背景&#xff0c;物料类型为ZZZZ 但是实际需要的是 检查物料还是没有被用作其他方…

什么是web组态?

一、web组态的定义和背景 在深入探讨之前&#xff0c;我们先回顾一下“组态”的定义。在工业自动化领域&#xff0c;组态软件是用于创建监控和数据采集&#xff08;SCADA&#xff09;系统的工具&#xff0c;它允许工程师构建图形界面&#xff0c;实现与各种设备和机器的数据交互…

玩转网络抓包利器:Wireshark常用协议分析讲解

Wireshark是一个开源的网络协议分析工具&#xff0c;它能够捕获和分析网络数据包&#xff0c;并以用户友好的方式呈现这些数据包的内容。Wireshark 被广泛应用于网络故障排查、安全审计、教育及软件开发等领域。关于该工具的安装请参考之前的文章&#xff1a;地址 &#xff0c;…

本地配置多个git账户及ll设置

本地配置多个git账户 清除全局配置将命令行&#xff0c;切换到ssh目录生成GitLab和Gitee的公钥、私钥去对应的代码仓库添加 SSH Keys添加私钥ll设置 管理密钥验证仓库配置关于gitgitee.com: Permission denied (publickey) 清除全局配置 此步骤可以不做&#xff0c;经测试不影…

ElasticSearch聚合操作

目录 ElasticSearch聚合操作 基本语法 聚合的分类 后续示例数据 Metric Aggregation Bucket Aggregation ES聚合分析不精准原因分析 提高聚合精确度 ElasticSearch聚合操作 Elasticsearch除搜索以外&#xff0c;提供了针对ES 数据进行统计分析的功能。聚合(aggregation…

vue里echarts的使用:画饼图和面积折线图

vue里echarts的使用,我们要先安装echarts,然后在main.js里引入: //命令安装echarts npm i echarts//main.js里引入挂载到原型上 import echarts from echarts Vue.prototype.$echarts = echarts最终我们实现的效果如下: 头部标题这里我们封装了一个全局公共组件common-he…

(AISG)M16圆形连接器高强度工业应用互连选型

什么是M16连接器 M16连接器又称C09圆形连接器&J09圆形连接器作为连接设备的一种&#xff0c;其优点是结构紧凑、使用方便、芯数丰富&#xff08;2PIN、3PIN、4PIN、5PIN、6PIN、7PIN、8PIN、12PIN、14PIN、16PIN、19PIN、24PIN&#xff09;。因此&#xff0c;圆形连接器在…

Shader基础的简单实现(基于URP渲染)

一个模型是很多个顶点组成&#xff0c;顶点数据中包含坐标、法线、切线、UV坐标、顶点颜色等等组成。 URP(Universal Render Pipeline)通用渲染管线&#xff0c;是Unity在2019.3版本之后推出的一种新的渲染管线。传统的渲染管线在渲染多光源的情况&#xff0c;是把每一个主要光…

TensorFlow训练大模型做AI绘图,需要多少的GPU算力支撑

TensorFlow训练大模型做AI绘图&#xff0c;需要多少的GPU算力支撑&#xff01;这个问题就涉及到了资金投资的额度了。众所周知&#xff0c;现在京东里面一个英伟达的显卡&#xff0c;按照RTX3090(24G显存-涡轮风扇&#xff09;版本报价是7000-7500之间。如果你买一张这样的单卡…