评价类——熵权法(Entropy Weight Method, EWM),完全客观评价

news2024/11/13 9:08:37

目录

  • 一、 熵权法赋权代码说明
    • 1.1 介绍
  • 二、 手把手教你运行代码
    • 2.1 数据示例
    • 2.2 ==可直接运行代码==
    • 2.3 shangquanfa_eg_Sheet1.csv数据可视化
    • 2.4 代码运行过程截屏
    • 2.5 代码运行结果截屏
    • 2.6 对熵权法的结果分析
  • 三、 提供的代码如何修改?
  • 四、 为什么确定极小化指标?
    • 4.1 极小化和极大化的归一化原理
      • 1. 极大化指标的归一化
        • 归一化公式解释
      • 2. 极小化指标的归一化
        • 归一化公式解释
      • 3. 归一化的目的和意义
  • 四、熵权法的原理
    • 4.1 熵权法简介
    • 4.2 熵权法的原理
      • 4.2.1 信息熵的计算公式

一、 熵权法赋权代码说明

1.1 介绍

熵权法(Entropy Weight Method, EWM)是一种客观赋权的方法,用于多指标决策分析。

我知道大家对原理不感兴趣,原理我放在最后,写论文的同学可以复制,但是记得改一改,否则查重率过不去。
代码可以直接运行,大家参考我的教程。

二、 手把手教你运行代码

接下来,我给大家提供一个示例数据,以这个数据教大家如何使用下述代码。

2.1 数据示例

假设你的数据存储在 data.csv 文件中,格式如下:

编号影响因素1影响因素2影响因素3
A70800030
B90700050
C60750040

首先将你的数据整理为这种格式,然后查看影响因素,对某个值越大约好的不用管,只需要找出影响因素越小越好的值(因为两者归一化的方法不一样),假如影响因素1和2 是越小越好,那么记住,影响因素在除了第一列以外,从0开始编号属于第1和2列,记住``和2

接下来给你提供代码,教你如何操作代码。

2.2 可直接运行代码

import pandas as pd
import numpy as np


def entropy_weight_method(csv_file, minimize_cols=None):
    # 读取 CSV 文件
    data = pd.read_csv(csv_file)

    # 取出指标数据(假设数据的第一列是样本编号,后面的列是指标)
    samples = data.iloc[:, 0]  # 样本编号
    values = data.iloc[:, 1:].values  # 指标数据
    num_samples, num_indicators = values.shape

    # 如果没有指定极小化列,则默认为空列表
    if minimize_cols is None:
        minimize_cols = []

    # 标准化数据
    def normalize(matrix, minimize_cols):
        matrix_norm = np.zeros_like(matrix, dtype=float)
        for i in range(matrix.shape[1]):
            min_val = np.min(matrix[:, i])
            max_val = np.max(matrix[:, i])
            # 对极大化指标进行标准化
            if i not in minimize_cols:
                matrix_norm[:, i] = (matrix[:, i] - min_val) / (max_val - min_val)
            # 对极小化指标进行标准化
            else:
                matrix_norm[:, i] = (max_val - matrix[:, i]) / (max_val - min_val)
        return matrix_norm

    # 标准化数据
    normalized_data = normalize(values, minimize_cols)

    # 计算指标比重
    indicator_sum = np.sum(normalized_data, axis=0)
    proportion_matrix = normalized_data / indicator_sum

    # 计算信息熵
    def calculate_entropy(matrix):
        epsilon = 1e-10  # 防止对数计算中的零
        p = matrix + epsilon
        entropy = -np.sum(p * np.log(p), axis=0) / np.log(matrix.shape[0])
        return entropy

    entropy = calculate_entropy(proportion_matrix)

    # 计算熵权
    def calculate_weights(entropy):
        d = 1 - entropy
        weights = d / np.sum(d)
        return weights

    weights = calculate_weights(entropy)

    # 计算综合得分
    scores = np.dot(normalized_data, weights)

    # 将结果保存到 CSV 文件
    result = pd.DataFrame({
        'Sample': samples,
        'Score': scores
    })
    result.to_csv('weighted_scores.csv', index=False, encoding='utf-8')

    return weights, scores


# 用法
csv_file = 'shangquanfa_eg_Sheet1.csv'  # 假设数据存储在 data.csv 文件中

# 指定极小化的指标列索引(从0开始计数,假设第二列和第三列是极小化指标)
minimize_cols = [0, 1]  # 比如这里的列索引根据你的数据来设置
# minimize_cols = []  # 无极小化因素则启用这行代码
weights, scores = entropy_weight_method(csv_file, minimize_cols)

print("权重:", weights)
print("综合得分:", scores)

**首先注意的有3点,
1.你的数据文件必须经过我的转换,参考我的这篇播客:文件格式转换:EXCEL和CSV文件格式互相转换
对需要使用熵权法的数据进行转换,并且转换以后对csv文件不可以在进行操作,否则会报错字符编码错误。

2.找到这行代码minimize_cols = [0, 1] ,在里面填入1,2(注意英文半角)(原因我前文有说明,仔细看)
修改后minimize_cols = [1, 2](如果没有极小化,就是全部的影响因素越大越好,你就改为minimize_cols = []空列表)
3.csv_file = ‘shangquanfa_eg_Sheet1.csv’ 中,shangquanfa_eg_Sheet1.csv是你的csv文件的路径及名字,最终按顺序输出权重和综合得分。

运行代码:

2.3 shangquanfa_eg_Sheet1.csv数据可视化

在这里插入图片描述

2.4 代码运行过程截屏

在这里插入图片描述

2.5 代码运行结果截屏

在这里插入图片描述

2.6 对熵权法的结果分析

从结果:
权重: [0.36719405 0.31640297 0.31640297]
综合得分: [0.43880099 0.68359703 0.31640297]
可以看出:影响因素1、影响因素2、影响因素3的权重分别是:0.36719405 、0.31640297、 0.31640297,最终计算得出A、B、C三地的得分依次为:0.43880099 、0.68359703、 0.31640297,可知B地最佳。

三、 提供的代码如何修改?

**首先注意的有3点,
1.你的数据文件必须经过我的转换,参考我的这篇播客:文件格式转换:EXCEL和CSV文件格式互相转换
对需要使用熵权法的数据进行转换,并且转换以后对csv文件不可以在进行操作,否则会报错字符编码错误。

2.找到这行代码minimize_cols = [0, 1] ,在里面填入1,2(注意英文半角)(原因我前文有说明,仔细看)
修改后minimize_cols = [1, 2](如果没有极小化,就是全部的影响因素越大越好,你就改为minimize_cols = []空列表)
3.csv_file = ‘shangquanfa_eg_Sheet1.csv’ 中,shangquanfa_eg_Sheet1.csv是你的csv文件的路径及名字,最终按顺序输出权重和综合得分。

四、 为什么确定极小化指标?

看极小化和极大化的归一化过程你就懂了,过程如下:

4.1 极小化和极大化的归一化原理

在多指标决策分析中,不同的指标对决策的影响方向可能不同,有些指标是极大化指标(即指标值越大越好),而有些指标是极小化指标(即指标值越小越好)。为了将不同量纲和方向的指标转化到一个可比的尺度上,需要进行归一化处理,即将不同指标的值转换到相同的范围(通常为 [0, 1] 区间)。这样就可以在同一尺度上进行比较和计算。

1. 极大化指标的归一化

极大化指标是指指标的值越大越好,例如利润、效率、得分等。在归一化时,希望将指标值较大的样本归一化到更高的数值。归一化公式如下:

r i j = x i j − x min ⁡ ( j ) x max ⁡ ( j ) − x min ⁡ ( j ) r_{ij} = \frac{x_{ij} - x_{\min(j)}}{x_{\max(j)} - x_{\min(j)}} rij=xmax(j)xmin(j)xijxmin(j)

其中:

  • r i j r_{ij} rij 是第 i i i 个样本在第 j j j 个指标下的归一化值。
  • x i j x_{ij} xij 是第 i i i 个样本在第 j j j 个指标下的原始值。
  • x min ⁡ ( j ) x_{\min(j)} xmin(j) 是第 j j j 个指标的最小值。
  • x max ⁡ ( j ) x_{\max(j)} xmax(j) 是第 j j j 个指标的最大值。
归一化公式解释
  • x i j = x max ⁡ ( j ) x_{ij} = x_{\max(j)} xij=xmax(j) 时, r i j = 1 r_{ij} = 1 rij=1,表示该样本在该指标下的表现最好。
  • x i j = x min ⁡ ( j ) x_{ij} = x_{\min(j)} xij=xmin(j) 时, r i j = 0 r_{ij} = 0 rij=0,表示该样本在该指标下的表现最差。
  • 如果 x i j x_{ij} xij 介于 x min ⁡ ( j ) x_{\min(j)} xmin(j) x max ⁡ ( j ) x_{\max(j)} xmax(j) 之间, r i j r_{ij} rij 的值位于 0 和 1 之间。

2. 极小化指标的归一化

极小化指标是指指标的值越小越好,例如成本、污染物排放量、损失等。在归一化时,希望将指标值较小的样本归一化到更高的数值。归一化公式如下:

r i j = x max ⁡ ( j ) − x i j x max ⁡ ( j ) − x min ⁡ ( j ) r_{ij} = \frac{x_{\max(j)} - x_{ij}}{x_{\max(j)} - x_{\min(j)}} rij=xmax(j)xmin(j)xmax(j)xij

其中:

  • r i j r_{ij} rij 是第 i i i 个样本在第 j j j 个指标下的归一化值。
  • x i j x_{ij} xij 是第 i i i 个样本在第 j j j 个指标下的原始值。
  • x min ⁡ ( j ) x_{\min(j)} xmin(j) 是第 j j j 个指标的最小值。
  • x max ⁡ ( j ) x_{\max(j)} xmax(j) 是第 j j j 个指标的最大值。
归一化公式解释
  • x i j = x min ⁡ ( j ) x_{ij} = x_{\min(j)} xij=xmin(j) 时, r i j = 1 r_{ij} = 1 rij=1,表示该样本在该指标下的表现最好。
  • x i j = x max ⁡ ( j ) x_{ij} = x_{\max(j)} xij=xmax(j) 时, r i j = 0 r_{ij} = 0 rij=0,表示该样本在该指标下的表现最差。
  • 如果 x i j x_{ij} xij 介于 x min ⁡ ( j ) x_{\min(j)} xmin(j) x max ⁡ ( j ) x_{\max(j)} xmax(j) 之间, r i j r_{ij} rij的值位于 0 和 1 之间。

3. 归一化的目的和意义

  • 统一量纲:将不同量纲的指标统一到同一数值范围(通常为 [0, 1]),便于综合计算和比较。
  • 消除单位影响:通过归一化处理,消除不同单位对分析结果的影响。
  • 明确方向:根据指标的性质(极大化或极小化)调整数据方向,使得所有指标的优化目标一致(即越大越好)。

四、熵权法的原理

4.1 熵权法简介

熵权法(Entropy Weight Method, EWM)是一种客观赋权的方法,常用于多指标决策分析中。熵权法的基本思想是通过计算各指标的信息熵来衡量其在决策中的不确定性程度。指标的信息熵越大,说明该指标的信息越分散,差异性越小,对决策的影响程度越低;相反,信息熵越小,说明该指标的信息越集中,差异性越大,对决策的影响程度越高。

熵权法的优势在于它可以根据数据本身的分布情况,客观地确定各指标的权重,避免了人为主观赋权的干扰。

4.2 熵权法的原理

熵(Entropy)是信息论中的一个重要概念,用于度量系统的不确定性程度。在决策分析中,熵被用来表示指标值的离散程度。具体来说,信息熵越大,表明该指标的分布越均匀,对决策的贡献程度越小。因此,熵权法通过计算各指标的信息熵来确定其在决策中的权重。

4.2.1 信息熵的计算公式

给定一个指标 j j j,其在 n n n 个样本上的值为 x i j x_{ij} xij,熵权法的计算步骤如下:

  1. 标准化处理

    对原始数据进行标准化,消除量纲的影响。常用的标准化方法为极小化和极大化处理:

    r i j = x i j − x min ⁡ ( j ) x max ⁡ ( j ) − x min ⁡ ( j ) r_{ij} = \frac{x_{ij} - x_{\min(j)}}{x_{\max(j)} - x_{\min(j)}} rij=xmax(j)xmin(j)xijxmin(j)

    其中:

    • x i j x_{ij} xij是第 i i i个样本在第 j j j个指标上的值。
    • x min ⁡ ( j ) x_{\min(j)} xmin(j) 是第 j j j 个指标的最小值。
    • x max ⁡ ( j ) x_{\max(j)} xmax(j) 是第 j j j个指标的最大值。

    经过标准化后,所有数据都被归一化到 [0, 1] 区间。

  2. 计算各指标的比重

    计算每个样本在每个指标下的比重(比例系数):

    p i j = r i j ∑ i = 1 n r i j p_{ij} = \frac{r_{ij}}{\sum_{i=1}^{n} r_{ij}} pij=i=1nrijrij

    其中,$ p i j p_{ij} pij 表示第 i i i 个样本在第 j j j 个指标下的比重。

  3. 计算信息熵
    利用信息熵公式计算每个指标的信息熵:

    e j = − k ∑ i = 1 n p i j ln ⁡ ( p i j ) e_j = -k \sum_{i=1}^{n} p_{ij} \ln(p_{ij}) ej=ki=1npijln(pij)

    其中:

    • e j e_j ej 是第 j j j 个指标的信息熵。
    • k = 1 ln ⁡ ( n ) k = \frac{1}{\ln(n)} k=ln(n)1 是一个常数,用于标准化熵值。
    • n n n是样本的数量。
    • p i j = 0 p_{ij} = 0 pij=0 时,定义 p i j ln ⁡ ( p i j ) = 0 p_{ij} \ln(p_{ij}) = 0 pijln(pij)=0
  4. 计算熵权

    根据信息熵计算每个指标的权重:

    w j = 1 − e j m − ∑ j = 1 m e j w_j = \frac{1 - e_j}{m - \sum_{j=1}^{m} e_j} wj=mj=1mej1ej

    其中:

    • w j w_j wj 是第 j j j 个指标的权重。
    • m m m 是指标的数量。
  5. 计算综合得分

    使用计算出的权重,计算每个样本的综合得分:

    S i = ∑ j = 1 m w j ⋅ r i j S_i = \sum_{j=1}^{m} w_j \cdot r_{ij} Si=j=1mwjrij

    其中:

    • S i S_i Si 是第 i i i 个样本的综合得分。
    • r i j r_{ij} rij 是第 i i i 个样本在第 j j j 个指标下的标准化值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2140614.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

算法:计算二叉树的最大深度(Java实现)

思路 定义问题: 最大深度(或称为最大层数)是从根节点到最远叶子节点的路径上的节点数。我们需要找到这个最长路径的节点数。 递归的基本思路: 对于每个节点,我们需要计算其左子树的最大深度和右子树的最大深度。节点的…

54.【C语言】 字符函数和字符串函数(strncpy,strncat,strncmp函数)

和strcpy,strcat,strcmp函数对应的是strncpy,strncat,strncmp函数 8.strncpy函数 *简单使用 cplusplus的介绍 点我跳转 翻译: 函数 strncpy char * strncpy ( char * destination, const char * source, size_t num ); 从字符串中复制一些字符 复制源(source)字符串的前num个…

Redis详细解析

Redis 什么是Redis?关系型与非关系型数据库Redis可以做什么Redis入门安装在Windows系统上安装在Linux系统上安装 Redis在Linux系统上启动运行如何设置redis-server后台运行与关闭如何设置redis客户端登录时需要验证密码**设置允许远程连接redis服务**Redis数据类型Redis常用命…

魔方财务迁移指南

本文将详细介绍如何将魔方财务系统迁移到新的服务器,确保您能够顺利地迁移数据和系统文件。 迁移前的准备 在开始迁移之前,请确保新服务器满足以下配置要求: 操作系统:CentOS/Debian/Ubuntu硬件配置:至少2H2G&#…

RP2040 C SDK ADC功能使用

RP2040 C SDK ADC功能使用 🌿RP2040 ADC功能说明文档:https://www.raspberrypi.com/documentation/pico-sdk/hardware.html#hardware_adc 📗RP2040 ADC介绍 SAR ADC500 kS/s (Using an independent 48MHz clock)12 bit (RP2040 8.7 ENOB, R…

建筑资质与劳务资质的区别

在建筑行业,资质就像是企业的“身份证”,它证明了企业具备承接相应工程的能力和条件。对于刚入行的小白来说,可能会对建筑资质和劳务资质的区别感到困惑。别担心,今天我们就来聊聊这两者之间的不同。 什么是建筑资质? …

git push : RPC failed; HTTP 400 curl 22 The requested URL returned error: 400

git push 出现RPC failed; HTTP 400 curl 22 The requested URL returned error: 400 问题 git push Enumerating objects: 11, done. Counting objects: 100% (11/11), done. Delta compression using up to 8 threads Compressing objects: 100% (10/10), done. error: RPC …

分布式训练:(Pytorch)

分布式训练是将机器学习模型的训练过程分散到多个计算节点或设备上,以提高训练速度和效率,尤其是在处理大规模数据和模型时。分布式训练主要分为数据并行和模型并行两种主要策略: 1. 数据并行 (Data Parallelism) 数据并行是最常见的分布式…

数据结构之树的常用术语

二叉树的常用术语 前言 由于数组在插入、删除上的缺点和链表在查询上的缺点,出现了树的数据结构,可以在增删改查中弥补数组和链表的缺陷。 常用数据 节点:每个节点根节点:最上层的节点,Root节点父节点:相…

基于SSM的宿舍管理系统的设计与实现 (含源码+sql+视频导入教程)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1 、功能描述 基于SSM的宿舍管理系统拥有两种角色,分别为管理员和宿管,具体功能如下: 管理员:学生管理、班级管理、宿舍管理、卫生管理、访客管理、用户…

SOT23封装1A电流LDO具有使能功能的 1A、低 IQ、高精度、低压降稳压器系列TLV757P

前言 SOT23-5封装的外形和丝印 该LDO适合PCB空间较小的场合使用,多数SOT23封装的 LDO输出电流不超过0.5A。建议使用时输入串联二极管1N4001,PCB布局需要考虑散热,参考文末PCB布局。 1 特性 • 采用 SOT-23 (DYD) 封装,具有 60.3C/W RθJA •…

双指针算法专题(2)

找往期文章包括但不限于本期文章中不懂的知识点: 个人主页:我要学编程(ಥ_ಥ)-CSDN博客 所属专栏: 优选算法专题 想要了解双指针算法的介绍,可以去看下面的博客:双指针算法的介绍 目录 611.有效三角形的个数 LCR 1…

【天池比赛】【零基础入门金融风控 Task2赛题理解】实战进行中……20240915更新至2.3.4.3 查看训练集测试集中特征属性只有一值的特征

2.3 代码示例 2.3.1 导入数据分析及可视化过程需要的库 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import datetime import warnings warnings.filterwarnings(ignore) 2.3.2 读取文件 #读取数据时相对路径载入报错时…

【Redis】之Geo

概述 Geo就是Geolocation的简写形式,代表地理坐标。在Redis中,构造了能够存储地址坐标信息的一种数据结构,帮助我们根据经纬度来检索数据。 命令行操作方法 GEOADD 可以用来添加一个或者多个地理坐标。 GEODIST 返回一个key中两个成员之…

AgentTuning:提升大型语言模型的通用Agent能力

人工智能咨询培训老师叶梓 转载标明出处 大模型被用作现实中复杂任务的Agent时,它们的表现往往不如商业模型,如ChatGPT和GPT-4。这些任务要求LLMs作为中央控制器,负责规划、记忆和工具利用,这就需要精巧的提示方法和鲁棒性强的LL…

华为的仓颉和ArkTS这两门语言有什么区别

先贴下官网: ArkTs官网 仓颉官网 ArkTS的官网介绍说,ArkTS是TypeScript的进一步强化版本,简单来说就是包含了TS的风格,但是做了一些改进。 了解TypeScript的朋友都应该知道,其实TypeScript就是JavaScript的改进版本&…

基于springboot 自习室预订系统 前后端分离

基于springboot 自习室预订系统 前后端分离 目 录 摘 要 I Abstract II 第1章 前 言 2 1.1 研究背景 3 1.2 研究现状 3 1.3 系统开发目标 3 第2章 系统开发环境 5 2.1 java技术 5 2.2 Mysql数据库 6 2.3 B/S结构 7 2.4 springboot框架 7 2.5 ECLIPSE 开发环境 7 …

Redis的配置与优化

目录 一、关系数据库与非关系型数据库 1.1、关系型数据库 1.2、非关系型数据库 1.3、关系型数据库和非关系型数据库区别 数据存储方式不同 扩展方式不同 对事务性的支持不同 1.4、非关系型数据库产生背景 二、Redis简介 2.1、Redis优点 2.2、Redis为什么这么快 三、…

CefSharp_Vue交互(Element UI)_WinFormWeb应用---设置应用透明度(含示例代码)

一、界面预览 1.1 设置透明(整个页面透明80%示例) 限制输入值:10-100(数字太小会不好看见) 1.2 vue标题栏 //注册类与js调用 (async function(

速通汇编(五)认识段地址与偏移地址,CS、IP寄存器和jmp指令,DS寄存器

一,地址的概念 通常所说的地址指的是某内存单元在整个机器内存中的物理地址,把整个机器内存比作一个酒店,内存单元就是这个酒店的各个房间,给这些房间编的门牌号,类比回来就是内存单元的物理地址 在第一篇介绍debug的…