【2022年MathorCup大数据竞赛】B题:北京移动用户体验影响因素研究(二)(问题一的分析和结果)

news2024/11/15 10:19:12

目录:题目解析

  • 一、问题的解答框架
  • 二、问题一的分析
    • 2.1 附件1的处理流程
    • 2.2 附件2的处理流程
      • 2.2.1 拉格朗日插补法
    • 2.3 数据编码
    • 2.4 相关分析
    • 2.5 基于互信息+GBDT的特征提取
    • 2.6 量化分析

一、问题的解答框架

在这里插入图片描述

二、问题一的分析

针对问题一,首先需要对附件1和附件2提供的数据进行分析和处理。

附件1提供了5433个样本数据,包含用户语音业务的满意度及其50个影响因素;

附件2提供了7020个样本数据,包含用户上网业务的满意度及其120个影响因素。

其中,原始数据在采集或传输过程中因为某种原因出现了数据缺失等问题,导致数据质量下降,进而会影响后续建立客户打分基于相关影响因素的数学模型,故在研究影响客户语音业务和上网业务满意度的主要因素之前,需要对附件1数据和附件2数据进行特征工程处理。

本文对上述数据的预处理主要包含如下过程:首先,删除无用特征和冗余特征;其次,根据附件5说明填充部分空值;然后,对于附件1,空值比例超过50%的影响因素直接删除,空值比例没有超过50%的离散型特征选择用众数填补,连续型特征选择用0填补;对于附件2,对于离散型特征选择用众数填补,小范围缺失的连续型特征用拉格朗日插值法进行填补,其余连续型特征用0填补;最后对数据集进行填充替换选用CatBoost Encoder对数据集进行编码,方便进一步研究。

由于问题一需要分别研究影响用户语音业务和上网业务满意度的主要因素,而附件1用户语音业务的满意度包括语音通话整体满意度、网络覆盖与信号强度、语音通话清晰度和语音通话稳定性四个方面,以及经过特征工程处理之后的影响因素;附件2用户上网业务的满意度包括手机上网整体满意度、网络覆盖与信号强度、手机上网速度和手机上网稳定性四个方面,以及经过特征工程处理之后的影响因素。

本文先对影响因素进行互信息提取,在此基础上采用GBDT算法进行提取主要影响因素并进行量化分析。

2.1 附件1的处理流程

在这里插入图片描述

首先,统计每一列特征的空值比例,删除无用特征以及冗余特征;其次,根据附件5的备注说明填补部分空值;然后,删除空值比例超过50%的特征;空值比例没有超过50%的离散型特征选择用众数填补,连续型特征选择用0填补。附件1特征变量缺失值数量、缺失值占比以及处理方式如下表所示:

在这里插入图片描述
附件1语音业务用户满意度数据共有15个特征变量含有缺失值,其中当月欠费金额、客户星级标识等特征的缺失值占比非常小,远小于0.1%,因此,对此类含有缺失值的变量进行填充处理,其中连续型特征用0填补,离散型特征用众数填补;而用户描述.1、是否关怀用户、用户描述、重定向驻留时长、重定向次数以及是否去过营业厅的缺失值占比大于50%,这些变量中存在大量缺失,其中附件5对是否关怀用户以及是否去过营业厅进行说明,空白的用“否”进行填补,用户描述.1、用户描述、重定向驻留时长以及重定向次数认定该特征变量提供的信息有限,因此选择删除,故最终剩余46个影响因素。

2.2 附件2的处理流程

在这里插入图片描述

附件2提供了7020个样本数据,相关指标包括语手机上网整体满意度、网络覆盖与信号强度、手机上网速度和手机上网稳定性四个用户语音业务的满意度及其120个影响因素。首先,统计每一列特征的空值比例,删除无用特征以及冗余特征;其次,根据附件5的备注说明填补部分空值;然后,对于离散型特征选择用众数填补,小范围缺失的连续型特征用拉格朗日插值法进行填补,其余连续型特征用0填补。附件2特征变量缺失值数量、缺失值占比以及处理方式如表所示:

在这里插入图片描述

附件2上网业务用户满意度数据共有29个特征变量含有缺失值,其中腾讯视频使用流量、优酷视频使用流量等变量的缺失值占比非常小,远小于0.1%,因此,对此类含有缺失值的变量进行填充处理,而APP小类游戏备注、APP大类备注等变量的缺失值占比大于50%,这些变量中存在大量缺失这些变量中存在大量缺失,其中附件5对上网质差次数、脱网次数、重定向次数、2G驻留时长、微信质差次数、王者荣耀质差次数进行说明,空白的用0进行填补,其他变量则有理由认定该特征变量提供的信息有限,因此选择删除,故最终剩余111个影响因素。

2.2.1 拉格朗日插补法

拉格朗日插值法(Lagrange interpolation)是一种多项式插值方法。如对实践中某个物理量进行观测,在若干个不同的地方得到相应的观测值,拉格朗日插值法可以找到一个多项式,其恰好在各个观测点取到观测到的值。从数学上来讲,拉格朗日插值法可以给出一个恰好穿过二维平面上若干个已知点的多项式函数,并且可以证明,经过n+1个互异的点的次数不超过n的多项式是唯一存在的。应用拉格朗日插值公式所得到的拉格朗日插值多项式为:

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在插值计算中,为了减少截断误差,选择插值结点时尽量选取与插值点距离较近的一些结点。本文针对连续缺失小于3条的数据,取其前后5条数据进行拉格朗日插值从而将缺失部分补充完整;针对连续缺失条数较多的数据,由于无法在其相邻时刻取到足够多的点,因此采用均值插补的方法将剩余缺失数据补充完整。

对附件2中的缺失值小于0.1%且小范围缺失的连续型变量采用拉格朗日插值法进行缺失值填补,包括王者荣耀使用天数、游戏类APP使用天数和游戏类APP使用次数三个特征。

2.3 数据编码

对附件1和附件2的数据进行缺失值处理后,数据属于问卷数据类型,类别用不同数字进行区分,本文还需要对数据集进行填充替换。由于数据集中大多数变量为离散型变量,对于此类变量,在一般的统计分析中难以处理,而且大部分数学模型要求数据是数字格式的,对于非数值型这种非数字格式,则需要将其转换为数字形式的数值型变量,这个过程又称为对非数值型变量的编码。常见的数据编码方式很多,其中最常见的编码方式包括Label Encoder、OneHot Encod、Target Encoder及Catboost Encoder等。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Label Encoder随机地给特征排序,会给这个特征增加不存在的顺序关系,即对数据增加了不必要的噪声;OneHot Encoder在离散特征的取值过多的时候,会导致生成特征变量的数量太多导致特征维度爆炸且过于稀疏;Target Encoder使模型更难学习均值编码变量和另一个变量之间的关系,仅基于列与目标的关系就在列中绘制相似性,且这种编码方法对目标变量非常敏感,这会影响模型提取编码信息的能力,此外,由于该类别的每个值都被相同的数值替换,因此模型可能会过拟合其见过的编码值。

综合上述分析,问题一采用CatBoost Encoder对附件1和附件2的离散型变量进行编码转化为数值型变量。

2.4 相关分析

在这里插入图片描述

在这里插入图片描述

语音业务三个方面的评分与整体满意度之间的三种相关系数均在0.79以上,这说明语音业务三个方面的评分与整体满意度之间是高度相关的。因此在问题二的预测中,本文可以以语音整体满意度作为基准进行模型的优化处理与选择,后面对另外三个指标直接运用对应的模型进行预测。同理用于上网的业务。

2.5 基于互信息+GBDT的特征提取

先对影响因素分别计算与四个打分指标之间的互信息值,选择互信息值大于等于1%的影响因素,然后再对大于互信息阈值的影响因素采用GBDT算法提取主要影响因素。

在这里插入图片描述
在这里插入图片描述
GBDT的算法原理较为常见,不再详细讲解!(用随机森林的效果差不多)

首先对附件1所有影响因素计算和语音整体满意度的互信息值:

在这里插入图片描述
可视化前20个影响因素和语音整体满意度的互信息值:
在这里插入图片描述

进一步采用GBDT算法对语音通话整体满意度及其影响因素再一次选择,特征重要性如下所示:

在这里插入图片描述
可视化前20个语音整体满意度的特征重要性:
在这里插入图片描述

绘制了语音业务前20个影响因素的热力图,分析前20个影响因素之间的相关性:
在这里插入图片描述

可认为这20个主要影响因素之间各自具有一定的代表性!

排名前三的影响因素为是否遇到过网络问题、GPRS总流量(KB)以及当月ARPU,影响因素的值分别为0.196、0.134、0.090。

由于网络覆盖与信号强度、语音通话清晰度和语音通话稳定性与语音通话整体满意度的互信息值以及特征重要性相似,分析方法相同,故网络覆盖与信号强度、语音通话清晰度和语音通话稳定性的互信息值以及特征重要性不再多写。

上网业务的分析同上!

在这里插入图片描述

在这里插入图片描述

排名前三的影响因素为网络信号差/没有信号、重定向时长以及上网过程中网络时断时续或时快时慢,影响因素的值分别为0.104、0.077、0.058。

2.6 量化分析

这里我们只写语音业务的量化分析。

本文主要选取了附件1语音业务排名前三的影响因素进行量化分析,即对是否遇到过网络问题、GPRS总流量(KB)以及当月ARPU进行量化分析。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/174045.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《MySQL高级篇》十二、MySQL事务日志

文章目录1. redo日志1.1 为什么需要REDO日志1.2 REDO日志的好处、特点1. 好处2. 特点1.3 redo的组成1.4 redo的整体流程1.5 redo log的刷盘策略1.6 不同刷盘策略演示1. 刷盘策略分析2. 举例1.7 写入redo log buffer 过程1. 补充概念:Mini-Transaction2. redo 日志写入log buffe…

「链表」数据结构简析

前言 前言:研究一个数据结构的时候,首先讲的是增删改查。 文章目录前言一、链表简介1. 含义2. 节点组成3. 存储方式1)数据在内存中的存储方式2)单链表在内存中的存储方式2)双链表在内存中的存储方式2)循环链…

程序地址空间

目录 1. 验证程序地址空间布局图 2. 虚拟地址空间 什么是虚拟地址空间 3. 进程地址空间 4. 为什么要有虚拟地址空间 1. 有效保护物理内存 2. 使内存管理模块和进程管理模块实现解耦合 3. 将内存分布有序化 1. 验证程序地址空间布局图 下面我们写段代码验证一下上图中…

qt调用matlab生成的dll库

最近由于在项目中要用到matlab的算法,而用C转换matlab算法非常麻烦,所以采用qtmatlab混合编程的方法,在使用中遇到了些许问题,特记录如下。 一、生成matlab库 1、首先需要下载matlab完整版,之前在网上下载的简版&…

基于C#制作一个休息提醒闹钟

> 此文主要通过WinForm来制作一个休息提醒闹钟,通过设置时间间隔进行提醒,避免沉浸式的投入到工作或者学习当中,战斗的同时也要照顾好自己。 实现流程1.1、创建项目1.2、时间间隔配置页1.3、闹钟提醒页1.4、开机自启动配置1.5、日志记录1.…

一个数据库文档生成神器

Gitee项目地址,可以直接去开源项目查看(推荐) 简介 在企业级开发中、我们经常会有编写数据库表结构文档的时间付出,从业以来,待过几家企业,关于数据库表结构文档状态:要么没有、要么有、但都是…

MySql 5.7.40备份到腾讯云cos+从cos恢复

1 备份 1.1 安装coscli # wget https://github.com/tencentyun/coscli/releases/download/v0.12.0-beta/coscli-linux # mv coscli-linux /usr/bin/coscli # chmod 755 /usr/bin/coscli # coscli --version如果github慢可以使用国内镜像: wget https://cosbrowse…

数电相关知识

文章目录 逻辑电路与或非异或 门电路与的物理电路电压比较器D型锁存器优先编码器边沿触发器RS触发器施密特触发器基本原理555定时器数电电平TTL器件CMOS器件逻辑电路 与或非异或 门电路 与乘大于1或加大于1异或异性为1,异吗? 与的物理电路

Leetcode:17. 电话号码的字母组合(C++)

目录 问题描述: 实现代码与解析: 回溯: 原理思路: 问题描述: 给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合。答案可以按 任意顺序 返回。 给出数字到字母的映射如下&…

【数据库】必须知道的MySQL优化

文章目录SQL语言有哪几部分组成为什么要进行MySQL优化?优化方法有哪些?SQL层面优化MySQL配置方面架构设计方面硬件和操作系统方面.SQL语言有哪几部分组成 数据定义语言,简称DDL:DROP,CREATE,ALTER等语句。数据操作语言&#xff0…

【Java|golang】2299. 强密码检验器 II

如果一个密码满足以下所有条件,我们称它是一个 强 密码: 它有至少 8 个字符。 至少包含 一个小写英文 字母。 至少包含 一个大写英文 字母。 至少包含 一个数字 。 至少包含 一个特殊字符 。特殊字符为:“!#$%^&*()-” 中的一个。 它 不…

VMware 安装 OpenWrt 旁路由并配置 PassWall

准备 OpenWrt 镜像包,本例使用的是在恩山论坛上面下载的https://www.right.com.cn/forum/thread-8271618-1-1.html网络选择 NAT 模式创建虚拟机一直下一步至一直下一步至,这里选择 NAT 方式一直下一步至,这里选择“使用现在虚拟磁盘”&#x…

高并发系统设计 -- 粉丝关注列表如何设计

粉丝关注列表如何设计和落地 业务场景 上图我们简称relation页。relation页展示用户的关系相关信息,包含两个子页面: follower页,展示关注该用户的所有用户信息。attention页,展示该用户关注的所有用户信息 主要操作 用户可以…

数论之欧拉筛法(含朴素筛选、埃式筛选详细代码)

文章目录前言朴素筛法(纯暴力,O(n^2^))埃式筛法(找出合数来确认质数, O(n*log(logn)))欧拉筛法(线性筛选,O(n))参考文章前言 在学习Acwing c蓝桥杯辅导课第八讲数论-1295. X的因子链…

Linux常用命令——tcpdump命令

在线Linux命令查询工具(http://www.lzltool.com/LinuxCommand) tcpdump 一款sniffer工具,是Linux上的抓包工具,嗅探器。 补充说明 tcpdump命令是一款抓包,嗅探器工具,它可以打印所有经过网络接口的数据包的头信息,…

【MySQL】CentOS7 卸载以及安装 MySQL 详细流程

一、卸载 MySQL 查看 MySQL 安装版本 mysqladmin --version通过 rpm 查找 MySQL rpm -qa|grep -i mysql查看 MySQL 运行状态 systemctl status mysqld.service关闭 MySQL 服务 systemctl stop mysqld.service通过 yum remove 删除 MySQL 安装包 把上面所有的安装包挨个删除…

用友U8和旺店通·企业奇门单据接口对接

对接系统旺店通企业奇门旺店通是北京掌上先机网络科技有限公司旗下品牌,国内的零售云服务提供商,基于云计算SaaS服务模式,以体系化解决方案,助力零售企业数字化智能化管理升级。为零售电商企业的订单管理及仓储管理提供解决方案&a…

Java寒假作业——编程题

二、编程题(ACM模式)1-2题1 (2022蚂蚁金服)一个字母可以拆分成两个字母表顺序的前一个字母,例如,b可以拆分成aa,c可以拆分成bb。打印出最短的可以拆分成 K 个 a 的字符串,字母顺序无…

Spring的三种装配机制(XML、JavaConfig、自动装配)

Spring中bean有三种装配机制一、在xml中显示装配二、 在java中显式装配&#xff0c;都需要在Config配置类重写三、自动装配1. xml方式自动装配2. 使用注解装配等于依赖关系注入&#xff0c;即一个Bean作为属性&#xff0c;装配到另一个Bean。 一、在xml中显示装配 <!--1. …

GCC是什么

GCC是什么 说到 GCC&#xff0c;就不得不提 GNU&#xff0c;“GNU”是“GNUs Not Unix!”&#xff08;GNU并非Unix&#xff01;&#xff09;的首字母递归缩写&#xff0c;中文名“革奴计划”。GNU 计划的最终目标是打造出一套完全自由&#xff08;即自由使用、自由更改、自由发…