文章目录

一、数据合并
- 1. 读取数据
- 2. 数据预览
二、数据清洗
- 1. 检验ID是否重复，剔除ID重复项
- 2. 剔除填写时间小于xx分钟的值
- 3.处理量表题一直选一个选项的问题
三、数据清洗
1.1 将问卷单选题的选项code解码，还原成原来的选项
1.2 自动获取单选题旧的选项列表，进行替换成想要的选项名称
2.将多选题编码成0、1布尔值
四、数据分析
- 4.1 多选题整体分析
- 4.2 快速对多个单选题同时分析
- 4.3 多选交叉单选题分析
- 4.4 单选交叉单选
- 4.5 排序题分析
- 4.6 快速对多个多选题进行分析

一、数据合并

1. 读取数据

import pandas as pd
data = pd.read_excel('模块化床CMF调研_数据合并_202203.xlsx')

2. 数据预览

二、数据清洗

1. 检验ID是否重复，剔除ID重复项

检查是否有重复项，若无，返回0

print('ID重复的个数：',data.duplicated(subset=['ID'], keep='first').sum() )

如果有就删除

data = data.drop_duplicates(subset=['ID'], keep='first')

2. 剔除填写时间小于xx分钟的值

data['Time Finished'] = pd.to_datetime(data['Time Finished'])
data['Time Started'] = pd.to_datetime(data['Time Started'])

data['Duration_time'] = data['Time Finished'] - data['Time Started']

# 观察什么样的填答时间是异常的
import  pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt



def plot_numeric_features_distribution(feature_data,plt_title):

    from scipy.stats import norm
    from scipy import stats
    sns.distplot(feature_data, fit=norm)
    mu,sigma = norm.fit(feature_data)
    plt.legend(['Normal dist.($\mu=$ {:.2f} and$\sigma=${:.2f})'.format(mu,sigma)],loc='best')
    plt.ylabel('Frequency')
    plt.title(plt_title) 
    fig = plt.figure()
    res = stats.probplot(feature_data, plot=plt)
    plt.show()
#调用函数
plot_numeric_features_distribution(data['时间2'],'none')

筛选出填写用时大于110s的样本

df = data[data['Duration_time'].dt.total_seconds()>110]

3.处理量表题一直选一个选项的问题

# 判断量表题是否 选同一个数
def judge(x):
    list9=['9、与伴侣同睡时，以下原因多大程度会影响您的睡眠？—作息时间不同',
 '9、对床垫的软硬度要求不同',
 '9、对方打鼾',
 '9、对方翻身/上下床',
 '9、对于睡眠温度要求不同']
    
    list17 = ['17、购买后，您对于【[q2]】各方面的满意度是？—床垫价格',
 '17、床垫质量',
 '17、床垫舒适度',
 '17、床垫功能卖点',
 '17、店铺促销优惠',
 '17、品牌知名度',
 '17、品牌口碑',
 '17、售后服务',
 '17、床垫外观',]
    
    list21=[ '21、未来，您会因为以下特性而购买左右分体床垫吗？—男女左右分区可选不同软硬度',
 '21、更好的抗干扰性能',
 '21、女方一侧，可因怀孕/产后需要更换床垫',
 '21、男方一侧，带有辅助止鼾功能',
 '21、左右拆分后方便搬运',]
    
    list22=['22、未来，您可能因为什么原因不考虑左右分体床垫—分体床垫中间区域可能会有缝隙感',
 '22、文化风俗/情感方面会感到有隔阂',
 '22、价格会比普通床垫贵',
 '22、市场现有产品少，无法体验购买',
 '22、跟伴侣睡眠质量好/暂无伴侣，没有需要',
 '22、对质量感到担心',]
    
    list_sum = [list9,list17,list21,list22]
    mid_num = 0 # 过程存储，如果一个量表题全部选项一样就+1
    for i in list_sum:

        if len(set(x[i]))==1 and sum(x[i])/len(x[i]) != -3:
            mid_num+=1
        else:
            pass
    # 如果量表题有2题都是选择同一选项，则判为异常值
    if mid_num>=3:
        return False
    else:
        return True

三、数据清洗

1.1 将问卷单选题的选项code解码，还原成原来的选项

old_code_list = ['lower_i','lower_ii','middle_i','middle_ii','high_i','high_ii','high_iii','prefer_not_to_say']
real_option_list = ['<$2.5万','$2.5万-5万','$5万-7.5万','$7.5万-10万','$10万-12.5万','$12.5万-15万','>$15万','不愿透露']
df = df.reset_index(drop=True)
df['New_Income'] = df['Income'].replace(old_code_list,real_option_list)

1.2 自动获取单选题旧的选项列表，进行替换成想要的选项名称

# 获取原来单选题的选项有哪些
single_question = 'What kind of bed upholstered material do you like? (Please ignore color)'
old_code_list = list(df_multi_options[single_question].unique())
old_code_list

real_option_list = ['海军蓝','绿色','灰蓝色','米黄色','灰色','数字薰衣草','红色','黑色','棕褐色']
df_multi_options = df_multi_options.reset_index(drop=True)
df_multi_options[single_question] = df_multi_options[single_question].copy().replace(old_code_list,real_option_list)
df_multi_options[single_question].value_counts()

2.将多选题编码成0、1布尔值

未处理的多选题长这样
在这里插入图片描述
通过处理

# 1. 将要分析的多选题列表存入 “multi_options_list”
old_multi_options_list = ['where do you prefer to buy the bed? (You can choose 1 to 2 options)',
 'Unnamed: 14',
 'Unnamed: 15',
 'Unnamed: 16',
 'Unnamed: 17',
 'Unnamed: 18',
 'Unnamed: 19',
 'Unnamed: 20',
 'Unnamed: 21',]

# 复制个备份
df_multi_options = data.copy()

# 2. 获取多选题 选项的列表
multi_options_list = []
for i in old_multi_options_list:
    option_name = list(set(df_multi_options[i].dropna()))[0]
    multi_options_list.append(option_name)
    
# 3. 将得到的选项列表和 旧的被编码的多选题列名，编成字典{'old name':'new name'}
name_dict = dict(zip(old_multi_options_list,multi_options_list))


# 4.更替列表名称
df_multi_options =  df_multi_options.rename(columns = name_dict)

# 5.将空值填上 0 
df_multi_options[multi_options_list] = df_multi_options[multi_options_list].fillna(0)

# 6.将非空(也就是被选的)填上1

def fill_one(x):
    if str(x) != '0':
        return 1
    else:
        return 0
    
for i in multi_options_list:
    df_multi_options[i] = df_multi_options[i].apply(lambda x:fill_one(x))

得到
在这里插入图片描述

四、数据分析

4.1 多选题整体分析

duoxuanti_option_list = [ '第36题-多选题-除了免费送货上门，您更偏好以下哪3种售后服务 \n[1]每年定期上门保养\n ',
 '第36题-多选题-除了免费送货上门，您更偏好以下哪3种售后服务 \n[2]配送床垫时可处理旧床垫\n ',
 '第36题-多选题-除了免费送货上门，您更偏好以下哪3种售后服务 \n[3]100%准时配送\n ',
 '第36题-多选题-除了免费送货上门，您更偏好以下哪3种售后服务 \n[4]100天试睡\n ',
 '第36题-多选题-除了免费送货上门，您更偏好以下哪3种售后服务 \n[5]可提供专业杀菌除螨仪\n ',
 '第36题-多选题-除了免费送货上门，您更偏好以下哪3种售后服务 \n[6]上门清洗床垫污渍\n ',
 '第36题-多选题-除了免费送货上门，您更偏好以下哪3种售后服务 \n[7]同城可免费再搬运一次\n ']

def analyze_duoxuanti(data,duoxuanti_option_list):
    mid_df = data[duoxuanti_option_list].sum().rename_axis('选项').reset_index(name='计数')
    mid_df['选项'] = mid_df['选项'].apply(lambda x:re.findall(r"](.+?)\n",x))
    mid_df['选项'] = mid_df['选项'].apply(lambda x:x[0])
    fenmu = data[duoxuanti_option_list].dropna(how='all',axis=0).shape[0]
    mid_df['占比'] = mid_df['计数']/fenmu
    return mid_df

在这里插入图片描述

4.2 快速对多个单选题同时分析

1.筛选出单选题，组成列表

danxuanti_list = []
# 找出属性名中包含“单选题”字样的属性
for i in list2:
    if '单选' in i:
        danxuanti_list.append(i)

2.构建函数，对多个单选题数据进行分析

def analyze_many_danxuanti(data,danxuanti_list):
    df_list=[] # 创建个空列表，存储之后分析好的每个单选题的dataframe结果
    for i,danxuan in enumerate(danxuanti_list):
        # 计算每个单选题，统计频数，计数时要去掉空置，然后重命名列名
        middle_df1 = data[danxuan].value_counts(dropna=False).rename_axis(danxuan).reset_index(name='计数')
        middle_df2 = data[danxuan].value_counts(normalize=True,dropna=False).rename_axis(danxuan).reset_index(name='占比')
        merge_df = pd.merge(middle_df1,middle_df2,on=danxuan)
        exec("df_{} = merge_df".format(i))
        exec("df_list.append(df_{})".format(i)) 
        
    with pd.ExcelWriter('单选统计分析结果.xlsx') as writer:    
        for df in df_list:
            df_name = df.columns[0]
            df.to_excel(writer,sheet_name=df_name[:15],index=False)
    
    df_output= pd.concat(df_list,axis=1)
    return df_output

analyze_many_danxuanti(data,danxuanti_list)

4.3 多选交叉单选题分析

在这里插入图片描述

single_option_list = ['<$2.5万','$2.5万-5万','$5万-7.5万','$7.5万-10万','$10万-12.5万','$12.5万-15万','>$15万']
single_option = 'New_Income'
multi_options_list
df_multi_options
def multi_vs_single_option_analysis(df_multi_options,multi_options_list,single_option,single_option_list):
    """
    df_multi_options是将多选题的答案从选项字符串编码成0、1后的处理结果dataframe，
    multi_options_list是多选题列名，例如[亚马逊、宜家、沃尔玛]，
    single_option是单选题列名，例如："年收入"，
    single_option_list是单选题的选项列表，例如：[低收入、中收入、高收入]"""
    
    
    # 1. 交叉分析，需要知道其中一个属性下有哪些选项，通常是用户属性/用户标签，比如说8大策略人群标签
    #option_list_A = ['Z世代','潮流租客','精致型男','轻奢熟女','城乡小资','小镇百姓','品质中产','实惠中年']  列表选项
    #option_A = '策略人群'  列表名

    for o in single_option_list: 
        df_combine = df_multi_options[multi_options_list+[single_option]].copy()


        df_list = []
        for i,danxuan in enumerate(single_option_list):
            danxuan_df = df_combine[df_combine[single_option]==danxuan] # 提取 某 选项下的样本
            danxuan_num = danxuan_df.shape[0]  # 该单选下样本数量
            单选 = []
            多选 = []
            单选计数 = []
            多选计数 = []
            占比 = []
            for m in multi_options_list:
                duoxuan_num = danxuan_df[m].sum()  # 该单选下选择该多选的数量
                zhanbi = duoxuan_num/danxuan_num
                单选.append(danxuan)
                多选.append(m)
                单选计数.append(danxuan_num)
                多选计数.append(duoxuan_num)
                占比.append(zhanbi)

            df_middle=pd.DataFrame(zip(单选,多选,单选计数,多选计数,占比),columns=['单选','多选','单选计数','多选计数','占比'])
            df_middle = df_middle.sort_values(by=['占比'],ascending=False) # 排序
            exec("df_{} = df_middle".format(i))
            exec("df_list.append(df_{})".format(i))  

        df1 = pd.concat(df_list,axis=0)
        df1 = df1.reset_index(drop=True) #索引重置   


    单选2 = []
    多选2 = []
    单选计数2 = []
    多选计数2 = []
    占比2 = []
    TGI = []
    total_num = df_combine.shape[0]
    for m in multi_options_list:
        duoxuan_num2 = df_combine[m].sum()  # 该人群选择该选项的数量
        zhanbi2 = duoxuan_num2/total_num
        单选2.append('总体')
        多选2.append(m)
        多选计数2.append(duoxuan_num2)
        单选计数2.append(total_num)
        占比2.append(zhanbi2)
        TGI.append(100)

    # 计算该问卷问题下总体样本的选择分布
    df_zongti=pd.DataFrame(zip(单选2,多选2,单选计数2,多选计数2,占比2,TGI),columns=['单选','多选','单选计数','多选计数','占比','TGI'])
    df_zongti = df_zongti.sort_values(by=['占比'],ascending=False)
    df_zongti = df_zongti.reset_index(drop=True)


    def calculate_tgi(x):
        zongti_zhanbi  = df_zongti[df_zongti['多选']==x['多选']]['占比']
        tgi = round(x['占比']/(zongti_zhanbi),2)*100
        return tgi.values[0]
    df1['TGI']=df1.apply(lambda x:calculate_tgi(x),axis=1)

    output = pd.concat([df1,df_zongti])
    output = output.reset_index(drop=True)
    
    return output

4.4 单选交叉单选

single_option_A = 'New_Income'
single_option_B = 'What is your budget for a upholstered bed(without mattress) in the master bedroom?'

single_option_list_A = list(df_multi_options[single_option_A].unique())
#list(df_multi_options[single_option_A].unique())
single_option_list_B = list(df_multi_options[single_option_B].unique())


df_multi_options

def single_vs_single_option_analysis(df_multi_options,single_option_A,single_option_list_A,single_option_B,single_option_list_B):
    
    
    # 1. 交叉分析，需要知道其中一个属性下有哪些选项，通常是用户属性/用户标签，比如说8大策略人群标签
    #single_option_list_A = ['Z世代','潮流租客','精致型男','轻奢熟女','城乡小资','小镇百姓','品质中产','实惠中年']  列表选项
    #single_option_A = '策略人群'  列表名
    
    # 2.要将另一个单选题进行dummies化
    single_B_dummies_df = pd.get_dummies(df_multi_options[[single_option_B]],columns=[single_option_B]) 
    
    # 3. 将dummies后的df 列表名去除 题目字符串，只保留选项字符串的列名
    old = single_B_dummies_df.columns.tolist()
    new = [x.replace(single_option_B+'_','') for x in old]
    name_dict = dict(zip(old,new))
    single_B_dummies_df= single_B_dummies_df.rename(columns =name_dict)
#     print(single_B_dummies_df.columns.tolist())

    df_combine = pd.concat([single_B_dummies_df,df_multi_options[[single_option_A]]],axis=1)
    
    df_list = []
    for i,danxuan_a in enumerate(single_option_list_A):
        danxuan_a_df = df_combine[df_combine[single_option_A]==danxuan_a] # 提取单选a，某选项下的样本
        danxuan_a_num = danxuan_a_df.shape[0]  # 该单选下样本数量
        单选A = []
        单选B = []
        单选A计数 = []
        单选B计数 = []
        占比 = []
        for m in single_option_list_B:
            danxuan_b_num = danxuan_a_df[m].sum()  # 该单选下选择该多选的数量
            zhanbi = danxuan_b_num/danxuan_a_num
            单选A.append(danxuan_a)
            单选B.append(m)
            单选A计数.append(danxuan_a_num)
            单选B计数.append(danxuan_b_num)
            占比.append(zhanbi)
                       
            
        df_middle=pd.DataFrame(zip(单选A,单选B,单选A计数,单选B计数,占比),columns=['单选A','单选B','单选A计数','单选B计数','占比'])
        df_middle = df_middle.sort_values(by=['占比'],ascending=False) # 排序
        exec("df_{} = df_middle".format(i))
        exec("df_list.append(df_{})".format(i))  

    df1 = pd.concat(df_list,axis=0)
    df1 = df1.reset_index(drop=True) #索引重置   


    单选A2 = []
    单选B2 = []
    单选B计数2 = []
    单选A计数2 = []
    占比2 = []
    TGI = []
    total_num = df_combine.shape[0]
    for m in single_option_list_B:
        danxuan_b_num2 = df_combine[m].sum()  
        zhanbi2 = danxuan_b_num2/total_num
        单选A2.append('总体')
        单选B2.append(m)
        单选B计数2.append(danxuan_b_num2)
        单选A计数2.append(total_num)
        占比2.append(zhanbi2)
        TGI.append(100)

    # 计算该问卷问题下总体样本的选择分布
    df_zongti=pd.DataFrame(zip(单选A2,单选B2,单选A计数2,单选B计数2,占比2,TGI),columns=['单选A','单选B','单选A计数','单选B计数','占比','TGI'])
    df_zongti = df_zongti.sort_values(by=['占比'],ascending=False)
    df_zongti = df_zongti.reset_index(drop=True)


    def calculate_tgi(x):
        zongti_zhanbi  = df_zongti[df_zongti['单选B']==x['单选B']]['占比']
        tgi = round(x['占比']/(zongti_zhanbi),2)*100
        return tgi.values[0]
    df1['TGI']=df1.apply(lambda x:calculate_tgi(x),axis=1)

    output = pd.concat([df1,df_zongti])
    output = output.reset_index(drop=True)
    
    return output

pd.pivot(outputdf,index='单选B',columns='单选A')

在这里插入图片描述

4.5 排序题分析

rank_question_list= [ '26、(令人放松的室内设计)',
 '26、(不受打扰的私人试睡空间)',
 '26、(安神助眠的香薰)',
 '26、(可调节明暗度的灯光)',
 '26、(适宜的自然风)',
 '26、(有生活气息的摆设)',
 '26、(相对安静的隔音环境)',
 '26、(舒适的枕头)',]

df1 = data[rank_question_list].copy()

在这里插入图片描述

def rank_question_process(x):
    # x 传入的是 排序题相关的dataframe   
    
    rank_df = x.copy()
    option_list= rank_df.columns.tolist()   # 获取排序题的选项列表
    rank_option_num = len(option_list) # 获取该排序题有几个选项
    paiming_list = [a+1 for a in range(rank_option_num)]  # 选项的排名列表 [1.2.3.4.5.....]
    score_list = sorted(paiming_list,reverse=True)  # 选项得分列表[8,7,6,5,...] ，排名越高，得分越高
    paiming_score_dict = dict(zip(paiming_list,score_list))   #假设排序题有8个选项→{1:8,2:7,3:6,4:5,5:4,6:3,7:2,8:1} 
    
    # 有些平台排序题如果没有设置需要进行全部排序，有些就会跳过，问卷星跳过的值是 -2，需要进行处理
    paiming_score_dict[-2]=-2
    
    # 得到 排序，得分替换好的 dataframe数据
    for option in option_list:
        rank_df[option] = rank_df[option].apply(lambda x:paiming_score_dict[x])
    
    option_score_list = [] # 用于存储每个选项的排序得分
    for option in option_list:
        mid_list = []
        for n in rank_df[option].tolist():
            if n != -2: #如果值不等于-2(跳过)，就需要添加进 中间列表中
                mid_list.append(n)
                
#         option_score= sum(mid_list)/len(mid_list) # 求平均得分，这里样本去除了跳过的样本
        option_score= sum(mid_list)/len(rank_df[option].tolist())  # 这里分母包含了跳过的样本
        option_score_list.append(option_score)
    
    output_df = pd.DataFrame({'选项':option_list,'排序得分':option_score_list})
    output_df = output_df.sort_values(by='排序得分',ascending=False) # 降序排序
    return output_df

rank_question_process(df1)

4.6 快速对多个多选题进行分析

整理提取，多选题

duoxuanti_list = []
# 找出属性名中包含“单选题”字样的属性
for i in option_list:
    if '多选' in i:
        duoxuanti_list.append(i)

first3_str_list = list(set([d[:3] for d in duoxuanti_list]))  # 提取每个多选题的头三个字符，题号

# 处理多选题，一个多选题一个list，多个多选题list存在一个list里
duoxuanti_processed_list = []
for f in first3_str_list:
    mid_duoxuan_list=[]
    for d in duoxuanti_list:
        if f in d:
            mid_duoxuan_list.append(d)
        else:
            pass
    duoxuanti_processed_list.append(mid_duoxuan_list)