随着社交媒体的兴起，QQ群成为了人们交流的重要平台，而提取这些数据可以帮助我们了解用户关注的重点和行为，那么如何获取QQ群聊天记录呢？如何对其进行处理并分析呢？

这是一套完整的流程，从选定的QQ群中获取记录，并对其进行处理及可视化。

其中包括：

共有多少人发过言,分别是谁
谁发表的言论最多
聊天密度周、日期、小时分布
活跃天数最多的用户（在群里说话天数最多的用户）
用户连续活跃天数（用户在群里连续说话天数）
每个用户在群里连续说话最长天数以及时间段
群里聊的最多的话题

1 聊天记录获取
2 聊天记录读取并查看
3 数据处理
- 3.1 使用正则提取信息
- 3.2 拆分记录头并处理记录内容
- - 3.2.1 将日期、用户名、QQ号分离出来
  - 3.2.2 处理内容
  - 3.2.3 删除无用内容
4 探索分析
- 4.1 共有多少人发过言，分别是谁
- 4.2 谁说话做多，说了什么
- 4.3 聊天密度分布
- - 4.3.1 聊天密度周分布
  - 4.3.2 聊天密度日期分布
  - 4.3.3 聊天密度小时分布
- 4.4 在群里说话天数最多的用户
- 4.5 用户在群里连续说话天数
- 4.6 每个用户在群里连续说话最长天数以及时间段
- 4.6 群里聊的最多的话题

1 聊天记录获取

选中需要进行分析的群聊，鼠标右击——查看消息记录
在“消息管理器”中，在选中的群上面右击——导出消息记录
将消息记录保存为txt文件

2 聊天记录读取并查看

import pandas as pd
import numpy as np
#上下文管理语句 
with open('E:\学习交流群.txt',mode = 'r',encoding='utf-8') as f:
    txt = f.read() #返回的是字符串
txt  #所有内容组成的字符串

在这里插入图片描述

3 数据处理

从源文件中我们可以看到内容中有以下几部分且比较直观，时间、用户名、QQ号以及聊天内容，而python读取的文件内容看起来极不方便。
在这里插入图片描述

3.1 使用正则提取信息

为了后面更好的分析探索数据，我们需要将读取到的字符串进行处理，存储为dataframe

import re
#正则表达式
re_pat = '[\d-]{10}\s[\d:]{8}\s.*[\)>]'#数字或者'-'共出现10位，\s(匹配任意的空白符)分开，数字或':'共8位，\s分开，任意字符以')'或'>'结尾

log_title_list = re.findall(re_pat,txt) #记录头
log_title_list

在这里插入图片描述

log_content_list = re.split(re_pat,txt) #记录内容,re_pat做分隔符，将文本进行分割
log_content_list

在这里插入图片描述

#查看两个列表量级是否一致
len(log_title_list)
len(log_content_list)

在这里插入图片描述

两个数据量并不一致，因为内容导出时，会有最前面的一行消息记录故需要做删除处理

#头与内容数量应保持一致，现发现内容多1，是因为多了第1行
log_content_list.pop(0) #删除第一行
len(log_content_list)

在这里插入图片描述

删除后，记录头与记录内容的数量已一致，将其存储到dataframe中

#将记录头及记录内容存储到dataframe中
df = pd.DataFrame()
df['title'] = log_title_list
df['content'] = log_content_list
df

在这里插入图片描述

3.2 拆分记录头并处理记录内容

3.2.1 将日期、用户名、QQ号分离出来

#分离日期、用户名、QQ号
df['time'] = df['title'].str.findall('\d{4}-\d{2}-\d{2}\s\d{2}:\d{2}:\d{2}').str.get(0)
df['name'] = df['title'].str.findall('\d{2}:\d{2}:\d{2}(.*)[\(<]').str.get(0) #提取用户名 从时间开始一直到'('为止，要的数据用'()'括起来
df['QQ'] =  df['title'].str.findall('[\(<]([\dA-z\.@]*)[\)>]').str.get(0) #以'('或'<'开头，以')'或'>'结尾，中间部分可以是数字、字母、.、@的组合

在这里插入图片描述

3.2.2 处理内容

#删除空格
df['content'] = df['content'].str.replace('\n','')

在这里插入图片描述

3.2.3 删除无用内容

注意：删除、增加、拼接行数据后，需重置索引

title列已经被拆分为“time”、“name”、“QQ”，在这里不保留原始数据，故将“title”列删除（可以根据实际情况选择保留与否）

#title列内容已被拆分，可以进行删除
df.drop(['title'],axis = 1,inplace = True)
df

在这里插入图片描述

删除无用的消息记录，比如系统提示信息等

# 单个的时候 ！=     多个的时候isin取反
df = df[~df['QQ'].isin(['1000000','10000'])] 
df.reset_index(drop = True,inplace = True)

在这里插入图片描述

4 探索分析

4.1 共有多少人发过言，分别是谁

QQ号作为唯一标识，故通过QQ号来分析

df['QQ'].nunique() #去重后的计数
df['QQ'].unique() #去重后的数据列举出来

在这里插入图片描述

4.2 谁说话做多，说了什么

逻辑：消息出现一条则认为其说了一次话，按照QQ号对条数进行计数

#谁说话最多
# 也可以计数后直接使用 nlargest(1) 选出聊天内容最多的QQ号
#df['QQ'].value_counts().nlargest(1).index[0]
df['QQ'].value_counts()

在这里插入图片描述

#话痨说了什么
df[df['QQ'] =='1520034124']['content'].str.cat()

在这里插入图片描述

4.3 聊天密度分布

从周、日期、小时三个角度查看聊天情况

df.time #因为是正则匹配出来的，时间并不是标准的日期格式,需要进行处理
#转换为标准的时间
df['time'] = pd.to_datetime(df['time'])

在这里插入图片描述

4.3.1 聊天密度周分布

#若图表无法在notebook中显示出来，需要执行下面两行代码
#打开pylab模式，IPython中执行
%pylab
%matplotlib inline

df['weekday'] = df['time'].dt.weekday+1
df['weekday'].value_counts().sort_index().plot(kind='bar')

在这里插入图片描述

4.3.2 聊天密度日期分布

在这里插入图片描述

4.3.3 聊天密度小时分布

在这里插入图片描述

4.4 在群里说话天数最多的用户

逻辑：只要发过一条记录，就是在群里说话了，与当天发过多少消息无关，故需要“QQ”与“date”两列去重后统计次数

#QQ号与日期列去重
df.drop_duplicates(subset = ['QQ','date'])['QQ'].value_counts()

在这里插入图片描述

4.5 用户在群里连续说话天数

#数据 按照 'QQ','date' 两列 去重
df1 = df.drop_duplicates(subset = ['QQ','date'])[['QQ','date']]
df1.reset_index(drop = True,inplace = True)
# 将聊天时间列转换为日期类型
df1['date'] = pd.to_datetime(df1['date'])
# 对数据进行排序
df1 = df1.sort_values(by='date')
# 统计用户连续聊天的天数
result = df1.groupby('QQ')['date'].apply(lambda x: (x.diff().dt.days != 1).cumsum().value_counts())
result

在这里插入图片描述

4.6 每个用户在群里连续说话最长天数以及时间段

#数据 按照 'QQ','date' 两列 去重
df1 = df.drop_duplicates(subset = ['QQ','date'])[['QQ','date']]
# 将聊天时间列转换为日期类型
df1['date'] = pd.to_datetime(df1['date'])
# 对数据进行排序
df1.sort_values(by=['QQ','date'], inplace=True)
df1.reset_index(drop = True,inplace = True)

# 计算连续聊天的天数、起始时间和结束时间的函数
def calculate_consecutive_days(group):
    if len(group) > 1:
  		#计算相邻日期之间的差异
        consecutive_days = group['date'].diff().dt.days
        #返回一个布尔值序列，指示日期差异是否不等于1
        consecutive_days = consecutive_days.fillna(0) != 1
        #计算布尔值序列的累积和
        consecutive_days = consecutive_days.cumsum()
		#最大连续天数
        max_consecutive_days = consecutive_days.value_counts().max()
      #最大连续天数对应id  
        id_max_consecutive_days = consecutive_days.value_counts().idxmax()
        
        start_index = np.argmin(consecutive_days[consecutive_days.values == id_max_consecutive_days])
        end_index = start_index + max_consecutive_days -1

        start_date = group.loc[start_index]['date'].strftime('%Y-%m-%d')
        end_date = group.loc[end_index]['date'].strftime('%Y-%m-%d')

        return pd.Series([max_consecutive_days, start_date, end_date], index=['最长连续聊天天数', '起始时间', '结束时间'])

    elif len(group) == 1:  # 处理只有一次聊天记录的情况
        date = group['date'].iloc[0].strftime('%Y-%m-%d')
        return pd.Series([1, date, date], index=['最长连续聊天天数', '起始时间', '结束时间'])
    else:
        return pd.Series([0, np.nan, np.nan], index=['最长连续聊天天数', '起始时间', '结束时间'])

result = df1.groupby('QQ').apply(calculate_consecutive_days).reset_index()

result

在这里插入图片描述

4.6 群里聊的最多的话题

逻辑：先将聊天信息拼接起来，因为聊过过程中会有各种标题点符号等没有意义的词语，所以去除停用词之后，再进行分词，并用词云图展示

#内容拼接起来
content_txt = df['content'].str.cat(sep = '。')
#加载停用词
with open('stopwords.txt',encoding = 'utf-8') as file:
    stopword = file.read()
import jieba
words = jieba.lcut(content_txt)
words = [word for word in words if (word not in stopword.split('\n'))&(len(word)>1)]
#大致看看是否已将无用信息去除完毕，若没有还需进行清洗
word_s = pd.Series(words).value_counts()

在这里插入图片描述在这里可以发现，图片、表情等信息无法真实展现处理，而这些词对我们进行话题探索并没有什么意义，所以从拼接好的内容中，将“图片”、“表情”去除后，再进行分词而后分析。

content_txt = content_txt.replace('[图片]','').replace('[表情]','')

生成词云图pyecharts网址

#pycharts 里面提供的数据需要是 二维列表
data = word_s.reset_index().values.tolist()
#词云图 
import pyecharts.options as opts
from pyecharts.charts import WordCloud

(
    WordCloud()
    .add(series_name="QQ", data_pair=data, word_size_range=[20, 66])
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title="QQ", title_textstyle_opts=opts.TextStyleOpts(font_size=23)
        ),
        tooltip_opts=opts.TooltipOpts(is_show=True),
    )
    .render("QQ_wordcloud.html")
)