竞赛选题 题目:基于FP-Growth的新闻挖掘算法系统的设计与实现

news2024/10/6 20:31:41

文章目录

  • 0 前言
  • 1 项目背景
  • 2 算法架构
  • 3 FP-Growth算法原理
    • 3.1 FP树
    • 3.2 算法过程
    • 3.3 算法实现
      • 3.3.1 构建FP树
    • 3.4 从FP树中挖掘频繁项集
  • 4 系统设计展示
  • 5 最后

0 前言

🔥 优质竞赛项目系列,今天要分享的是

基于FP-Growth的新闻挖掘算法系统的设计与实现

该项目较为新颖,适合作为竞赛课题方向,学长非常推荐!

🧿 更多资料, 项目分享:

https://gitee.com/dancheng-senior/postgraduate

1 项目背景

如今新闻泛滥,令人眼花缭乱,即使同一话题下的新闻也多得数不胜数。人们可以根据自己的职业和爱好关注专业新闻网站的不同热点要闻。因此,通过对人们关注新闻的热点问题进行分析,可以得出民众对某个领域的关切程度和社会需要解决的问题,也有利于了解当前的舆论焦点,有助于政府了解民意,便于国家对舆论进行正确引导,使我们的社会更加安定和谐。本文以财经领域为例,通过爬虫技术抓取网络上的大量财经新闻,通过对新闻内容文本进行预处理及密度聚类分析来发现热点;从发现的热点中,再进行词汇聚类分析,得出热点所涉及的人或事物,以此分析出社会对经济领域关注的问题和需要解决的问题。

在这里插入图片描述

2 算法架构

该项目学长要通过文本挖掘技术进行新闻热点问题分析,把从网上抓取到的财经新闻,通过对新闻内容的聚类,得到新闻热点;再对热点进行分析,通过对某一热点相关词汇的聚类,得到热点问题所涉及的人物、行业或组织等。

在这里插入图片描述
1、利用新闻 API、爬虫算法、多线程并行技术,抓取三大专业财经新闻网站(新浪财经、搜狐财经、新华网财经)的大量财经新闻报道;

2、对新闻进行去重、时间段过滤,然后对新闻内容文本进行 jieba
分词并词性标注,过滤出名词、动词、简称等词性,分词前使用自定义的用户词词典增加分词的准确性,分词后使用停用词词典、消歧词典、保留单字词典过滤掉对话题无关并且影响聚类准确性的词,建立每篇新闻的词库,利用
TF-IDF 特征提取之后对新闻进行 DBSCAN 聚类,并对每个类的大小进行排序;

3、针对聚类后的每一类新闻,为了得到该处热点的话题信息,还需要提取它们的标题,利用 TextRank
算法,对标题的重要程度进行排序,用重要性最高的标题来描述该处热点的话题

4、对所有的新闻内容进行 jieba 分词,并训练出 word2vec 词嵌入模型,然后对聚类后的每一类新闻,提取它们的内容分词后的结果,运用
word2vec 模型得到每个词的词向量,再利用 FP-Growth类算法进行相关新闻挖掘。

3 FP-Growth算法原理

3.1 FP树

FP树是一种存储数据的树结构,如下图所示,每一路分支表示数据集的一个项集,数字表示该元素在某分支中出现的次数

在这里插入图片描述

3.2 算法过程

1 构建FP树

  • 遍历数据集获得每个元素项的出现次数,去掉不满足最小支持度的元素项
  • 构建FP树:读入每个项集并将其添加到一条已存在的路径中,若该路径不存在,则创建一条新路径(每条路径是一个无序集合)

2 从FP树中挖掘频繁项集

  • 从FP树中获得条件模式基
  • 利用条件模式基构建相应元素的条件FP树,迭代直到树包含一个元素项为止

算法过程写得比较简略,具体过程我们在下节的实操中进一步理解。

3.3 算法实现

3.3.1 构建FP树



    class treeNode:
        def __init__(self,nameValue,numOccur,parentNode):
            self.name=nameValue #节点名
            self.count=numOccur #节点元素出现次数
            self.nodeLink=None #存放节点链表中,与该节点相连的下一个元素
            self.parent=parentNode
            self.children={} #用于存放节点的子节点,value为子节点名
        
        def inc(self,numOccur):
            self.count+=numOccur
        
        def disp(self,ind=1):
            print("   "*ind,self.name,self.count) #输出一行节点名和节点元素数,缩进表示该行节点所处树的深度
            for child in self.children.values():
                child.disp(ind+1) #对于子节点,深度+1
    
    # 构造FP树
    # dataSet为字典类型,表示探索频繁项集的数据集,keys为各项集,values为各项集在数据集中出现的次数
    # minSup为最小支持度,构造FP树的第一步是计算数据集各元素的支持度,选择满足最小支持度的元素进入下一步
    def createTree(dataSet,minSup=1):
        headerTable={}
    
        #遍历各项集,统计数据集中各元素的出现次数
        for key in dataSet.keys():
            for item in key:
                headerTable[item]=headerTable.get(item,0)+dataSet[key] 
                
        #遍历各元素,删除不满足最小支持度的元素
        for key in list(headerTable.keys()):
            if headerTable[key]<minSup:
                del headerTable[key]
        freqItemSet=set(headerTable.keys())
        
        #若没有元素满足最小支持度要求,返回None,结束函数
        if len(freqItemSet)==0:
            return None,None
        for key in headerTable.keys():
            headerTable[key]=[headerTable[key],None] #[元素出现次数,**指向每种项集第一个元素项的指针**]
        retTree=treeNode("Null Set",1,None) #初始化FP树的顶端节点
        
        for tranSet,count in dataSet.items():
            localD={} #存放每次循环中的频繁元素及其出现次数,便于利用全局出现次数对各项集元素进行项集内排序
            for item in tranSet:
                if item in freqItemSet:
                    localD[item]=headerTable[item][0]
            if len(localD)>0:
                orderedItems=[v[0] for v in sorted(localD.items(),key=operator.itemgetter(1),reverse=True)] #根据元素全局出现次数对每个项集(tranSet)中的元素进行排序
                updateTree(orderedItems,retTree,headerTable,count) #使用排序后的项集对树进行填充
        return retTree,headerTable


    #树的更新函数
    #items为按出现次数排序后的项集,是待更新到树中的项集;count为items项集在数据集中的出现次数
    #inTree为待被更新的树;headTable为头指针表,存放满足最小支持度要求的所有元素
    def updateTree(items,inTree,headerTable,count):
        #若项集items当前最频繁的元素在已有树的子节点中,则直接增加树子节点的计数值,增加值为items[0]的出现次数
        if items[0] in inTree.children: 
            inTree.children[items[0]].inc(count)
        else:#若项集items当前最频繁的元素不在已有树的子节点中(即,树分支不存在),则通过treeNode类新增一个子节点
            inTree.children[items[0]]=treeNode(items[0],count,inTree)
            #若新增节点后表头表中没有此元素,则将该新增节点作为表头元素加入表头表
            if headerTable[items[0]][1]==None: 
                headerTable[items[0]][1]=inTree.children[items[0]]
            else:#若新增节点后表头表中有此元素,则更新该元素的链表,即,在该元素链表末尾增加该元素
                updateHeader(headerTable[items[0]][1],inTree.children[items[0]])
        #对于项集items元素个数多于1的情况,对剩下的元素迭代updateTree
        if len(items)>1:
            updateTree(items[1::],inTree.children[items[0]],headerTable,count)


    #元素链表更新函数
    #nodeToTest为待被更新的元素链表的头部
    #targetNode为待加入到元素链表的元素节点
    def updateHeader(nodeToTest,targetNode):
        #若待被更新的元素链表当前元素的下一个元素不为空,则一直迭代寻找该元素链表的末位元素
        while nodeToTest.nodeLink!=None: 
            nodeToTest=nodeToTest.nodeLink #类似撸绳子,从首位一个一个逐渐撸到末位
        #找到该元素链表的末尾元素后,在此元素后追加targetNode为该元素链表的新末尾元素
        nodeToTest.nodeLink=targetNode



测试

#加载简单数据集
def loadSimpDat():
    simpDat = [['r', 'z', 'h', 'j', 'p'],
               ['z', 'y', 'x', 'w', 'v', 'u', 't', 's'],
               ['z'],
               ['r', 'x', 'n', 'o', 's'],
               ['y', 'r', 'x', 'z', 'q', 't', 'p'],
               ['y', 'z', 'x', 'e', 'q', 's', 't', 'm']]
    return simpDat

#将列表格式的数据集转化为字典格式
def createInitSet(dataSet):
    retDict={}
    for trans in dataSet:
        retDict[frozenset(trans)]=1
    return retDict

simpDat=loadSimpDat()
dataSet=createInitSet(simpDat)
myFPtree1,myHeaderTab1=createTree(dataSet,minSup=3)
myFPtree1.disp(),myHeaderTab1

输入数据:

在这里插入图片描述
由此数据集构建的FP树长这样,看看是不是满足上一节介绍的FP树结构

在这里插入图片描述

3.4 从FP树中挖掘频繁项集

具体过程如下:

1 从FP树中获得条件模式基

  • 条件模式基:以所查找元素项为结尾的路径集合,每条路径都是一条前缀路径,路径集合包括前缀路径和路径计数值。
  • 例如,元素"r"的条件模式基为 {x,s}2,{z,x,y}1,{z}1
  • 前缀路径:介于所查找元素和树根节点之间的所有内容
  • 路径计数值:等于该条前缀路径的起始元素项(即所查找的元素)的计数值

2 利用条件模式基构建相应元素的条件FP树

  • 对每个频繁项,都要创建一棵条件FP树。
  • 例如对元素t创建条件FP树:使用获得的t元素的条件模式基作为输入,利用构建FP树相同的逻辑构建元素t的条件FP树

3 迭代步骤(1)(2),直到树包含一个元素项为止

  • 接下来继续构建{t,x}{t,y}{t,z}对应的条件FP树(tx,ty,tz为t条件FP树的频繁项集),直到条件FP树中没有元素为止

  • 至此可以得到与元素t相关的频繁项集,包括2元素项集、3元素项集。。。

    #由叶节点回溯该叶节点所在的整条路径
    #leafNode为叶节点,treeNode格式;prefixPath为该叶节点的前缀路径集合,列表格式,在调用该函数前注意prefixPath的已有内容
    def ascendTree(leafNode,prefixPath):
        if leafNode.parent!=None:
            prefixPath.append(leafNode.name)
            ascendTree(leafNode.parent,prefixPath)
            
    #获得指定元素的条件模式基
    #basePat为指定元素;treeNode为指定元素链表的第一个元素节点,如指定"r"元素,则treeNode为r元素链表的第一个r节点
    def findPrefixPath(basePat,treeNode):
        condPats={} #存放指定元素的条件模式基
        while treeNode!=None: #当元素链表指向的节点不为空时(即,尚未遍历完指定元素的链表时)
            prefixPath=[]
            ascendTree(treeNode,prefixPath) #回溯该元素当前节点的前缀路径
            if len(prefixPath)>1:
                condPats[frozenset(prefixPath[1:])]=treeNode.count #构造该元素当前节点的条件模式基
            treeNode=treeNode.nodeLink #指向该元素链表的下一个元素
        return condPats
    
    #有FP树挖掘频繁项集
    #inTree: 构建好的整个数据集的FP树
    #headerTable: FP树的头指针表
    #minSup: 最小支持度,用于构建条件FP树
    #preFix: 新增频繁项集的缓存表,set([])格式
    #freqItemList: 频繁项集集合,list格式
    
    def mineTree(inTree,headerTable,minSup,preFix,freqItemList):
        #按头指针表中元素出现次数升序排序,即,从头指针表底端开始寻找频繁项集
        bigL=[v[0] for v in sorted(headerTable.items(),key=lambda p:p[1][0])] 
        for basePat in bigL:
            #将当前深度的频繁项追加到已有频繁项集中,然后将此频繁项集追加到频繁项集列表中
            newFreqSet=preFix.copy()
            newFreqSet.add(basePat)
            print("freqItemList add newFreqSet",newFreqSet)
            freqItemList.append(newFreqSet)
            #获取当前频繁项的条件模式基
            condPatBases=findPrefixPath(basePat,headerTable[basePat][1])
            #利用当前频繁项的条件模式基构建条件FP树
            myCondTree,myHead=createTree(condPatBases,minSup)
            #迭代,直到当前频繁项的条件FP树为空
            if myHead!=None:
                mineTree(myCondTree,myHead,minSup,newFreqSet,freqItemList)
    

接着刚才构建的FP树,测试一下,

freqItems=[]
mineTree(myFPtree1,myHeaderTab1,3,set([]),freqItems)
freqItems

我们从FP树中挖掘到的频繁项集如下,这里设置的最小支持度为3:

在这里插入图片描述
上图表示数据集中,支持度大于3(出现3次以上)的元素项集,即,频繁项集。

4 系统设计展示

为了方便操作及理解,学长使用 Python 的 tkinter 模块设计了一个系统操作界面

在这里插入图片描述

分析可视化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(未完待续。。。。)

5 最后

🧿 更多资料, 项目分享:

https://gitee.com/dancheng-senior/postgraduate

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1247318.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

预制菜产业发展背景下,如何利用视频监控保障行业监管工作

一、方案背景 随着社会的快速发展和人们生活水平的提高&#xff0c;预制菜产业作为现代餐饮行业的重要组成部分&#xff0c;越来越受到消费者的欢迎。然而&#xff0c;由于相关监管工作的不健全或不到位&#xff0c;一些问题也相继浮现出来&#xff0c;如&#xff1a;食品安全…

Windows从源码构建tensorflow

由一开始的在线编译&#xff0c;到后面的离线编译&#xff0c;一路踩坑无数。在此记录一下参考过的文章&#xff0c;有时间整理一下踩坑记录。 一、环境配置 在tensorflow官网上有版本对应关系 win10 bazel 3.1.0 msys2 tensorflow2.3.0 python3.5-3.8 MSVC2019 protobuf3.9.…

uniapp IOS从打包到上架流程(详细简单) 原创

​ 1.登入苹果开发者网站&#xff0c;打开App Store Connect ​ 2.新App的创建 点击我的App可以进入App管理界面&#xff0c;在右上角点击➕新建App 即可创建新的App&#xff0c;如下图&#xff1a; ​ 3.app基本信息填写 新建完App后&#xff0c;需要填写App的基本信息&…

3ds Max 电脑配置建议 | 建模+渲染选专业显卡or游戏显卡?

&#xfeff;使用3ds Max进行建模和渲染时&#xff0c;选择合适的电脑配置非常重要。比如在硬件选择上&#xff0c;究竟选购游戏显卡还是专业显卡呢&#xff1f;本文将为你详细介绍游戏显卡和专业显卡的区别&#xff0c;并提供配置建议&#xff0c;助你作出明智的决策。 &#…

NX二次开发UF_CSYS_set_origin 函数介绍

文章作者&#xff1a;里海 来源网站&#xff1a;https://blog.csdn.net/WangPaiFeiXingYuan UF_CSYS_set_origin Defined in: uf_csys.h int UF_CSYS_set_origin(tag_t csys_tag, double origin [ 3 ] ) overview 概述 Set origin of coordinate system. Note that this fu…

电视盒子哪款好?工程师整理双12超值电视盒子排名

因工作关系每天都会拆机、维修电视盒子&#xff0c;对电视盒子行业有着深入研究&#xff0c;双十二临近不少朋友问我电视盒子怎么挑选最值&#xff1f;我整理了目前市面上最超值的电视盒子排名&#xff0c;跟着我一起看看双十二挑电视盒子哪款好吧。 1.泰捷WEBOX WE40S电视盒子…

视频监控中的智能算法与计算机视觉技术

智能视频监控是一种基于人工智能技术的监控系统&#xff0c;它能够通过对图像和视频数据进行分析&#xff0c;自动识别目标物体、判断其行为以及进行异常检测等功能&#xff0c;从而实现对场景的智能化监管。以下是常见的一些用于智能视频监控的算法&#xff1a; 1、人脸识别技…

RabbitMq使用与整合

MQ基本概念 MQ概述 MQ全称 Message Queue&#xff08;[kjuː]&#xff09;&#xff08;消息队列&#xff09;&#xff0c;是在消息的传输过程中保存消息的容器。多用于分布式系统之间进行通信。 &#xff08;队列是一种容器&#xff0c;用于存放数据的都是容器&#xff0c;存…

C#关键字、特性基础及扩展合集(持续更新)

一、基础 Ⅰ 关键字 1、record record&#xff08;记录&#xff09;&#xff0c;编译器会在后台创建一个类。支持类似于结构的值定义&#xff0c;但被实现为一个类&#xff0c;方便创建不可变类型&#xff0c;成员在初始化后不能再被改变 &#xff08;C#9新增&#xff09; …

虽不想承认,但这就是CSGO游戏搬砖行业的现状

CSGO搬砖日常出货更新 其实整个搬砖市场&#xff0c;现在已经变得乌烟瘴气&#xff0c;散发着“恶臭”。我个人非常鄙视那些虚有其表&#xff0c;大小通吃的做法&#xff0c;那些甚至连搬砖数据都看不懂的人&#xff0c;也出来吹嘘着“实力强大&#xff0c;经验丰富”。这个世界…

美创联合浙江省农业农村厅斩获“IDC中国20大杰出安全项目”!

11月23日&#xff0c;由IDC主办&#xff0c;以“安全风险管控&#xff1a;新形势下的数据安全保护”为主题的2023全球CSO网络安全峰会&#xff08;中国站&#xff09;隆重召开。 会上&#xff0c;IDC “中国20大杰出安全项目&#xff08;CSO20&#xff09;” 重磅揭晓&#xff…

科荣 AIO 管理系统任意文件读取

声明 本文仅用于技术交流&#xff0c;请勿用于非法用途 由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失&#xff0c;均由使用者本人负责&#xff0c;文章作者不为此承担任何责任。 一、产品介绍 科荣AIO公司服务软件企业一体化管理解决方案,通过ERP&am…

《C++PrimePlus》第9章 内存模型和名称空间

9.1 单独编译 Visual Studio中新建头文件和源代码 通过解决方案资源管理器&#xff0c;如图所示&#xff1a; 分成三部分的程序&#xff08;直角坐标转换为极坐标&#xff09; 头文件coordin.h #ifndef __COORDIN_H__ // 如果没有被定义过 #define __COORDIN_H__struct pola…

【HuggingFace Transformer库学习笔记】基础组件学习:pipeline

一、Transformer基础知识 pip install transformers datasets evaluate peft accelerate gradio optimum sentencepiece pip install jupyterlab scikit-learn pandas matplotlib tensorboard nltk rouge在host文件里添加途中信息&#xff0c;可以避免运行代码下载模型时候报错…

为什么选择美国VPS服务器

企业、个人和组织都需要一个稳定高效的服务器来托管他们的网站、应用程序和数据。而对于中国用户来说&#xff0c;寻找一个性价比高的便宜美国VPS服务器&#xff0c;既能满足需求&#xff0c;又能节约成本&#xff0c;成为了一个非常重要的问题。 VPS即虚拟专用服务器&#xf…

【正点原子STM32连载】第五十九章 T9拼音输入法实验(Julia分形)实验 摘自【正点原子】APM32F407最小系统板使用指南

1&#xff09;实验平台&#xff1a;正点原子APM32F407最小系统板 2&#xff09;平台购买地址&#xff1a;https://detail.tmall.com/item.htm?id609294757420 3&#xff09;全套实验源码手册视频下载地址&#xff1a; http://www.openedv.com/thread-340252-1-1.html## 第五十…

Java二级医院区域HIS信息管理系统源码(SaaS服务)

一个好的HIS系统&#xff0c;要具有开放性&#xff0c;便于扩展升级&#xff0c;增加新的功能模块&#xff0c;支撑好医院的业务的拓展&#xff0c;而且可以反过来给医院赋能&#xff0c;最终向更多的患者提供更好的服务。 系统采用前后端分离架构&#xff0c;前端由Angular、J…

JAVA线程池原理详解

线程池的优点 1、线程是稀缺资源&#xff0c;使用线程池可以减少创建和销毁线程的次数&#xff0c;每个工作线程都可以重复使用。 2、可以根据系统的承受能力&#xff0c;调整线程池中工作线程的数量&#xff0c;防止因为消耗过多内存导致服务器崩溃。 线程池的创建 public…

【ceph】如何打印一个osd的op流程,排查osd在干什么

本站以分享各种运维经验和运维所需要的技能为主 《python零基础入门》&#xff1a;python零基础入门学习 《python运维脚本》&#xff1a; python运维脚本实践 《shell》&#xff1a;shell学习 《terraform》持续更新中&#xff1a;terraform_Aws学习零基础入门到最佳实战 《k8…

苍穹外卖-套餐分类

1. 新增套餐 1.1 需求分析和设计 产品原型&#xff1a; 业务规则&#xff1a; 套餐名称唯一套餐必须属于某个分类套餐必须包含菜品名称、分类、价格、图片为必填项添加菜品窗口需要根据分类类型来展示菜品新增的套餐默认为停售状态 接口设计&#xff08;共涉及到4个接口&…