Java利用朴素贝叶斯分类算法实现信息分类

news2024/12/25 22:12:24
目录
  • 贝叶斯分类算法 
  • 代码实例
    • 数据集data.txt
    • 代码实现
    • 输出结果
  • 使用场景

贝叶斯分类算法 

贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Naïve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。

由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值,而此假设在实际情况中经常是不成立的,因此其分类准确率可能会下降。为此,就衍生出许多降低独立性假设的贝叶斯分类算法,如TAN(tree augmented Bayes network)算法。

那么既然是朴素贝叶斯分类算法,它的核心算法又是什么呢?

是下面这个贝叶斯公式:

换个表达形式就会明朗很多,如下:

我们最终求的p(类别|特征)即可!就相当于完成了我们的任务。

代码实例

下面以女生找对象举例,提取除女生找对象的几个关键特征,比如颜值,性格,身高,上进心,资产情况为择偶特征,通过事先调研等手段,获取一部分数据样本,即各类特征以及择偶结果(分类)数据集。根据数据集利用朴素贝叶斯函数计算出个各个特征集合在该分类下的值,结果值最大的分类,认为该数据属于这个分类。由于这个是利用概率学去计算得出的,不一定十分准确,数据集样本数据越大,准确率就越高。

数据集data.txt

下面数据集每行代码一条样本数据,每条数据中的具体特征用逗号“,” 分割,特征顺寻依次为

颜值,性格,身高,上进心,资产情况,女生中意结果

帅,好,高,上进,有钱,中意
不帅,好,高,上进,有钱,中意
帅,不好,高,上进,有钱,中意
帅,好,不高,上进,有钱,中意
帅,好,高,不上进,有钱,中意
帅,好,高,上进,不有钱,中意
帅,好,不高,不上进,有钱,不中意
不帅,不好,不高,上进,有钱,中意
不帅,不好,不高,上进,不有钱,不中意
帅,好,不高,上进,不有钱,中意
不帅,好,高,不上进,有钱,不中意
帅,不好,高,上进,有钱,不中意
不帅,好,高,上进,有钱,不中意
帅,不好,高,上进,不有钱,中意
帅,不好,高,不上进,有钱,中意
帅,好,高,上进,不有钱,不中意
帅,不好,不高,不上进,不有钱,不中意
不帅,不好,不高,不上进,不有钱,不中意
帅,好,不高,上进,有钱,中意
不帅,不好,不高,不上进,有钱,不中意
帅,好,高,上进,不有钱,中意
帅,好,不高,不上进,有钱,中意
帅,好,高,不上进,不有钱,不中意
帅,不好,高,不上进,有钱,不中意

代码实现

?

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

import java.io.BufferedReader;

import java.io.File;

import java.io.FileInputStream;

import java.io.InputStreamReader;

import java.util.*;

import java.util.stream.Collectors;

  

/**

 * @author liuya

 */

public class NaiveBayesModel {

  

    //样本数据

    private static List<List<String>> data = new ArrayList<>();

    //样本数据

    private static Set<List<String>> dataSet = new HashSet<>();

    //分类模型

    public static Map<String,String> modelMap = new HashMap<>();

    //样本数据集

    private static String path = "./src/data.txt";

  

    public static void main(String[] args) {

        //训练模型

        trainingModel();

        //识别

        classification("帅","好","高","上进","有钱");

        classification("不帅","不好","不高","不上进","不有钱");

    }

  

    /**

     * 导入数据

     * @param path

     * @return

     */

    public static void readData(String path){

        List<String> row = null;

        try {

            InputStreamReader isr = new InputStreamReader(new FileInputStream(new File(path)));

            BufferedReader br = new BufferedReader(isr);

            String str = null;

            while((str = br.readLine()) != null){

                row = new ArrayList<>();

                String[] str1 = str.split(",");

                for(int i = 0; i < str1.length ; i++) {

                    row.add(str1[i]);

                }

                dataSet.add(row);

                data.add(row);

            }

            br.close();

            isr.close();

        } catch (Exception e) {

            e.printStackTrace();

            System.out.println("读取文件内容出错!");

        }

    }

  

    public static void trainingModel() {

        readData(path);

        String category1="中意";

        String category2="不中意";

        dataSet.forEach(e->{

          double categoryP1=  calculateBayesian(e.get(0),e.get(1),e.get(2),e.get(3),e.get(4),category1);

          double categoryP2=  calculateBayesian(e.get(0),e.get(1),e.get(2),e.get(3),e.get(4),category2);

            String result=categoryP1>categoryP2?category1:category2;

            modelMap.put(e.get(0)+"-"+e.get(1)+"-"+e.get(2)+"-"+e.get(3)+"-"+e.get(4),result);

        });

    }

  

    /**

     * 分类的识别

     * */

    public static void  classification(String look, String character, String height, String progresses, String wealthy){

        String key=look+"-"+character+"-"+height+"-"+progresses+"-"+wealthy;

        String result=modelMap.get(key);

        System.out.println("特征为"+look+","+character+","+height+","+progresses+","+wealthy+"的对象,女生"+result);

    }

  

  

    /**

     * 分类的核心是比较朴素贝叶斯的结果值,结果值大的认为就属于该分类(会有误差,数据集量越大,结果判定的准确率就会越高)由于分母相同可以直接比较分子来确定分类

     * */

    public static double calculateBayesian(String look, String character, String height, String progresses, String wealthy,String category) {

        //获取P(x|y)的分母

      //  double denominator = getDenominator(look,character,height,progresses,wealthy);

        //获取P(x|y)的分子

        double molecule = getMolecule(look,character,height,progresses,wealthy,category);

        return molecule/1;

    }

  

    /**

     * 获取p(x|y)分子

     * @return

     */

    public static double getMolecule(String look, String character, String height, String progresses, String wealthy,String category) {

        double resultCP = getProbability(5, category);

        double lookCP = getProbability(0, look, category);

        double characterCP = getProbability(1, character, category);

        double heightCP = getProbability(2, height, category);

        double progressesCP = getProbability(3, progresses, category);

        double wealthyCP = getProbability(4, wealthy, category);

        return lookCP * characterCP * heightCP * progressesCP * wealthyCP * resultCP;

  

    }

  

    /**

     * 获取p(x|y)分母

     * @return

     */

    public static double getDenominator(String look, String character, String height, String progresses, String wealthy) {

        double lookP = getProbability(0, look);

        double characterP = getProbability(1, character);

        double heightP = getProbability(2, height);

        double progressesP = getProbability(3, progresses);

        double wealthyP = getProbability(4, wealthy);

        return lookP * characterP * heightP * progressesP * wealthyP;

    }

  

  

    /**

     * 获取某特征的概率

     * @return

     */

    private static double getProbability(int index, String feature) {

        int size = data.size();

        int num = 0;

        for (int i = 0; i < size; i++) {

            if (data.get(i).get(index).equals(feature)) {

                num++;

            }

        }

        return (double) num / size;

    }

  

    /**

     * 获取某类别下某特征的概率

     * @return

     */

    private static double getProbability(int index, String feature, String category) {

        List<List<String>> filterData=data.stream().filter(e -> e.get(e.size() - 1).equals(category)).collect(Collectors.toList());

        int size =filterData.size();

        int num = 0;

        for (int i = 0; i < size; i++) {

            if (data.get(i).get(index).equals(feature)) {

                num++;

            }

        }

        return (double) num / size;

    }

}

输出结果

使用场景

比如网站垃圾信息分类,文章自动分类,网站垃圾邮件分类,文件分类等。

以反垃圾啊邮件为例说明分类算法的使用,先将批量已经分类的邮件样本(如5000封正常的邮件,2000封垃圾邮件),输入分类算法进行训练,得到一个垃圾邮件分类模型,然后利用分类算法结合分类模型对待处理邮件进行分类识别。

根据已经分类的样本信息提取出一组特征信息的概率,比如邮件中“信用卡”这个词出现在垃圾邮件的中的概率为20%,在非垃圾邮件的概率为1%,就得到一个分类模型。然后从待识别处理的邮件中提取特征值,结合分类模型,就可以判断其分类是不是垃圾邮件。由于贝叶斯算法得到的分类判断是概率值,所以可能会出现误判。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/717807.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

项目管理考核积分指标库大全V3.0

近期热文&#xff1a;大咖来袭&#xff01;中国PMO&PM大会议程隆重发布&#xff0c;三城联动 北京、上海、深圳三地同步进行&#xff0c;两天近70位项目管理大咖专家齐聚一堂&#xff0c;交流分享。各路高手汇聚一处&#xff0c;互相学习。精心的圆桌设计&#xff0c;穿插…

uniapp打包白屏问题

【bug】&#xff1a;浏览器运行正常&#xff0c;模拟器、真机运行只有tab栏显示&#xff0c;或者完全白屏。打包也是白屏。 【控制台报错信息】&#xff1a; 注意&#xff1a;app不支持dom操作 【解决办法】&#xff1a;在main.js里修改 render函数是vue通过js渲染dom结构的…

前端vue入门(纯代码)20

总以为自己还很年轻&#xff0c;却忽略了岁月的脚步&#xff0c;当身边的一道道风景变成了回忆&#xff0c;才忽然发现&#xff0c;风景依然在&#xff0c;而人已非少年。&#xff01;&#xff01;&#xff01; 【22.求和案例--纯Vue版本】 太简单了&#xff0c;直接上代码案…

Squid代理服务器

Squid代理服务器 一、Squid相关知识 1.功能 Squid 主要提供缓存加速、应用层过滤控制的功能。 2.工作机制 1&#xff0e;代替客户机向网站请求数据&#xff0c;从而可以隐藏用户的真实IP地址。 2&#xff0e;将获得的网页数据&#xff08;静态 Web 元素&#xff09;保存到…

js:使用typed.js实现打字动画效果

效果预览 目录 实现方式一: 原生JS实现实现方式二&#xff1a;typed.js实现 实现方式一: 原生JS实现 <div id"code"> 我感到未尝经验的无聊&#xff0c;是自此以后的事。我当初是不知其所以然的&#xff1b; 后来想&#xff0c;凡有一人的主张&#xff0c;得…

高薪offer收割面试题之缓存穿透,击穿,雪崩

缓存穿透&#xff0c;缓存击穿&#xff0c;缓存雪崩是我们在应用缓存时最常碰到的问题&#xff0c;也是面试的热点考点。究竟什么是缓存穿透&#xff0c;缓存击穿&#xff0c;缓存雪崩&#xff0c;如何解决&#xff0c;本文会进行详细的剖析。 缓存穿透 什么是缓存穿透&#…

CUDA和CUDNN安装和版本验证

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、安装二、关键指标1.驱动版本和CUDA版本对应1.最适配版本2.最低支持版本 2.CUDA版本和CUDNN版本对应 三、验证有效性1.驱动验证2.CUDA验证1.nvcc2.sample 3.…

E. Masha-forgetful(dp)

题目&#xff1a;Problem - E - Codeforceshttps://codeforces.com/contest/1624/problem/E 题意&#xff1a; 玛莎认识了一个新朋友&#xff0c;并知道了他的电话号码 s 。电话号码是一个长度为m的字符串&#xff0c;它由从 0-9 组成 。 电话号码可能以 0 开头。 玛莎已经…

花30分钟,用Jenkins部署码云上的SpringBoot项目

本文介绍 jenkins 如何从 gitee 上 clone 项目&#xff0c;然后使用 maven 打包并后台启动。 1.Jenkins 介绍 Jenkins 是一个开源软件项目&#xff0c;是基于 Java 开发的一种持续集成工具&#xff0c;用于监控持续重复的工作&#xff0c;旨在提供一个开放易用的软件平台&…

7月4号作业

实现底层实现三盏灯的控制 head.h #ifndef __HEAD_H__ #define __HEAD_H__#define PHY_LED1_MODER 0X50006000 #define PHY_LED1_ODR 0X50006014#define PHY_RCC 0X50000A28#define PHY_LED2_MODER 0X50007000 #define PHY_LED2_ODR 0X50007014#endif led.c #in…

2023年,第九届WWEC教育者大会隆重回归

2023年第九届WWEC教育者大会将于8月20日至22日在上海举行。本次大会也是时隔两年之后再度重启&#xff0c;是疫情恢复常态化后教育界的首次重要大会。 WWEC教育者大会由宋辉先生发起&#xff0c;嘉家有品主办&#xff0c;君学书院、雁传书文化传媒和有鹏来教育科技联合主办。本…

jdbcTemplate的queryForList报错:Incorrect column count: expected 1, actual 2

jdbcTemplate的queryForList方法有多种传参形式&#xff0c;我们常用的就是这种传class类&#xff0c;参数返回数据&#xff0c;结果报expected 1, actual 2&#xff0c;意思是预期只返回一列&#xff0c;但却返回了2列。这是不合理的&#xff0c;因为返回参数都是List&#xf…

PCL 法向量估计源码学习

一、思路&#xff1a; 二、源码 #ifndef PCL_FEATURES_IMPL_NORMAL_3D_H_ #define PCL_FEATURES_IMPL_NORMAL_3D_H_#include <pcl/features/normal_3d.h>/// template <typename PointInT, typename PointOutT> void pcl::NormalEstimation<PointInT, PointOutT…

【Matlab】智能优化算法_海洋捕食者算法MPA

【Matlab】智能优化算法_海洋捕食者算法MPA 1.背景介绍1.1 布朗运动1.2 莱维运动 2.数学模型2.1 MPA配方2.2 MPA优化场景2.3 涡流形成与FAD效应 3.文件结构4.伪代码5.详细代码及注释5.1 func_plot.m5.2 Get_Functions_details.m5.3 initialization.m5.4 levy.m5.5 main.m5.6 MP…

【H5】文件上传(ajax)

系列文章 【移动设备】iData 50P 技术规格 本文链接&#xff1a;https://blog.csdn.net/youcheng_ge/article/details/130604517 【H5】avalon前端数据双向绑定 本文链接&#xff1a;https://blog.csdn.net/youcheng_ge/article/details/131067187 【H5】安卓自动更新方案&a…

Python_装饰器

目录 简单装饰器 语法糖 *args、**kwargs处理有参数的函数 带参数的装饰器 类装饰器 不带参数的类装饰器 带参数的类装饰器 装饰器执行顺序 functools.wraps 讲 Python 装饰器前&#xff0c;我想先举个例子&#xff0c;虽有点污&#xff0c;但跟装饰器这个话题很贴切。…

select……for update 到底加的什么锁

先上结论 主键索引唯一索引普通索引普通字段等值查询行锁行锁行锁间隙锁&#xff0c;锁表范围查询间隙锁&#xff0c;锁范围行间隙锁&#xff0c;锁范围行间隙锁&#xff0c;锁范围行间隙锁&#xff0c;锁表 数据表准备 DROP TABLE IF EXISTS t_user_test; CREATE TABLE t_u…

【Web3】MetaMask钱包配置

目录 主网更换测试网 私钥如何登录钱包 主网更换测试网 私钥如何登录钱包

docker安装ES,IK分词器,Kibana

dockerhub上自己搜要拉的镜像版本 // 拉取es 6.8.0的镜像版本 docker pull elasticsearch:6.8.0// 运行es镜像 docker run -d -p 9300:9300 -p 9200:9200 --name elasticsearch elasticsearch:6.8.0运行报错了 ERROR: [1] bootstrap checks failed [1]: max virtual memory are…

Michael.W基于Foundry精读Openzeppelin第3期——Arrays.sol

Michael.W基于Foundry精读Openzeppelin第3期——Arrays.sol 0. 版本0.1 Arrays.sol 1. 补充&#xff1a;关于storage的定长数组和动态数组的layout2. 目标合约3. 代码精读3.1 unsafeAccess(address[] storage, uint256)3.2 unsafeAccess(bytes32[] storage, uint256)3.3 unsafe…