【LittleXi】 N-gram模型(C++实现)

news2024/11/25 19:40:01

LittleXi

  • N-gram模型(C++实现)
    • 马尔科夫性 (独立性假设)
    • 代码实现
      • 英文训练版本
      • 中文训练版本
    • 训练效果

N-gram模型(C++实现)

定义:通俗地讲,就是利用前文的单词,来推算下一个最大概率出现的单词

马尔科夫性 (独立性假设)

但是前文或许有很多单词,这样编程很复杂,不妨讲比较远的单词抛弃掉,仅取最近的2or3个单词作为“提示词”,即一个单词的概率只取决于前面固定数量的单词。

本文采用的取的两个单词,建立的二元bigram模型,代码实现也非常简单~

代码实现

英文训练版本

#include<iostream>
#include<vector> 
#include<map>
#include<string>
#include<algorithm>
#include<fstream>
#pragma warning(disable:4996)
using namespace std;

map<pair<string, string>, map<string, int>> mp;
map<pair<string, string>, string> store_keyval;

void train()
{
	string s4;
	int cnt=0;
	string s1, s2, s3;
	ifstream inFile;
	inFile.open("train.txt");
	inFile >> s1 >> s2 >> s3;
	while (1)
	{
		inFile >> s4;			
		if (s4 == "my_over")
		{
			break;
		}
		s1 = s2;
		s2 = s3;
		s3 = s4;
		mp[{s1, s2}][s3]++;
	}
	inFile.close();
	for (auto& sssi : mp)
	{
		string s1 = sssi.first.first, s2 = sssi.first.second;
		vector<pair<string, int>> tv;
		for (auto& si : sssi.second)
			tv.push_back({ si });

		//对出现概率进行排序
		sort(tv.begin(), tv.end(), [&](pair<string, int>& p1, pair<string, int>& p2){
			return p1.second > p2.second;
			});
		
		store_keyval[{s1, s2}] = tv[0].first;
	}
}

void test()
{
	int len = 0;
	cout << "请输入续写的长度:" << endl;
	cin >> len;
	cout << "请输入想要续写的内容" << endl;
	string s1, s2;
	cin >> s1 >> s2;
	for (int i = 0; i < len; i++)
	{
		string s3;
		if (store_keyval.find({s1, s2}) == store_keyval.end())
			s3 = "and";
		else
			s3 = store_keyval[ { s1, s2 }];
		cout << s3 << " ";
		s1 = s2;
		s2 = s3;
	}
	cout << endl;
}

int main()
{
	train();
	int test_time = 0;
	cout << "请输入需要询问的次数" << endl;
	cin >> test_time;
	while (test_time--)
	{
		test();
	}
}

中文训练版本

#include<iostream>
#include<vector> 
#include<map>
#include<string>
#include<algorithm>
#include<fstream>
#pragma warning(disable:4996)
using namespace std;


map<pair<string, string>, map<string, int>> mp;
map<pair<string, string>, string> store_keyval;

void train()
{
	string s4;
	int cnt=0;
	ifstream inFile;
	inFile.open("zh-train.txt");
	//inFile >> s1 >> s2 >> s3;
	//wstring s;
	while (1)
	{
		cnt++;
		inFile >> s4;			
		//cout << s4 << endl;
		if (s4 == "my_over")
		{
			break;
		}
		if (cnt % 100000==0)
			cout << cnt << endl;
		string s1, s2, s3;
		if (s4.size() <= 6)
			continue;
		s1 = s4.substr(0, 2);
		s2 = s4.substr(2, 2);
		s3 = s4.substr(4, 2);
		//cout << s1<<s2<<s3 << endl;
		for (int i = 6; i < s4.size(); i+=2)
		{
			s4 = s4.substr(i, 2);
			s1 = s2;
			s2 = s3;
			s3 = s4;
			mp[{s1, s2}][s3]++;
		}
	}
	inFile.close();
	for (auto& sssi : mp)
	{
		string s1 = sssi.first.first, s2 = sssi.first.second;
		vector<pair<string, int>> tv;
		for (auto& si : sssi.second)
			tv.push_back({ si });

		//对出现概率进行排序
		sort(tv.begin(), tv.end(), [&](pair<string, int>& p1, pair<string, int>& p2){
			return p1.second > p2.second;
			});
		
		store_keyval[{s1, s2}] = tv[0].first;
	}
}

vector<string> dic = { "的","一","了","是","我","不","在","人","们","有" };

void test()
{
	srand((unsigned)time(NULL));
	int len = 300;
	//cout << "请输入续写的长度:" << endl;
	//cin >> len;
	cout << "请输入想要续写的内容" << endl;
	string s;
	cin >> s;
	//cout << s.size() << endl;
	string s1, s2;
	s1=s.substr(s.size() - 4, 2);
	s2 = s.substr(s.size() - 2, 2);
	for (int i = 0; i < len; i++)
	{
		string s3;
		if (store_keyval.find({ s1, s2 }) == store_keyval.end())
		{
			int p = rand()%10;
			s3 = dic[p];
		}
		else
			s3 = store_keyval[ { s1, s2 }];
		cout << s3 << " ";
		s1 = s2;
		s2 = s3;
	}
	cout << endl;
}

int main()
{
	train();
	int test_time = 0;
	cout << "请输入需要询问的次数" << endl;
	cin >> test_time;
	while (test_time--)
	{
		test();
	}
}

训练效果

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/740540.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Web入门-Web服务器

Web服务器是一个程序软件&#xff0c;对HTTP协议的操作进行封装&#xff0c;使得程序员不必直接对程序进行操作&#xff0c;让Web开发更加便捷&#xff0c;简化web程序开发。主要功能是“通过网上信息浏览服务”。 Tomcat 概念&#xff1a;Tomcat是阿Apache软件基金会一个核心…

Coggle 30 Days of ML(23年7月)任务八:训练BILSTM模型

Coggle 30 Days of ML&#xff08;23年7月&#xff09;任务八&#xff1a;训练BILSTM模型 任务八&#xff1a;使用Word2Vec词向量&#xff0c;搭建BILSTM模型进行训练和预测 说明&#xff1a;在这个任务中&#xff0c;你将使用Word2Vec词向量&#xff0c;搭建BILSTM模型进行文…

【雕爷学编程】Arduino动手做(158)---VL53L0X激光测距模块3

37款传感器与执行器的提法&#xff0c;在网络上广泛流传&#xff0c;其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块&#xff0c;依照实践出真知&#xff08;一定要动手做&#xff09;的理念&#xff0c;以学习和交流为目的&am…

从零开始制作一个Web蜜罐扫描器(2)

从零开始制作一个Web蜜罐扫描器(0)_luozhonghua2000的博客-CSDN博客 从零开始制作一个Web蜜罐扫描器(1)_luozhonghua2000的博客-CSDN博客 文件读取和写入实现 上面的工作已经完成了逻辑判断的部分,下面还需要进一步完善一些旁支末节的部分因为爬虫生成的文件是一个ison文件…

熵权法 —— matlab

目录 一、熵权法介绍 二、熵权法赋权步骤 1.指标正向化 mapminmax介绍 2.数据标准化 3.计算信息熵 4.计算权重以及得分 三、实例分析 1.读取数据 2.指标正向化 2.1 越小越优型处理 2.2 某点最优型指标处理 3.数据标准化 4.计算信息熵 5.计算权重 6.计算得分 总…

第三章 技术选型

1、需要考虑以下几点 可控性 必须有人可以兜底&#xff0c;可以解决 稳定性 修改的版本最好可以上下兼容 核心项目不要用最新的技术 commit的时长 是否有团队维护 适用性 更多人都会的技术 易用性 学习曲线 2、有哪些好用的移动端React组件库 3、为什么使用NestJS 1、最像…

【LeetCode: 16. 最接近的三数之和 | 双指针专题 】

&#x1f680; 算法题 &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;…

港联证券|涨停不封板意味着什么?

涨停不封板或许是因为股票价格到达了涨停价&#xff0c;可是买卖量还未到达涨停板规则的要求&#xff0c;因而买卖并没有被暂停。涨停不封板也有或许是个股当天涨停之后&#xff0c;又呈现开板的状况。 总归&#xff0c;涨停不封板意味着上方的抛压较多&#xff0c;空方力气大于…

Node.js开发

Node.js是一个基于V8 JavaScript引擎的JavaScript运行时环境。 也就是说Node.js基于V8引擎来执行JavaScript的代码&#xff0c;但是不仅仅只有V8引擎&#xff1a;  前面我们知道V8可以嵌入到任何C 应用程序中&#xff0c;无论是Chrome还是Node.js&#xff0c;事实上都是嵌入…

C++智能指针使用及原理

在讲解之前&#xff0c;先讲述一种RAII思想. 目录 RAII 智能指针原理 auto_ptr auto_ptr的介绍 auto_ptr的实现 unique_ptr unique_ptr的介绍 unique_ptr实现 shared_ptr shared_ptr的介绍 shared_ptr实现 weak_ptr weak_ptr的介绍 weak_ptr的实现 RAII RAII&a…

西安大华时代网络科技有限公司

大华时代是行业领先的软件与信息技术服务企业。我们拥有专业的团队和先进的技术&#xff0c;在金融、电信、高科技和互联网等行业&#xff0c;为客户提供优质的产品、先进的解决方案和热情的服务&#xff01;

【SpringBoot + Mybatis系列】插件机制 Interceptor

【SpringBoot Mybatis系列】插件机制 Interceptor 在 Mybatis 中&#xff0c;插件机制提供了非常强大的扩展能力&#xff0c;在 sql 最终执行之前&#xff0c;提供了四个拦截点&#xff0c;支持不同场景的功能扩展 Executor (update, query, flushStatements, commit, rollbac…

mysql check slow_log造成锁-waiting for table level lock

背景&#xff1a; 我们在生产环境使用mysql的时候开启了slow_log 记录表&#xff0c;但有的时候由于记录数据过大&#xff0c;造成该表损坏 ERROR 1194 (HY000): Table slow_log is marked as crashed and should be repaired 这时候就想着用check table 命令来看看表是否正…

云服务器下WordPress发送邮件的设置

WordPress的邮件功能很强大&#xff0c;可以实现用户密码以往后自助恢复等问题。 WordPress默认是使用php发邮件的&#xff0c;php需要配置好smtp&#xff08;端口25&#xff09;服务器及密码。这种方式不直观&#xff0c;因此一般都用smtp插件&#xff0c;常用的插件是WP Mai…

FastDDS 源码剖析:src/cpp/fastdds 源码结构与Publisher源码分析

目录 源码结构 Publisher分析 Publisher 类分析 PublisherIImpl 类分析 源码结构 —builtin:该目录包含FastDDS使用的内置类型和协议的实现。 —core:该目录包含FastDDS库中使用的核心类和函数。这包括处理错误、管理内存和处理线程的类。 --domain:此目录包含DomainPart…

本地资源检测 自定义规则 零基础上手指南

本地资源检测是UWA推出的、面向于静态资源的全量分析。可以全面自动检测项目静态工程内各项资源、代码和设置&#xff0c;能够帮助项目组制定合理的资源与代码标准&#xff0c;及时发现潜在的性能问题和异常错误&#xff0c;建立有效的开发规范。其中“自定义规则”功能特别获得…

docker 安装zookeeper单机版

1. 安装版本3.5.7, 也可以自己去官网找到自己需要的版本复制命令即可 https://hub.docker.com/_/zookeeper/tags docker pull zookeeper:3.5.7 2. 创建映射文件夹&#xff1a; #1. 在centos中创建三个文件夹 mkdir -p /home/zookeeper/conf mkdir -p /home/zookeeper/data mkd…

图片视频抹除算法总结Inpaint

基本是从图片抹水印和视频抹水印两个方向 Video Inpainting&#xff1a;https://paperswithcode.com/task/video-inpaintingImage Inpainting&#xff1a;https://paperswithcode.com/task/image-inpainting 请根据目录查看 图片 Partial Conv 部分卷积层 源自于Image In…

游戏服务器搭建过程中Maven多模块编译遇到的一些问题

目录 1、多模块的创建 1.1 父模块的创建 1.2 删除垃圾文件 1.3 修改pom.xml 1.4 创建子模块继承 2、子模块之间的互相引用 3、多个模块间版本的管理 3.1 dependencis 3.2 dependencyManagement 4、依赖执行 5、在Spring Boot项目中加载依赖项目的组件有几种常用的方法…

十一、PBR材质金属度、粗糙度以及环境贴图的使用

Three.js——十一、PBR材质金属度、粗糙度以及环境贴图的使用 metalness金属度 金属度属性.metalness表示材质像金属的程度, 非金属材料,如木材或石材,使用0.0,金属使用1.0。 new THREE.MeshStandardMaterial({metalness: 1.0,//金属度属性 }) // 或者 // mesh.material.met…