N元语言模型

news2025/1/16 4:55:19

第1关:预测句子概率

任务描述

本关任务:利用二元语言模型计算句子的概率

相关知识

为了完成本关任务,你需要掌握:1.条件概率计算方式。 2.二元语言模型相关知识。

条件概率计算公式

条件概率是指事件A在事件B发生的条件下发生的概率。条件概率表示为:P(A|B)。若只有两个事件A,B,则有如下公式:

,

二元语言模型

二元语言模型也称为一节马尔科夫链,通俗的讲,我们可以认为这是一个词的概率实际上只是跟前边的词有关,那么就可以有以下的方程:

,

同时为了保证条件概率在 i=1 时有意义,同时为了保证句子内所有字符串的概率和为 1,可以在句子首尾两端增加两个标志: <BOS \W1W2…Wn\ EOS> 为了估计P(WI|WI-1)的条件概率,我们计算出wi-1,wi的词汇出此案的频率然后进行归一化,公式如下:

,

计算出每个词汇的概率后,便可根据公式求得句子的概率。

编程要求

根据提示,在右侧编辑器补充代码,计算并输出测试语句的概率

测试说明

平台会对你编写的代码进行测试: 语料库:

 
  1. 研究生物很有意思。他大学时代是研究生物的。生物专业是他的首选目标。他是研究生。

测试输入:

  1. 研究生物专业是他的首选目标

预期输出:

  1. 0.004629629629629629
import jieba
 
jieba.setLogLevel(jieba.logging.INFO)
 
# 将句子变为"BOSxxxxxEOS"这种形式
def reform(sentence):
    if sentence.endswith("。"):
        sentence = sentence[:-1]
    sentence = sentence.replace("。", "EOSBOS")
    sentence = "BOS" + sentence + "EOS"
    return sentence
 
# 分词并统计词频
def segmentation(sentence, dic):
    jieba.suggest_freq("BOS", True)
    jieba.suggest_freq("EOS", True)  # 让jieba库知道"BOS"和"EOS"这两个词的存在,并记录它们的出现频率
    lists = jieba.lcut(sentence, HMM=False) # 当输入的文本比较短时,隐马尔科夫模型的效果可能会下降,导致分词结果不准确
    if dic is not None:
        for word in lists:
            if word not in dic:
                dic[word] = 1
            else:
                dic[word] += 1
    return lists
 
# 比较两个数列,二元语法
def compareList(ori_list, tes_list):
    count_list = [0] * len(tes_list)
    for t in range(len(tes_list)-1):
        for n in range(len(ori_list)-1):
            if tes_list[t] == ori_list[n]:
                if tes_list[t+1] == ori_list[n+1]:
                    count_list[t] += 1
    return count_list 
      
 
# 计算概率       
def probability(tes_list, ori_dic, count_list):
    flag = 0
    p = 1
    del tes_list[-1]
    for key in tes_list:
        p *= float(count_list[flag]) / float(ori_dic[key])
        flag += 1
    return p
 
if __name__ == "__main__":
    # 语料句子
    sentence_ori = "研究生物很有意思。他大学时代是研究生物的。生物专业是他的首选目标。他是研究生。"
    ori_dict = {}
    
    # 测试句子
    sentence_test = input()
    ori_dict2 = {}
 
    sentence_ori_temp = reform(sentence_ori)
    ori_list = segmentation(sentence_ori_temp, ori_dict)
 
    sentence_tes_temp = reform(sentence_test)
    tes_list = segmentation(sentence_tes_temp, None)
 
    count_list = compareList(ori_list, tes_list)
 
    p = probability(tes_list, ori_dict, count_list)
    print(p)

第2关:数据平滑

任务描述

本关任务:实现二元语言模型的数据平滑,并利用平滑后的数据计算句子概率。

相关知识

为了完成本关任务,你需要掌握:1.模型平滑化。2.good-turning平滑。

模型平滑

在使用语言模型直接计算某个句子出现的概率时,可能会由于某个单词或单词对出现的概率为0而导致整个句子出现的概率为0。 例如下面这个场景:

例子

在上面的场景中,由于部分单词对出现的概率为0,导致最终两句话出现的概率均为0。但实际上,s1=“今天没有训练营”比s2=“今天训练营没有”更符合语法习惯,我们也更希望计算出来的P(s1)大于P(s2)。 一般来说,语言模型的平滑处理可分为以下三类:

  • Discounting(折扣):通过给概率不为0的项打折扣,来提高概率为0的项的概率;
  • Interpolation(插值):在使用N-gram模型计算某一项的概率时,同时结合低阶的模型所计算出的概率;
  • Back‐off:approximate counts of unobserved N‐gram based on the proportion of back‐off events (e.g., N‐1 gram)。

这里我们主要介绍与使用Discounting中的good-turning平滑方法。

good-turning平滑

Good-Turing技术是在1953年由古德(I.J.Good)引用图灵(Turing)的方法而提出来的,其基本思想是:用观察计数较高的N元语法数重新估计概率量的大小,并把它指派给那些具有零计数或者较低计数的N元语法。涉及的符号含义为:
c:某个N元语法出现的频数。
Nc:出现次数为c的 N-gram 词组的个数,是频数的频数

,

c*:Good-Turing平滑计数

,

设N为测试元组集合中元组的数目,则有如下公式:

,

通过新频数可计算出经过good-turing平滑后的元组概率,公式如下:

,

编程要求

根据提示,在右侧编辑器补充代码,编写平滑函数,计算句子的概率

测试说明

平台会对你编写的代码进行测试:

语料库:

  1. 研究生物很有意思。他大学时代是研究生物的。生物专业是他的首选目标。他是研究生。

测试输入:

  1. 他是研究物理的

预期输出:

  1. 5.6888888888888895e-05

import jieba
#语料句子
sentence_ori="研究生物很有意思。他大学时代是研究生物的。生物专业是他的首选目标。他是研究生。"
#测试句子
sentence_test=input()
#任务:编写平滑函数完成数据平滑,利用平滑数据完成对2-gram模型的建立,计算测试句子概率并输出结果
# ********** Begin *********#
def gt(N, c):
    if c+1 not in N:
        cx = c+1
    else:
        cx = (c+1) * N[c+1]/N[c]
    return cx
jieba.setLogLevel(jieba.logging.INFO)
sentence_ori = sentence_ori[:-1]
words = jieba.lcut(sentence_ori)
words.insert(0, "BOS")
words.append("EOS")
i = 0
lengh = len(words)
while i < lengh:
    if words[i] == "。":
        words[i] = "BOS"
        words.insert(i, "EOS")
        i += 1
        lengh += 1
    i += 1
phrases = []
for i in range(len(words)-1):
    phrases.append(words[i]+words[i+1])
phrasedict = {}
for phrase in phrases:
    if phrase not in phrasedict:
        phrasedict[phrase] = 1
    else:
        phrasedict[phrase] += 1
words_test = jieba.lcut(sentence_test)
words_test.insert(0, "BOS")
words_test.append("EOS")
phrases_test = []
for i in range(len(words_test)-1):
    phrases_test.append(words_test[i]+words_test[i+1])
pdict = {}
for phrase in phrases_test:
    if phrase not in phrasedict:
        pdict[phrase] = 0
    else:
        pdict[phrase] = phrasedict[phrase]
N = {}
for i in pdict:
    if pdict[i] not in N:
        N[pdict[i]] = 1
    else:
        N[pdict[i]] += 1
N[0] += 1
Nnum = 0
for i in N:
    Nnum += i*N[i]
p = 1
for phrase in phrases_test:
    c = pdict[phrase]
    cx = gt(N, c)
    p *= cx/Nnum
print(p)

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1623182.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

麒麟龙芯loongarch64 electron 打包deb包

在麒麟龙芯&#xff08;loongarch64&#xff09;电脑上 使用electron 开发桌面应用。之前用electron-packager 打包出来的是文件夹 是 unpack 包。现在需要打包deb包&#xff0c;依据开发指南开始打包。 在项目文件夹下 打开终端 输入 npm run packager 先打包unpack包 然后…

AIGC算法3:Attention及其变体

1.Attention Attention是Transformer的核心部分&#xff0c;Attention机制帮助模型进行信息筛选&#xff0c;通过Q&#xff0c;K&#xff0c;V,对信息进行加工 1.1 attention计算公式 Attention ⁡ ( Q , K , V ) softmax ⁡ ( Q K T d k ) V \operatorname{Attention}(Q, K…

Fisher 准则分类

目录 一、什么是Fisher 准则 二、具体实例 三、代码实现 四、结果 一、什么是Fisher 准则 Fisher准则&#xff0c;即Fisher判别准则&#xff08;Fisher Discriminant Criterion&#xff09;&#xff0c;是统计学和机器学习中常用的一种分类方法&#xff0c;由统计学家罗纳…

【golang学习之旅】Go 的基本数据类型

系列文章 【golang学习之旅】报错&#xff1a;a declared but not used 目录 系列文章总览布尔型&#xff08;bool&#xff09;字符串型&#xff08;string&#xff09;整数型&#xff08;int、uint、byte、rune&#xff09;浮点型&#xff08;float32、float64&#xff09;复…

网络安全之防范钓鱼邮件

随着互联网的快速发展&#xff0c;新的网络攻击形式“网络钓鱼”呈现逐年上升的趋势&#xff0c;利用网络钓鱼进行欺骗的行为越来越猖獗&#xff0c;对互联网的安全威胁越来越大。网络钓鱼最常见的欺骗方式就是向目标群体发送钓鱼邮件&#xff0c;而邮件标题和内容&#xff0c;…

类的六个构造函数相关干货

构造函数 特点 1.名字与类名相同 2.无返回值 3.对象实例化的时候编译器自动调用这个函数 4.构造函数可以重载&#xff08;无参构造函数&#xff0c;拷贝构造等&#xff09; 5.如果类中没有显式定义构造函数&#xff08;深拷贝&#xff09;&#xff0c;则编译器会自动生成一个…

OpenSPG v0.0.3 发布,新增大模型统一知识抽取图谱可视化

基于非结构化文档的知识构建一直是知识图谱大规模落地的关键难题之一&#xff0c;4 月 23 日&#xff0c;OpenSPG 发布 v0.0.3 版本&#xff0c;正式发布了大模型统一知识抽取功能&#xff0c;可大幅降低领域知识图谱的构建成本。还可用于增强大模型缓解幻觉并提升稳定性&#…

Spring Boot中判断轨迹数据是否经过设置的打卡点,且在PGSQL中把点拼接成线,判断某个点是否在线上或在线的50米范围内

问题描述 轨迹数据判断是否经过打卡点&#xff0c;轨迹数据太多&#xff0c;循环判断的话非常消耗内存。解决办法只需要把所有轨迹数据点拼成了一条线&#xff0c;然后只需要循环打卡点即可&#xff0c;打卡点不多&#xff0c;一般不会超过100个&#xff0c;如果多的话&#x…

C++高级特性:异常概念与处理机制(十四)

1、异常的基本概念 异常&#xff1a;是指在程序运行的过程中发生的一些异常事件&#xff08;如&#xff1a;除数为0&#xff0c;数组下标越界&#xff0c;栈溢出&#xff0c;访问非法内存等&#xff09; C的异常机制相比C语言的异常处理&#xff1a; 函数的返回值可以忽略&…

C++ | Leetcode C++题解之第41题缺失的第一个正数

题目&#xff1a; 题解&#xff1a; class Solution { public:int firstMissingPositive(vector<int>& nums) {int n nums.size();for (int i 0; i < n; i) {while (nums[i] > 0 && nums[i] < n && nums[nums[i] - 1] ! nums[i]) {swap(…

助力实现更可持续未来的智能解决方案:AI如何改变世界

人工智能已然成为今年的热门话题。由于生成式AI应用的快速采用&#xff0c;新闻头条充斥着有关AI如何彻底改变我们的政策制定、就业和经济走向的预测。您知道AI也是我们应对各种可持续发展挑战的先锋吗&#xff1f;AI通过分析大量数据&#xff0c;并提供有用的见解和工具&#…

Python | Leetcode Python题解之第44题通配符匹配

题目&#xff1a; 题解&#xff1a; class Solution:def isMatch(self, s: str, p: str) -> bool:def allStars(st: str, left: int, right: int) -> bool:return all(st[i] * for i in range(left, right))def charMatch(u: str, v: str) -> bool:return u v or v…

半波整流220V转正5V负-5V100mA恒压WT5101A

半波整流220V转正5V负-5V100mA恒压WT5101A WT5101A 是一款专为 Buck 和 Buck-Boost 拓扑而设计的高效、具有成本优势的离线恒压稳压器&#xff0c;内嵌有500V MOSFET。在降低系统成本的同时&#xff0c;这款稳压器只需少量的外部元件就能输出默认的5V电压。在轻负载条件下&…

30kw 直流回馈老化测试负载箱的优点

直流回馈老化测试负载箱是一种专门用于对电源设备进行老化测试的设备&#xff0c;其主要优点如下&#xff1a; 直流回馈老化测试负载箱采用了先进的直流回馈技术&#xff0c;能够将测试过程中产生的电能回馈到电网中&#xff0c;大大提高了能源的利用效率。这种技术不仅能够节…

水电气能耗管理云平台

安科瑞薛瑶瑶18701709087/17343930412 能耗管理云平台采用泛在物联、云计算、大数据、移动通讯、智能传感器等技术手段可为用户提供能源数据采集、统计分析、能效分析、用能预警、设备管理等服务&#xff0c;平台可以广泛应用于多种领域。

微信小程序按钮点击时的样式hover-class=“hover“

小程序的button组件很好用&#xff0c;按钮点击的时候会显示点击状态&#xff0c;默认的就是颜色加深 但是我们改变了button的背景色之后&#xff0c;就看不出点击效果了&#xff0c;解决起来也很简单 关键代码就是小程序的 hover-class 属性&#xff0c;需要注意的是&#xff…

【java】27:java绘图

坐标体系 - 介绍&#xff1a; 下图说明了Java坐标系。坐标原点位于左上角&#xff0c;以像素为单位。在Java坐标系中&#xff0c;第一个是x坐标&#xff0c;表示当前位置为水平方向&#xff0c;距离坐标原点个像素&#xff1b;第二个是y坐标&#xff0c;表示当前位置为垂直方向…

APP自动化测试-Android SDK SDK Manager.exe或者uiautomatorviewer.bat打不开,点击就一闪而已的原因

原因是找不到Java.exe的路径&#xff0c; 如果是uiautomatorviewer.bat打不开&#xff0c;则使用文本编辑器打开它&#xff0c;然后添加java安装路径 set java_exeC:\Program Files\Java\jdk1.8.0_321\bin\java.exe 同理&#xff1a; 如果是SDK Manager.exe和AVD Manager.ex…

2024全新Java学习路线图一条龙(视频+课件+源码资料)

前言 互联网浩瀚无际,你能来到这里,是机遇也是缘分,机遇,就像我的标题一样,你找到了一份Java 360度无死角的 Java 学习路线,而缘分让我们相遇,注定给你的学习之路搭上一把手,送你一程。 整条线路除了拥有后端整个技术体系外,还涵盖了前端、大数据、云计算、运维等各…

【telnet 命令安装】centos8 linux下安装telnet命令

在CentOS 8上安装Telnet服务&#xff0c;您需要分别安装Telnet客户端和服务器端。以下是安装步骤的概述&#xff1a; 检查是否已安装Telnet&#xff1a; 您可以使用rpm命令来检查系统是否已经安装了Telnet客户端或服务器端。例如&#xff1a; rpm -qa | grep telnet-client rpm…