【大模型基础】P1 N-Gram 模型

news2025/1/6 9:20:51

目录

  • N-Gram 概述
  • N-Gram 构建过程
  • Token
  • N-Gram 实例
    • 第1步 构建实验语料库
    • 第2步 把句子分成 N 个 “Gram”
    • 第3步 计算每个 Bigram 在语料库中的词频
    • 第4步 计算出现的概率
    • 第5步 生成下一个词
    • 第6步:输入前缀,生成连续文本
  • 上述实例完整代码
  • N-Gram 的局限性

N-Gram 概述

N-Gram 诞生于统计学 NLP 初期,为解决词序列冗长导致的高复杂性概率计算。其通过分割文本为连续 N 个词的组合,来预测下一个词。

e . g . e.g. e.g. 我喜欢大模型
根据分词结果,文本中有三个词:“我”、“喜欢”、“大模型”

  • N=1,组合成一元组(Unigram):“我”、“喜欢”、“大模型”
  • N=2,组合成二元组(Bigram):“我喜欢”、“喜欢大模型”
  • N=3,组合成三元组(Trigram):“我喜欢大模型”

N-Gram 构建过程

第一步:分割文本为连续 N 个词的组合(N-Gram)

  • 以二元组(Bigram)为例,将语料库中文本进行分割。
  • e . g . e.g. e.g. 我爱吃香菜
    在这里插入图片描述

第二步:统计每个 N-Gram 在文本中出现的次数,即词频

  • 在语料库 ["我爱吃香菜", "我爱吃涮", "我爱吃汉堡", "我喜欢你", "我也爱吃水果"] 中,Bigram “我爱” 出现了 3 次。

第三步:计算下一个词出现的概率

  • 二元组 “我爱” 出现了 3 次,而其前缀 “我” 在语料库中出现了 5 次,则给定 “我” 为前缀时,下一个词为 “爱” 的概率为 60%

在这里插入图片描述

第四步:迭代上述过程,生成整段文本内容

在这里插入图片描述


Token

上述内容中,我们将文本 “我爱吃香菜” 分为了 4 个词。但是标准的说法,是分成了 4 个 Token。

在 NLP 中,

  • 英文分词方法通常使用 NLTK、spaCy 等自然语言处理库。
  • 中文分词则通常使用 jieba 库。
  • 在预训练模型在 BERT 中,使用 Tokenizer 库。

分词是预处理的一个重要环节,其他还包括文本清洗、去停用词、词干提取、词性标注等环节。


N-Gram 实例

整体流程一览图如下:

在这里插入图片描述

第1步 构建实验语料库

# 构建语料库
corpus = ["我喜欢吃苹果", "我喜欢吃香蕉", "她喜欢吃葡萄", "他不喜欢吃香蕉", "他喜欢吃苹果", "她喜欢吃草莓"]

第2步 把句子分成 N 个 “Gram”

import jieba

def generate_bigrams(corpus):
    bigram_list = []
    for sentence in corpus:
        # 使用jieba分词
        words = list(jieba.cut(sentence))
        bigrams = [(words[i] , words[i + 1]) for i in range(len(words) - 1)]
        bigram_list.extend(bigrams)

    return bigram_list

bigrams = generate_bigrams(corpus)
print(bigrams)

结果:

[('我', '喜欢'), ('喜欢', '吃'), ('吃', '苹果'), ('我', '喜欢'), ('喜欢', '吃'), ('吃', '香蕉'), ('她', '喜欢'), ('喜欢', '吃'), ('吃', '葡萄'), ('他', '不'), ('不', '喜欢'), ('喜欢', '吃'), ('吃', '香蕉'), ('他', '喜欢'), ('喜欢', '吃'), ('吃', '苹果'), ('她', '喜欢'), ('喜欢', '吃'), ('吃', '草莓')]

第3步 计算每个 Bigram 在语料库中的词频

from collections import defaultdict, Counter

def count_bigrams(bigrams):
    # 创建字典存储biGram计数
    bigrams_count = defaultdict(Counter)
    for bigram in bigrams:
        prefix = bigram[:-1]
        token = bigram[-1]
        bigrams_count[prefix][token] += 1
    
    return bigrams_count

bigrams_counts = count_bigrams(bigrams)
for prefix, counts in bigrams_counts.items():
    print("{}: {}".format("".join(prefix), dict(counts)))

结果:

: {'喜欢': 2}
喜欢: {'吃': 6}: {'苹果': 2, '香蕉': 2, '葡萄': 1, '草莓': 1}: {'喜欢': 2}: {'不': 1, '喜欢': 1}: {'喜欢': 1}

第4步 计算出现的概率

def bigram_probabilities(bigrams_count):
    bigrams_prob = defaultdict(Counter)
    for prefix, tokens_count in bigrams_count.items():
        total_count = sum(tokens_count.values())
        for token, count in tokens_count.items():
            bigrams_prob[prefix][token] = count / total_count

    return bigrams_prob

bigrams_prob = bigram_probabilities(bigrams_count)
for prefix, probs in bigrams_prob.items():
    print("{}: {}".format("".join(prefix), dict(probs)))

结果:

: {'喜欢': 1.0}
喜欢: {'吃': 1.0}: {'苹果': 0.3333333333333333, '香蕉': 0.3333333333333333, '葡萄': 0.16666666666666666, '草莓': 0.16666666666666666}: {'喜欢': 1.0}: {'不': 0.5, '喜欢': 0.5}: {'喜欢': 1.0}

第5步 生成下一个词

def generate_token(prefix, bigram_probs):
    if not prefix in bigram_probs:
        return None
    next_token_probs = bigram_probs[prefix]
    next_token = max(next_token_probs, key=next_token_probs.get)
    return next_token

第6步:输入前缀,生成连续文本

def generate_text(prefix, bigram_probs, length=6):
    tokens = list(prefix)
    for _ in range(length - len(prefix)):
        next_token = generate_token(tuple(tokens[-1:]), bigram_probs)
        if not next_token:
            break
        tokens.append(next_token)
    return "".join(tokens)

generate_text("我", bigram_probs)

结果:

'我喜欢吃苹果'

上述实例完整代码

import jieba
from collections import defaultdict, Counter


# 构建语料库
corpus = ["我喜欢吃苹果", "我喜欢吃香蕉", "她喜欢吃葡萄", "他不喜欢吃香蕉", "他喜欢吃苹果", "她喜欢吃草莓"]

# 二元组切词
def generate_bigrams(corpus):
    bigram_list = []
    for sentence in corpus:
        # 使用jieba分词
        words = list(jieba.cut(sentence))
        bigrams = [(words[i] , words[i + 1]) for i in range(len(words) - 1)]
        bigram_list.extend(bigrams)

    return bigram_list

# 计算二元组词频
def count_bigrams(bigrams):
    # 创建字典存储biGram计数
    bigrams_count = defaultdict(Counter)
    for bigram in bigrams:
        prefix = bigram[:-1]
        token = bigram[-1]
        bigrams_count[prefix][token] += 1

    return bigrams_count

# 计算二元组概率
def bigram_probabilities(bigrams_count):
    bigram_probs = defaultdict(Counter)
    for prefix, tokens_count in bigrams_count.items():
        total_count = sum(tokens_count.values())
        for token, count in tokens_count.items():
            bigram_probs[prefix][token] = count / total_count

    return bigram_probs

# 生成内容
def generate_token(prefix, bigram_probs):
    if not prefix in bigram_probs:
        return None
    next_token_probs = bigram_probs[prefix]
    next_token = max(next_token_probs, key=next_token_probs.get)

    return next_token

def generate_text(prefix, bigram_probs, length=6):
    tokens = list(prefix)
    for _ in range(length - len(prefix)):
        next_token = generate_token(tuple(tokens[-1:]), bigram_probs)
        if not next_token:
            break
        tokens.append(next_token)

    return "".join(tokens)


if __name__ == '__main__':
    bigrams = generate_bigrams(corpus)
    print(bigrams)

    bigrams_count = count_bigrams(bigrams)
    for prefix, counts in bigrams_count.items():
        print("{}: {}".format("".join(prefix), dict(counts)))

    bigram_probs = bigram_probabilities(bigrams_count)
    for prefix, probs in bigram_probs.items():
        print("{}: {}".format("".join(prefix), dict(probs)))

    res = generate_text("我", bigram_probs)
    print(res)

N-Gram 的局限性

N-Gram 模型具有很大的启发意义和价值,我们只需要一个简单的语料库,结合二元组模型,即可生成一段话。

N-Gram 模型中,我们预测一个词出现的频率,只考虑其之前的 N-1 个词,其优点是计算简单,但是缺点也很明显,那就是它无法捕捉到距离较远的词之间的关系。

下一节,将介绍于 N-Gram 同时代产物,词袋模型(Bag-of-Words)。词袋模型不考虑哪个词和哪个词接近,而是通过把词看作一袋子元素的方式来把文本转换为能统计的特征。


2024.09.07

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2112963.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一文理解粒子滤波

0. 粒子滤波流程 之前学习记录的文档,这里也拿出来分享一下~ 基本原理:随机选取预测域的 N NN 个点,称为粒子。以此计算出预测值,并算出在测量域的概率,即权重,加权平均就是最优估计。之后按权重比例&…

揭秘帕金森症幕后元凶:是哪些因素悄悄“震颤”了生活?

在这个快节奏的时代,健康成为了我们最宝贵的财富之一。然而,有一种名为“帕金森病”的神秘疾病,正悄悄影响着无数人的生活,让他们的日常充满了“不由自主”的颤抖。今天,就让我们一起揭开帕金森症的神秘面纱&#xff0…

【电路笔记】-同相运算放大器

同相运算放大器 文章目录 同相运算放大器1、概述2、理想的同相运算放大器3、实际同相运算放大器3.1 闭环增益3.2 输出阻抗3.3 输入阻抗4、同相运算放大器示例4.1 缓冲电路4.2 示例5、总结1、概述 施加到运算放大器的电压信号可以提供给其同相输入端 (+) 或反相输入端 (-)。 这…

ansible--role

简介 roles是ansible,playbooks的目录的组织结构,将代码或文件进行模块化,成为roles的文件目录组织结构。 易读,代码可冲哟美好,层次清晰 目录机构 mkdir roles/nginx/{files,handlers,tasks,templates,vars} -ptou…

LLM模型:代码讲解Transformer运行原理

视频讲解、获取源码:LLM模型:代码讲解Transformer运行原理(1)_哔哩哔哩_bilibili 1 训练保存模型文件 2 模型推理 3 推理代码 import torch import tiktoken from wutenglan_model import WutenglanModelimport pyttsx3# 设置设备为CUDA(如果…

javaWeb【day04】--(MavenSpringBootWeb入门)

01. Maven课程介绍 1.1 课程安排 学习完前端Web开发技术后,我们即将开始学习后端Web开发技术。做为一名Java开发工程师,后端Web开发技术是我们学习的重点。 1.2 初识Maven 1.2.1 什么是Maven Maven是Apache旗下的一个开源项目,是一款用于…

数据治理:企业数字化转型的关键环节

数据治理:企业数字化转型的关键环节 前言数据治理:企业数字化转型的关键环节 前言 在当今数字化时代,企业的发展与数据紧密相连。数据已成为企业的重要资产,而如何有效地治理数据,使其发挥最大价值,成为企…

Python安装llama库出错“metadata-generation-failed”

Python安装llama库出错“metadata-generation-failed” 1. 安装llama库时出错2. 定位问题1. 去官网下载llama包 2.修改配置文件2.1 解压文件2.2 修改配置文件 3. 本地安装文件 1. 安装llama库时出错 2. 定位问题 根据查到的资料,发现时llama包中的execfile函数已经…

旋翼无人机的应用场景和用途!!!

1. 航拍摄影 全景拍摄:旋翼无人机可以携带摄像装置进行大规模航拍,广泛应用于影视制作、广告拍摄、城市规划、房地产宣传等领域。其独特的视角和高度,能够拍摄到地面难以捕捉的壮丽景色,为观众带来震撼的视觉效果。 测绘与地理信…

USB通信协议基础概念

文章目录 一、什么是USB1. **标准化接口**2. **热插拔**3. **即插即用**4. **电源供给**5. **数据传输速度**6. **连接类型**7. **协议和功能** 二、USB的三个部分1. **USB Host(主机)**2. **USB Device(设备)**3. **USB Hub&…

Ubuntu 22.04 make menuconfig 失败原因

先 安装一些配置 linux下使用menuconfig需要安装如下库_menuconfig 安装-CSDN博客 然后 cd 到指定源代码 需要在内核文件目录下编译 Linux 内核源码(kernel source)路径_--kernel-source-path-CSDN博客 make menuconfig 又报错 说是gcc 12什么什么&…

Linux概述、远程连接、常用命令

Linux介绍 Linux操作系统介绍 Linux操作系统的特点 开源免费安全稳定可移植性好 Linux可以安装在不同的设备上 高性能 Linux的使用领域 应用服务器数据库服务器网络服务器虚拟化云计算嵌入式领域个人PC移动手机 Linux文件系统和目录 /:根目录,唯一/h…

RT-Thread(Nano版本)的快速移植(基于NUCLEO-F446RE)

目录 概述 1 RT-Thread 1.1 RT-Thread的版本 1.2 认识Nano版本 2 STM32F446U上移植RT-Thread 2.1 STM32Cube创建工程 2.2 移植RT-Thread 2.2.1 安装RT-Thread Packet 2.2.2 加载RT-Thread 2.2.3 匹配相关接口 2.2.3.1 初次编译代码 2.2.3.2 匹配端口 2.2.4 移植FinSH…

基于飞腾平台的Hive的安装配置

【写在前面】 飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力,聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域,包含了应用使能套件、软件仓库、软件支持、软件适…

Matplotlib 颜色设置详解

在使用matplotlib进行颜色绘制的时候,如绘制图表、背景色或者对文字设置的时候都可以配置颜色, 以下说明主流的三种颜色使用方法 颜色名称 可以是直接使用颜色名称的字符串对color进行赋值,包括可以使用首字母缩写或者完整拼写的形式,以下为部分颜色的书写形式 缩写版 • …

机器学习课程学习周报十一

机器学习课程学习周报十一 文章目录 机器学习课程学习周报十一摘要Abstract一、机器学习部分1.1 再探GAN的数学原理1.1.1 似然与概率1.1.2 GAN和最大似然估计1.1.3 最大后验概率 1.2 WGAN1.3 GAN的性能评估方法1.4 条件型生成 总结 摘要 本周的学习主要围绕生成对抗网络&#…

详细介绍msvcr120.dll文件以及修复msvcr120.dll丢失的几种方法

遇到“msvcr120.dll丢失”错误通常会在尝试运行某些程序时发生,这类错误提示“程序无法启动,因为您的计算机缺少msvcr120.dll文件。”这可能导致许多用户感到困扰和不便。有几个步骤可以帮助你轻松修复“msvcr120.dll丢失”错误,保证应用程序…

Linux新建虚拟机Ubuntu详解

1. 打开软件,点击新建虚拟机; 2. 选择典型; 3. 点击稍后安装操作系统后,点击下一步; 4. 选择客户机操作系统以及版本,这里我们选择Ubuntu 64位; 5. 给虚拟机命名以及新建文件夹存放虚拟机位置&…

bat批处理实现从特定文件夹中提取文件内容并以父文件夹名存储

1、需求分析 标题是bat批处理实现从特定文件夹中提取文件内容并以父文件夹名存储。这里面我们要做的工作是: ①、批处理脚本使用的是bat文件; ②、文件夹下面有很多子文件夹,然后子文件夹下仍然有相同的文件结构,我们需要从三级…

创业者必读!选择拍卖源码还是自建开发,哪种方案更安全?

在当今数字化时代,拍卖平台作为一种独特的电子商务模式,正逐渐成为人们关注的焦点。随着互联网技术的发展,网络安全问题变得越来越突出。如何保障用户数据安全,防止信息泄露及攻击事件的发生,已经成为拍卖软件开发者面…