BERT(从理论到实践): Bidirectional Encoder Representations from Transformers【3】

news2025/1/17 6:09:26

这是本系列文章中的第3弹,请确保你已经读过并了解之前文章所讲的内容,因为对于已经解释过的概念或API,本文不会再赘述。

本文要利用BERT实现一个“垃圾邮件分类”的任务,这也是NLP中一个很常见的任务:Text Classification。我们的实验环境仍然是Python3+Tensorflow/Keras。


一、数据准备

首先,载入必要的packages/libraries。

import tensorflow as tf
import tensorflow_hub as hub
import tensorflow_text as text
import numpy as np
import pandas as pd
import seaborn as sn

from sklearn.metrics import confusion_matrix, classification_report
from sklearn.model_selection import train_test_split
from matplotlib import pyplot as plt

接下来,导入数据,这是一个CSV文件,里面包含了很多邮件文本(参见【1】)。

df = pd.read_csv("spam.csv")
df.head(5)

这里我们输出前5条数据作为演示:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1358113.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ubuntu 安装 anaconda

ubuntu 安装 anaconda 下载 wget https://repo.anaconda.com/archive/Anaconda3-2023.09-0-Linux-x86_64.sh安装 bash Anaconda3-2023.09-0-Linux-x86_64.sh2.1 回车继续 2.2 许可协议 输入 q 退出阅读许可协议 2.3 输入 yes 接受 许可协议 2.4 设置 anaconda 安装位置 如不需…

kubernetes(二)创建集群

kubernetes(一)概述与架构 云原生实战 语雀 官网 Kubernetes 文档 | Kubernetes 更新:移除 Dockershim 的常见问题 | Kubernetes B站课程:https://www.bilibili.com/video/BV13Q4y1C7hS/?p26 安装版本说明: 视频教程…

【驱动序列】C#获取电脑硬件基本组合以及基础信息

大家好,我是全栈小5,欢迎阅读《小5讲堂之知识点实践序列》文章。 这是2024年第7篇文章,此篇文章是C#知识点实践序列文章,博主能力有限,理解水平有限,若有不对之处望指正! 要开发一款驱动小助手&…

基于springboot+vue网吧管理系统(程序+数据库+文档)

🍅点赞收藏关注 → 私信领取本源代码、数据库🍅 本人在Java毕业设计领域有多年的经验,陆续会更新更多优质的Java实战项目希望你能有所收获,少走一些弯路。🍅关注我不迷路🍅摘 要 随着信息技术和网络技术的…

leetcode2397. 被列覆盖的最多行数

目录 题目 思路 解题方法 题目 https://leetcode.cn/problems/maximum-rows-covered-by-columns/description/ 给你一个下标从 0 开始、大小为 m x n 的二进制矩阵 matrix ;另给你一个整数 numSelect,表示你必须从 matrix 中选择的 不同 列的数量。 …

scipy.signal 详解

scipy.signal 详解 scipy.signal 模块是 SciPy 库中用于信号处理的重要模块。它提供了许多用于数字信号处理、滤波、频谱分析、傅里叶变换、卷积等操作的函数和工具。以下是一些 scipy.signal 模块中常用的函数和功能: 滤波函数 FIR/IIR 滤波器设计 : …

如何解决大语言模型的幻觉问题

如何解决大模型的「幻觉」问题? 什么是大模型「幻觉」 在人类生活中,幻觉表示虚假的但是我们分辨不清楚的事物,在大语言模型中,[幻觉]即代表模型生成的虚假的文本,这中情况很容易导致一些错误的发生 造成大模型「幻觉…

VMware17安装Centos 7.9

1.下载VMware17,下载 VMware Workstation Pro | CN 没有注册码,某多,某宝2元子买一个; 2.下载centos7.9镜像, 3.选择稍后安装操作系统 (如果选择安装程序光盘映像文件,则会按照最小系统自动安装) 4.选择…

电商快递运费对账教程

电商快递运费对账,有没有什么方法,能够事半功倍?回答这个问题之前,我们先来看看电商卖家们,为什么需要对账?基本上都是怎么对账的? 我们都知道,电商与快递行业存在着一定的“共生关…

vue-打包

打包的作用 说明:vue脚手架只是开发过程中,协助开发的工具,当真正开发完了>脚手架不参与上线 打包的作用: 1)将多个文件压缩合并成一个文件 2)语法降级 3)less sass ts语法解析 打包后…

图像分割实战-系列教程8:unet医学细胞分割实战6(医学数据集、图像分割、语义分割、unet网络、代码逐行解读)

🍁🍁🍁图像分割实战-系列教程 总目录 有任何问题欢迎在下面留言 本篇文章的代码运行界面均在Pycharm中进行 本篇文章配套的代码资源已经上传 unet医学细胞分割实战1 unet医学细胞分割实战2 unet医学细胞分割实战3 unet医学细胞分割实战4 unet…

麒麟KYLINOS操作系统上扩容系统盘

原文链接:麒麟KYLINOS操作系统上扩容系统盘 hello,大家好啊!继之前我们讨论了如何在统信UOS上扩容数据盘之后,今天我要给大家带来的是在麒麟KYLINOS操作系统上扩容系统盘与数据盘的方法。随着数据的不断增长,系统盘或数…

Nginx 的SSL证书配置

目录 1.申请域名,证书下载 2.准备站点源代码 3.修改nginx 对应网站的配置文件 4.修改 host 文件 http协议访问的网站默认会显示不安全,因为数据默认是明文传输的 https是httpssl,ssl是加密协议,通过证书来进行加密的&#xff…

promethues grafana 安装和使用

文章目录 1、promethues安装2、node-exporter安装3、grafana安装4、配置promethues监控node节点5、grafana操作外传 Docker 镜像下载地址: https://hub.docker.com 比较好的hub.docker.com///-- https://hub.docker.com/u/bitnami grafana监控面板:https…

使用Docker方式安装Artifactory

1、安装前环境准备 首先要关闭防火墙,关闭Selinux,准备好安装好的docker。以下安装版本:7.19.10 ##关闭防火墙,并设置开机自关闭 systemctl stop firewalld.service systemctl disable firewalld.service ##查看防火墙状态 sy…

越早学会这个配电柜技术,对你的帮助越大!

在当今数字化时代,电力作为社会生产和生活的基石之一,其可靠性和稳定性对于各行各业至关重要。 配电柜作为电力系统的核心组件,其有效的监控与管理成为确保电力供应安全的关键环节。为了满足这一需求,配电柜监控系统应运而生&…

【shell漫步】2 运算符

碎碎念 上一章介绍了各种变量的定义和使用,这次要针对数字和文本这两种基本数据类型进行运算和判断了,shell中的运算包括: 对数字类型 算术运算(对数字的 数学 运算)关系运算(用来做数字的条件判断&…

力扣-42.接雨水

题目: 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例 1: 输入:height [0,1,0,2,1,0,1,3,2,1,2,1] 输出:6 解释:上面是由数组[0,1,0,2…

GraphQL 工具推荐:打造高效的开发环境

GraphQL 工具 本文章,会列举一些好用的 GraphQL 工具,他们可以大大提升你在开发中使用 GraphQL 的效率哦! Prisma 你可以这么理解,Prisma 是一个 ORM 的库,让你使用 GraphQL 查询时,可以使用对象的形式去…

图像分割-Grabcut法

版权声明:本文为博主原创文章,转载请在显著位置标明本文出处以及作者网名,未经作者允许不得用于商业目的。 本文的C#版本请访问:图像分割-Grabcut法(C#)-CSDN博客 GrabCut是一种基于图像分割的技术,它可以用于将图像…