bert项目解析

news2026/2/11 5:19:51

数据预处理

读取csv数据集

def read_file(file_path):
    data = []
    label = []
    with open(file_path, "r", encoding="utf-8") as file:
        reader = csv.reader(file)
        next(reader)  # 跳过标题行
        # row每一行用英文逗号分割成列表[标签,文本]  所以标签和文本用英文逗号隔开
        for row in reader:
            # 数据清洗 跳过不完整行
            if len(row) < 2:
                print(f"跳过不完整行: {row}")
                continue
            # 获取每行的标签和文本
            label_row, text_row = row[0], row[1]
            # 数据清洗 跳过空文本的行
            if not text_row:
                print(f"跳过空文本的行: {row}")
                continue
            label.append(label_row)
    # 将字符串标签转成数字标签
    label = [int(i) for i in label]
    print(f"读取 {len(label)} 行数据，标签分布: {Counter(label)}")
    return data, label

csv.reader 默认用英文逗号（,）把一行分割成列表

数据清洗

# 数据清洗 跳过不完整行
            if len(row) < 2:
                print(f"跳过不完整行: {row}")
                continue

# 数据清洗 跳过空文本的行
            if not text_row:
                print(f"跳过空文本的行: {row}")
                continue

数据增强

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2339741.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

bert项目解析

数据预处理

读取csv数据集

数据清洗

数据增强

相关文章

【开源项目】Excel手撕AI算法深入理解（三）：时序（RNN、mamba、Long Short Term Memory (LSTM)、xLSTM）

构建专业金融图表系统的高效路径——QtitanChart在金融行业的应用价值

多模态大语言模型arxiv论文略读（二十六）

Java虚拟机（JVM）平台无关？相关？

cloudstudio学习笔记之openwebui

7.QT-常用控件-QWidget|font|toolTip|focusPolicy|styleSheet(C++)

机器学习核心算法全解析：从基础到进阶的 18 大算法模型

线性代数 | 知识点整理 Ref 1

【深度学习入门_NLP自然语言处理】序章

蓝桥杯二进制问题刷题笔记

mapbox基础，加载视频到地图

RNN - 循环神经网络（实现）

【unity游戏开发入门到精通——UGUI】RectTransform矩形变换组件

C语言复习笔记--字符函数和字符串函数(上)

Apipost，前端后端测试都在用的接口设计调试工具

十倍开发效率 - IDEA 插件之RestfulBox - API

2025 年网络安全的挑战与机遇

IP数据报

【Lua语言】Lua语言快速入门

Silverlight发展历程（微软2021年已经停止支持Silverlight 5）