【大模型-驯化】成功搞懂大模型的jsonl数据格式处理和写入,通过pandas读取和保存JSONL文件

news2024/9/24 20:03:26

【大模型-驯化】成功搞懂大模型的jsonl数据格式处理和写入,通过pandas读取和保存JSONL文件
 
本次修炼方法请往下查看
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地!
🎇 相关内容文档获取 微信公众号
🎇 相关内容视频讲解 B站

🎓 博主简介:AI算法驯化师,混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+,熟练掌握机器、深度学习等各类应用算法原理和项目实战经验

🔧 技术专长: 在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务,助力多位小伙伴在学习、求职、工作上少走弯路、提高效率,近一年好评率100%

📝 博客风采: 积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

🌵文章目录🌵

    • 🎯 1.问题介绍
    • 💡 2. 代码实现
      • 2.1 读取jsonl文件
      • 2.2 保存为JSONL文件
    • 💡 3. 高阶用法
      • 3.1 处理大型JSONL文件
      • 3.2 自定义JSONL的读取
    • 💡4. 总结

下滑查看解决方法

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

  

🎯 1.问题介绍

  JSONL(JSON Lines)是一种文本格式,目前大模型很多的数据格式都是jsonl和json的,通常我们使用json的文件相对较多,对于jsonl的处理,我们其中每一行都是一个独立的JSON对象。这种格式非常适合于那些需要逐行读取和写入数据的场景,比如日志文件处理。Pandas是一个强大的Python数据分析库,它提供了读取和保存JSONL文件的功能,使得处理这种格式的数据变得简单快捷。:

💡 2. 代码实现

2.1 读取jsonl文件

  为了要大家更加清晰的理解jsonl文件的数据处理过程,我们首先,我们需要一个JSONL文件。假设我们有一个名为data.jsonl的文件,其内容如下:

{"name": "Alice", "age": 25, "city": "New York"}
{"name": "Bob", "age": 30, "city": "Los Angeles"}
{"name": "Charlie", "age": 35, "city": "Chicago"}

  使用Pandas读取这个文件的代码如下:

import pandas as pd

# 读取JSONL文件
df = pd.read_json('data.jsonl', lines=True)

print(df)

    name  age      city
0  Alice   25  New York
1    Bob   30 Los Angeles
2 Charlie   35    Chicago

2.2 保存为JSONL文件

  现在,如果我们想要将DataFrame保存回JSONL格式,可以使用to_json方法:

# 保存DataFrame为JSONL文件
df.to_json('output.jsonl', lines=True, orient='records', force_ascii=False)

💡 3. 高阶用法

3.1 处理大型JSONL文件

  当处理大型JSONL文件时,我们可能不希望一次性将所有数据加载到内存中。Pandas的read_json方法支持分块读取:

chunk_size = 1000  # 每次读取1000行
chunks = pd.read_json('large_data.jsonl', lines=True, chunksize=chunk_size)

for chunk in chunks:
    print(chunk)
    # 可以在这里对每个块进行处理

3.2 自定义JSONL的读取

  有时候,JSONL文件中的数据可能包含复杂的结构,比如嵌套的JSON对象。在这种情况下,我们可以使用json_normalize来展平这些结构:

from pandas import json_normalize

# 假设我们有一个包含嵌套JSON的JSONL文件
nested_data = [
    {"name": "Alice", "details": {"age": 25, "city": "New York"}},
    {"name": "Bob", "details": {"age": 30, "city": "Los Angeles"}}
]

# 将列表转换为JSONL格式的字符串
nested_jsonl = "\n".join([json.dumps(d) for d in nested_data])

# 读取并展平JSONL文件
df_nested = pd.read_json(nested_jsonl, lines=True)
df_flattened = json_normalize(df_nested)

print(df_flattened)

    name  age      city
0  Alice   25  New York
1    Bob   30 Los Angeles

💡4. 总结

  Pandas提供了非常便捷的方法来读取和保存JSONL文件,无论是处理小型文件还是大型数据集,都能轻松应对。通过分块读取和自定义数据处理,我们可以有效地处理复杂的数据结构。掌握这些技能,将大大提高数据处理的效率和灵活性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2161298.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

文件上传-php

查找方式 ***(1) 黑盒 查找(upload) 扫描 (2) 应用型 窗口 上传中心或者后台中心 上传 Ps:后台是后台 权限是权限 (3) 会员中心 (4) 白盒 基本函数定义 写前端的 Enctype 上传类型Method 提交方式Onsubmit 鼠标的时间Action"放在指定文件"Php 接受表单数据 isset(…

简单计算器(python基础代码撰写)

简单计算器:仅适用无括号加减乘除,算法初阶,代码基础,不调库或模块“纯”手撕。 (笔记模板由python脚本于2024年09月22日 12:08:02创建,本篇笔记适合喜欢用python解决实际问题的coder翻阅) 【学习的细节是欢悦的历程】…

Java反射机制入门:解锁运行时类信息的秘密

反射技术: 其实就是对类进行解剖的技术 类中有什么?构造方法 成员方法成员变量 结论:反射技术就是把一个类进行了解剖,然后获取到 构造方法、成员变量、成员方法 反射技术的应用案例: idea框架技术:Spr…

【VMware】虚拟机安装

文章目录 一、安装二、登录配IP1.登录成功后:2.设置DNS地址3.重启网络服务 一、安装 1.tools文件中,准备VMware软件,与CentOS7.4安装包 详情操作 2. VMware软件安装成功后查看网络连接,出现新的以太网,Vmnet1&#xf…

MiniCPM-V 2.6训练时fuse_adam报错

原本pip install deepspeed安装了0.15.1版本的,但是在进行sft训练的时候还是报错。大概就是fuse_adam这个op编译有错,c版本要大于17什么的,一堆错。看了一堆解决方案尝试后发现如下这样的有用: 1.下载DeepSpeend源码 git clone ht…

打造灵活DateTimePicker日期时间选择器组件:轻松实现时间的独立清除功能

element ui中日期和时间选择器(DateTimePicker)是一个常见且重要的组件。它允许用户轻松地选择日期和时间,极大地提升了用户体验。然而,在某些场景下,用户可能需要更细粒度的控制,例如单独清除已选择的时间…

4款思维导图在线工具,新手速来!

想要工作更顺畅,办公软件少不了!让咱们工作生活变得更加井井有条的小能手——思维导图软件。没错,就是那些能让你在头脑风暴、项目规划、会议记录时,思路瞬间清晰,逻辑一目了然的神奇工具。我亲身体验过的四款款热门软…

Web端云剪辑解决方案,提供前端产品源码

美摄科技作为业界领先的视频技术服务商,匠心打造Web端云剪辑解决方案,以前沿技术赋能企业用户,开启视频创作与编辑的新纪元。 【云端赋能,重塑剪辑体验】 美摄科技的Web端云剪辑解决方案,颠覆了传统视频编辑的局限&a…

Excel VLOOKUP函数怎么用?vlookup函数的使用方法及案例

大家好,这里是效率办公指南! 🔎 在Excel的世界里,VLOOKUP函数无疑是查询和数据分析中的明星。无论是从庞大的数据表中提取特定信息,还是进行数据的快速匹配,VLOOKUP都能大显身手。今天,我们将深…

多机器学习模型学习

特征处理 import os import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.model_selection import StratifiedShuffleSplit from sklearn.impute import SimpleImputer from sklearn.pipeline import FeatureUnion fr…

行业副教授亲授,好评如潮丨合成孔径雷达干涉测量InSAR数据处理、地形三维重建、形变信息提取、监测等技能,助力精准决策!

目录 第一章 InSAR技术应用现状分析及其发展 第二章 InSAR原理、技术方法讲解 第三章 数据处理环境建立与软件熟悉 第四章 SAR影像数据获取、DEM数据获取 InSAR数据前处理技术 第五章 InSAR地形三维重建 第六章 DInSAR形变信息提取 第七章 时序InSAR技术形变速率与形变时…

【C++】检测TCP链接超时——时间轮组件设计

目录 引言 时间轮思想 设计的核心思路 完整代码 组件接口 个人主页:东洛的克莱斯韦克-CSDN博客 引言 对于高并发的服务器来说,链接是一种比较珍贵的资源,对不活跃的链接应该及时释放。判断连接是否活跃的策略是——在给定的时间内&#…

04 面部表情识别:Pytorch实现表情识别-表情数据集训练代码

总目录:人脸检测与表情分类 https://blog.csdn.net/whiffeyf/category_12793480.html 目录 0 相关资料1 面部表情识数据集2 模型下载3 训练0 相关资料 面部表情识别2:Pytorch实现表情识别(含表情识别数据集和训练代码):https://blog.csdn.net/guyuealian/article/details/1…

017_FEA_CSG_in_Matlab新的统一有限元分析工作流之2D几何

Matlab新的统一有限元分析工作流 从2023a开始,Matlab提供了一个统一有限元分析工作流(UFEAW,unified finite element analysis workflow)。 这个新的工作留提供一个统一的接口来求解三类问题,并且可以用同一套数据随…

828华为云征文 | 云服务器Flexus X实例,Docker集成搭建搭建Flink

828华为云征文 | 云服务器Flexus X实例,Docker集成搭建搭建Flink Apache Flink是一个分布式大数据计算引擎,专为处理无界和有界数据流上的有状态计算而设计,以其高吞吐量、低延迟和高性能在实时流处理和批量计算领域脱颖而出,Flin…

Vue2电商项目(四) Detail模块

文章目录 一、配置Detail路由1. 将Detail组件配置为路由组件2. 将路由配置文件拆分3. 声明式导航跳转到Detail跳转时存在的问题:页面滚动条还在下边 二、配置API及vuex三、放大镜及下方轮播图1. Detail组件传递放大镜数据2. 读取vuex数据的经典错误undefined3. 放大…

个人如何做量化?我想进行量化交易需要哪些条件?QMT/PTrade量化软件?

个人如何做量化?我想进行量化交易需要哪些条件?QMT,PTrade量化软件? 量化交易策略是一种基于数学模型和统计分析的交易方法,通过计算机程序自动执行交易指令,以实现稳定、可持续的收益。这种策略的核心思想…

【研赛E题成品论文】24华为杯数学建模研赛E题成品论文+可运行代码丨免费分享

2024华为杯研究生数学建模竞赛E题成品论文已出! E题 高速公路应急车道紧急启用模型 一、问题一模型建立与求解 1.1 问题一求解思路 赛题要求我们基于四个观测点的视频数据,提取交通流参数并分析这些参数随时间的变化规律。交通流参数包括:…

【秋招笔试题】多多排序

解法&#xff1a;简单语法题 package com.sky;import java.util.*;public class Test1 {public static void main(String[] args) {Scanner sc new Scanner(System.in);int N sc.nextInt();int M sc.nextInt();List<String> words new ArrayList<>(N);for (in…

[系统设计总结] - Proximity Service算法介绍

问题描述 Proximity Service广泛应用于各种地图相关的服务中比如外卖&#xff0c;大众点评&#xff0c;Uber打车&#xff0c;Google地图中&#xff0c;其中比较关键的是我们根据用户的位置来快速找到附近的餐厅&#xff0c;司机&#xff0c;外卖员也就是就近查询算法。 主流的…