玩转大语言模型——使用Kiln AI可视化环境进行大语言模型微调数据合成

news2025/2/19 3:08:29

系列文章目录

玩转大语言模型——使用langchain和Ollama本地部署大语言模型
玩转大语言模型——三分钟教你用langchain+提示词工程获得猫娘女友
玩转大语言模型——ollama导入huggingface下载的模型
玩转大语言模型——langchain调用ollama视觉多模态语言模型
玩转大语言模型——使用GraphRAG+Ollama构建知识图谱
玩转大语言模型——完美解决GraphRAG构建的知识图谱全为英文的问题
玩转大语言模型——配置图数据库Neo4j(含apoc插件)并导入GraphRAG生成的知识图谱
玩转大语言模型——本地部署带聊天界面deepseek R1的小白教程
玩转大语言模型——本地部署deepseek R1和本地数据库的小白教程(Ollama+AnythingLLM)
玩转大语言模型——使用Kiln AI可视化环境进行大语言模型微调数据合成


文章目录

  • 系列文章目录
  • 前言
  • 下载安装
    • 下载
    • 安装
  • 模型支持
  • 初次使用
  • 合成数据
    • 生成单条数据
    • 批量生成数据
  • 导出数据/微调


前言

Kiln AI是一个强大的工具,主要用于微调大型语言模型(LLM)、生成合成数据以及协作数据集。Kiln AI提供了一整套无需编程、可视化操作的解决方案,帮助用户从零开始构建微调后的模型。用户可以通过Kiln UI创建任务,明确需求、初始提示和输入输出结构,然后选择合适的模型并配置参数,即可发起微调任务。Kiln支持多种主流模型,如OpenAI的GPT-4o系列、Meta的Llama 3.1与Llama 3.2以及Mistral的Mixtral等。众所周知人为去制作标签代价很大,对于学习微调或者仅作微调测试,Kiln是一个非常合适的应用,可以帮助我们通过大语言模型合成微调数据,辅助我们对模型进行微调,还可以导出生成的数据,以供其他训练和微调方式使用。

下载安装

下载

前往官网下载kiln
地址:https://docs.getkiln.ai/docs/quickstart
在这里插入图片描述
点击下载后会自动跳转到GitHub地址,选择适合自己系统的版本即可。
在这里插入图片描述

安装

下载后,安装应用程序:

  • macOS:打开 .dmg 文件,然后将应用程序拖到 Applications 目录。
  • Windows:双击安装程序,然后按照指南进行安装。
  • Linux:保存应用程序并从终端启动它。
    在这里插入图片描述

模型支持

Kiln 基本上可以使用来自许多提供商的任何 LLM 模型:

  • 使用 Ollama 在本地运行。
  • 连接 OpenAI、Groq、OpenRouter、AWS、Fireworks 等云提供商。您提供自己的 API 密钥,我们永远无法访问您的数据集。
  • 连接到任何 OpenAI 兼容服务器,例如用于 vLLM 的 LiteLLM。

初次使用

首次使用需要进行一些设置,到以下设置界面点Skip
在这里插入图片描述
到这一界面后不需要提交邮箱,直接Continue
在这里插入图片描述
然后我们选择Ollama,Ollama的使用我们已经在前面的文章中配置过很多次了,不再赘述,可以翻翻前面的文章。选好后拉到下面点continue
在这里插入图片描述
首次进入时需要新建一个项目,我这里就随便输了。
在这里插入图片描述
为了更方便的演示,创建的任务我是直接用他生成的例子(点右上角的Try an example)。
在这里插入图片描述
读者可以通过给出的提示参考改成自己需要的数据类型,然后点Create Task创建任务。
在这里插入图片描述
随后进入以下界面。
在这里插入图片描述

合成数据

生成单条数据

在当前界面,选择模型后输入相关信息后执行。
在这里插入图片描述
运行结果如下:
在这里插入图片描述
右侧可以为生成的数据评分,并且可以直接判断他是否通过。
在这里插入图片描述
如果评分低还可以对模型的输出设定要求。
在这里插入图片描述
当输出达到满意的时候,保存退出后,点Dataset可以看到刚才生成的数据。
在这里插入图片描述

批量生成数据

点击左侧Synthetic Data然后点击Add Top Level Topics

在这里插入图片描述

点击之后选择合适的模型直接点generate即可,这里推荐的是deepseek蒸馏的qwen14b
在这里插入图片描述
稍等一会就会生成若干topics,也可以点击Add subtopics新建子主题,在生成子主题时也要选用好一点的模型,经过笔者测试使用qwen2.5:14b可以保证正常生成。
在这里插入图片描述
点击Add data,可以直接生成合成数据,亲测使用deepseek R1:14b即可。
在这里插入图片描述
生成后的结果如下:
在这里插入图片描述
全部生成后点击Save All保存数据。
在这里插入图片描述
这一过程也需要使用模型生成,笔者还是选用的deepseek R1:14b
在这里插入图片描述
出现进度条是正常的,不用管他,等一会就好了。
在这里插入图片描述
随后我们返回Dataset可以看到生成的数据全都添加上了。
在这里插入图片描述

导出数据/微调

点击左侧Fine Tune,然后点击Create Fine-Tune
在这里插入图片描述
由于我没有使用API Key,所以我这里并不能直接微调,所以在此笔者选的是下面的Download版本,读者可以根据下面的提示选择合适的数据格式。
在这里插入图片描述
然后选择New Dataset
在这里插入图片描述
然后选择过滤方式,可以通过此设置过滤掉低质量的数据,但为了节约时间,笔者用到的是不进行过滤。
在这里插入图片描述
然后选择数据划分,同样的也需要读者根据自己需求选择数据划分。
在这里插入图片描述
在这里插入图片描述
随后下载创建好的数据集
在这里插入图片描述
下载后可以使用Axolotl或Unsloth进行微调

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2297928.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

图书管理项目(spring boot + Vue)

想要该项目的话,就 jia 我,并在评论区给我说一下,只需要1元,我把整个项目发给你 jia微:18439421203(名字叫:Bingo) 运行图片:

【机器学习】简单线性回归算法及代码实现

线性回归算法 一、摘要二、线性回归算法概述三、损失函数的定义和衡量标准四、简单线性回归的求解和应用五、机器学习算法一般求解思路 一、摘要 本文讲解了线性回归算法的基础知识和应用,强调线性回归主要用于解决回归问题。通过分析房产价格与房屋面积的关系&…

AI-大模型(3)-MoE模型

1.什么是MOE模型 多个领域专家共同工作,并行计算。 2.MOE如何工作 gate层:根据输入Token选择专家 基于Token来选择专家 Gate层选择专家 除专家外,其他层共享一个token可以选择多个专家 一个token 可以选择一个专家或者多个专…

PySide(PyQT)使用场景(QGraphicsScene)进行动态标注的一个demo

用以标注图像的一个基本框架demo import sys from PySide6.QtWidgets import QApplication, QGraphicsView, QGraphicsScene, QMainWindow, QLabel, QGraphicsPixmapItem from PySide6.QtGui import QPixmap, QPainter, QTransform from PySide6.QtCore import Qt, QPointF, S…

w206基于Spring Boot的农商对接系统的设计与实现

🙊作者简介:多年一线开发工作经验,原创团队,分享技术代码帮助学生学习,独立完成自己的网站项目。 代码可以查看文章末尾⬇️联系方式获取,记得注明来意哦~🌹赠送计算机毕业设计600个选题excel文…

C++类和对象进阶:拷贝构造函数深度详解

拷贝构造函数 拷贝构造函数前言引入拷贝构造函数特征拷贝构造函数建议参数加上const 拷贝构造函数参数传值会引发无穷递归的解释内置类型传参拷贝自定义类型传参拷贝详细解释 编译器生成的默认拷贝构造函数默认构造函数做了什么?深拷贝与浅拷贝简单实现一个深拷贝。…

像取快递一样取文件?

看到一个很有意思的项目,像我们做软件分享的感觉会有用,就是现在服务器费用太贵了,如果自建的话感觉不是很值得。 FileCodeBox FileCodeBox 是一个轻量级的文件分享系统,它基于匿名口令分享文本和文件,无需注册登录&…

DeepSeek 助力 Vue 开发:打造丝滑的返回顶部按钮(Back to Top)

前言:哈喽,大家好,今天给大家分享一篇文章!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 目录 Deep…

【前端开发学习笔记15】Vue_8

手动添加Pinia到Vue项目: 在实际开发中,Pinia配置可在项目创建时自动添加。初次学习从零开始: 1. 用Vite创建空的Vue3项目,命令为npm create vuelatest。 2. 按官方文档将pinia安装到项目中。 import { createApp } from vue im…

通过docker启用rabbitmq插件

创建文件,docker-compose.yml services:rabbitmq:image: rabbitmq:4.0-managementports:- "5672:5672"- "15672:15672"volumes:- ./data/rabbitmq/data:/var/lib/rabbitmq # 持久化数据- ./data/rabbitmq/plugins/rabbitmq_delayed_message_ex…

对比 LVS 负载均衡群集的 NAT 模式和 DR 模式,比较其各自的优势 与基于 openEuler 构建 LVS-DR 群集

一、 对比 LVS 负载均衡群集的 NAT 模式和 DR 模式,比较其各自的优势 NAT 模式 部署简单:NAT 模式下,所有的服务器节点只需要连接到同一个局域网内,通过负载均衡器进行网络地址转换,就可以实现负载均衡功能。不需要对…

C++17 中 std::lcm:从入门到精通

文章目录 一、引言二、std::lcm 的基本概念三、入门示例四、计算多个整数的最小公倍数五、std::lcm 的实现原理六、在实际项目中的应用七、注意事项八、总结 一、引言 在 C 编程中,处理数学运算时,计算最小公倍数(Least Common Multiple&…

html 点击弹出视频弹窗

一、效果: 点击视频按钮后,弹出弹窗 播放视频 二、代码 <div class="index_change_video" data-video-src="</

代码随想录算法【Day44】

Day44 1143.最长公共子序列 class Solution { public:int longestCommonSubsequence(string text1, string text2) {vector<vector<int>> dp(text1.size() 1, vector<int>(text2.size() 1, 0));for (int i 1; i < text1.size(); i) {for (int j 1; …

项目总结:java agent的使用

测试团队会做java agent的事&#xff0c;实现测试模拟&#xff0c;各种数据采集等等工作&#xff0c;而这些不需要开发改代码来做到&#xff0c;只需要挂载下agent。 目录 javaagent认识和例子代码例子&#xff1a;java.lang.instrument自定义实现一个javaagentagent jar测试 回…

如何借助NoETL指标平台实现数据分析、决策的提效?

通常&#xff0c;企业通过明确分析目标、定位所需分析的数据&#xff0c;再通过多渠道汇集销售数据、客户反馈、市场调研等信息&#xff0c;经过数据清洗、缺失值处理及格式标准化等手段&#xff0c;运用描述性统计、回归分析、聚类分析及关联规则挖掘等多样分析方法&#xff0…

大模型语言简介

大模型语言能做什么 信息提取 将长段文字中的信息抽取出来并且以结构化的方式输出。相比起传统NLP的方式&#xff0c;大模型在泛化能力上有非常大的提升&#xff0c;并且开发成本要低2个数量级。应用场景包括&#xff1a;论文论点论据提取、用户画像提取、舆情分析、病例结构…

手动配置IP

手动配置IP&#xff0c;需要考虑四个配置项&#xff1a; 四个配置项 IP地址、子网掩码、默认网关、DNS服务器 IP地址&#xff1a;格式表现为点分十进制&#xff0c;如192.168.254.1 子网掩码&#xff1a;用于区分网络位和主机位 【子网掩码的二进制表达式一定是连续的&#…

Golang 进阶训练营

一、Golang 的 slice、map、channel 1.1 slice vs array a : make([]int, 100) //切片 b : [100]int{} //数组array需指明长度&#xff0c;长度为常量且不可改变 array长度为其类型中的组成部分&#xff08;给参数为长度100的数组的方法传长度为101的会报错&#xff09; array在…

2-使用wifidog实现portal

wifidog是openwrt上面实现portal认证的一个开源工具&#xff0c;从网关端到服务器都帮你搭建好&#xff0c;通过学习wifidog的原理&#xff0c;后面就可以改造成自己需要的逻辑。 1. openwrt安装wifidog 添加源 vim 14.07/feeds.conf.defaultsrc-git wifidog https://github.c…