大模型应用开发-大模型数据侧总结

news2025/1/23 2:19:48

大模型相关目录

大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步,扬帆起航。

  1. 大模型应用向开发路径及一点个人思考
  2. 大模型应用开发实用开源项目汇总
  3. 大模型问答项目问答性能评估方法
  4. 大模型数据侧总结

文章目录

  • 大模型相关目录
  • 一、大模型数据类型
  • 二、大模型数据集构建示例
  • 三、总结


一、大模型数据类型

从数据内容上

自我认知数据集,顾名思义,使模型在被问及模型名称和研发出处时可准确回答的数据集。一般数据集规模小,内容固定,微调或训练后与一定的prompt配合使用能起到较好的效果。
通用数据集,使模型在微调后能够保持自身对通用问题推理能力水平的数据集。一般数据集规模大,内容丰富,质量要求高。
专业领域数据集,一般在进行垂直领域的大模型开发时所需的数据集,使模型对指定垂直领域进行学习。数据集规模、数据集格式、数据集内容根据垂直领域内容不同而不同。值得注意的是垂直领域的大模型开发所用数据集尽量领域方向固定单一,实践说明多方向数据集会使得模型垂直领域问答能力变弱。

从数据格式上

指令微调数据集
在这里插入图片描述
QA数据集
在这里插入图片描述
其他格式数据集:包括json、word、pdf、txt等
在这里插入图片描述

二、大模型数据集构建示例

大模型数据集构建方法众多,如在已有数据集上设计脚本修改数据集内容、如令大模型自问自答或在一定prompt约束下生成问题和答案…
本次示例以一定的json数据为基础,利用大模型能力,设计prompt约束,产生可用于实际应用的问答数据集。
需要注意的是,在上述示例思路下产生数据集,为保证数据质量,在每一次生成问答数据集时,都应颗粒度具体到json的字段(而不仅仅只是每一个json文件)。
在这里插入图片描述
在这里插入图片描述

from llm_ask.ask_Tongyi import *
import os

# 获取指定目录下所有文件的绝对路径列表
def get_files_in_directory(directory):
    result = []
    # 遍历指定目录下的所有文件和文件夹
    for root, dirs, files in os.walk(directory):
        # 只处理文件,不处理文件夹
        for file in files:
            # 获取文件的完整路径
            file_path = os.path.join(root, file)
            # 打印文件路径或进行其他操作
            # print(file_path)
            result.append(file_path)
    return result

# 由json文件绝对路径读取单个json文件获取其文件名称和标题
def read_single_json(json_file_path:str)->str:
    title = json_file_path.split('\\')[-1][:-5]
    with open(json_file_path, 'r', encoding='utf-8') as file:
        data = str(json.load(file))
    return title,data

# 以追加方式向指定的txt文件存入内容
def wirte_txt(txt_file_path,data):
    with open(txt_file_path,'a',encoding='utf-8') as f:
        f.write(data)
        f.write('\n\n')

# 对llm返回的结果进行处理
def adjust_result(llm_result):
    llm_result_text = llm_result['text']
    return llm_result_text

prompt_modules = [
    '''
    你是一个问答数据生成专家,可以就上述json数据生成问答数据。
    本次提问关注json格式中的 {ziduan} 字段,该字段是指{ziduan_describe}。
    生成的每条问题要全面清晰,注明政策规范或办理结果名称,不能用这项、这个、上述地点指代有效信息。
    生成的回答应将对应的的信息详细以口语形式描述出来。
    最后强调,以不同的角度和方式生成3条问答数据以上。
    问题及答案符合口语习惯,采取如下格式:
    根据{zhengce}请回答问题1:回答1\n\n根据{zhengce}请回答问题2:回答2\\n\\n...]'''
]

ziduans = [
    '办理结果名称','承办机构','法定办结时限','受理时间、地点','咨询渠道','投诉渠道'
]

ziduan_describes = [
    '所要办理的文件','办理该事项的政府机关部门名称',
    '办理该文件所需的最大时限','办理该文件时,机关部门的工作地点和工作时间段',
    '该事项相关的咨询渠道','该事项相关的投诉渠道'
]

ziduan_indexs = range(len(ziduans))

# exe
ask_tyqw = TongyiAPI()

directory = r'C:\...\generate_data\approval_data_300'  # 目录路径
file_paths = get_files_in_directory(directory)
for file_path in file_paths[2:]:
    title, json_data = read_single_json(file_path)
    prompt_data = json_data

    for index in ziduan_indexs:
        prompt_module = prompt_modules[0].format(zhengce=title,ziduan=ziduans[index],ziduan_describe=ziduan_describes[index])
        prompt = prompt_data + '\n' + prompt_module
        llm_result = ask_tyqw.get_one_response_by_prompt(prompt)
        print(llm_result)
        llm_adjust_result = adjust_result(llm_result)
        mid = directory.replace('approval_data_300','approval_data_300_ask_txt')+'\\'+title+'.txt'
        wirte_txt(mid, llm_adjust_result)
import requests
import json
import dashscope
from dashscope import Generation
from http import HTTPStatus

class TongyiAPI:
    def __init__(self):
        API_KEY = 'sk-0000000000000000000000000000' #自己的API_KEY
        dashscope.api_key = API_KEY
        self.gen = Generation()
    
    def get_one_response_by_prompt(self, prompt):
        response = self.gen.call(
            model=dashscope.Generation.Models.qwen_turbo,
            prompt=prompt
        )
        # The response status_code is HTTPStatus.OK indicate success,
        # otherwise indicate request is failed, you can get error code
        # and message from code and message.
        if response.status_code == HTTPStatus.OK:
            # print(response.output)  # The output text
            print(response.usage)  # The usage information
            return response.output
        else:
            print(response.code)  # The error code.
            print(response.message)  # The error message.

三、总结

上述即是大模型数据侧的一点总结内容,包括数据类型的两个维度划分以及大模型数据集生成方法和注意事项。
完结,撒花!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1512799.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用 Amazon Bedrock 和 RAG 构建 Text2SQL 行业数据查询助手

背景 随着企业数据量的持续增长,如何让非技术人员也能轻松分析数据、获得商业洞察成为了当前的痛点。本文将介绍如何使用亚马逊云科技的大语言模型服务 Amazon Bedrock 以及 RAG (Retrieval Augmented Generation),实现 Text2SQL 功能,以此为…

【深度学习笔记】5_12稠密连接网络(DenseNet)

注:本文为《动手学深度学习》开源内容,部分标注了个人理解,仅为个人学习记录,无抄袭搬运意图 5.12 稠密连接网络(DenseNet) ResNet中的跨层连接设计引申出了数个后续工作。本节我们介绍其中的一个&#xf…

【论文速读】| DeepGo:预测式定向灰盒模糊测试

本次分享论文为:DeepGo: Predictive Directed Greybox Fuzzing 基本信息 原文作者:Peihong Lin, Pengfei Wang, Xu Zhou, Wei Xie, Gen Zhang, Kai Lu 作者单位:国防科技大学计算机学院 关键词:Directed Greybox Fuzzing, Path…

Postman请求API接口测试步骤和说明

Postman请求API接口测试步骤 本文测试的接口是国内数智客(www.shuzike.com)的API接口手机三要素验证,验证个人的姓名,身份证号码,手机号码是否一致。 1、设置接口的Headers参数。 Content-Type:applicati…

2024蓝桥杯每日一题(区间合并)

一、第一题:挤牛奶 解题思路:区间合并 区间合并模板题 【Python程序代码】 n int(input()) a [] for i in range(n):l,r map(int,input().split())a.append([l,r]) def cmp(x):return x[0],x[1] a.sort(keycmp) res1,res20,0 st,ed a[0][0…

JS-12-关键字this、apply()、call()

一、对象的方法 在一个对象中绑定函数,称为这个对象的方法。 示例: 1、对象: var xiaoming {name: 小明,birth: 1990 }; 2、给xiaoming绑定一个函数。比如,写个age()方法,返回xiaoming的年龄: var x…

亲测抖音小程序备案流程,抖音小程序如何备案,抖音小程序备案所需准备资料

抖音小程序为什么要备案,抖音官方给出如下说明: 1、2024年3月15日后提交备案的小程序将不保证2024年3月31日前平台可初审通过; 2、2024年3月31日后未完成备案小程序将被下架处理。 一,备案前需准备资料 (一&#xff0…

Python 导入Excel三维坐标数据 生成三维曲面地形图(面) 1、线条折线曲面

环境和包: 环境 python:python-3.12.0-amd64包: matplotlib 3.8.2 pandas 2.1.4 openpyxl 3.1.2 代码: import pandas as pd import matplotlib.pyplot as plt import numpy as np from mpl_toolkits.mplot3d import Axes3D from matplotlib.colors import ListedColor…

k8s+wordpress+zabbix+elastic+filebeat+kibana服务搭建以及测试

一,环境:docker,k8s,zabbix,以及搭建worpdress,elasticsearch,filebeat,kibana 二,主机分配: 名称host详述个人博客3192.168.142.133 搭配mysql8.0.36的数据…

Stable Diffusion 模型:从噪声中生成逼真图像

你好,我是郭震 简介 Stable Diffusion 模型是一种生成式模型,可以从噪声中生成逼真的图像。它由 Google AI 研究人员于 2022 年提出,并迅速成为图像生成领域的热门模型。 数学基础 Stable Diffusion模型基于一种称为扩散概率模型(Diffusion P…

【QT】文件流操作(QTextStream/QDataStream)

文本流/数据流&#xff08;二级制格式&#xff09; 文本流 &#xff08;依赖平台&#xff0c;不同平台可能乱码&#xff09;涉及文件编码 #include <QTextStream>操作的都是基础数据类型&#xff1a;int float string //Image Qpoint QRect就不可以操作 需要下面的 …

ES分片均衡策略分析与改进

从故障说起 某日早高峰收到 Elasticsearch 大量查询超时告警&#xff0c;不同于以往&#xff0c;查看 Elasticsearch 查询队列监控后发现&#xff0c;仅123节点存在大量查询请求堆积。 各节点查询队列堆积情况 查看节点监控发现&#xff0c;123节点的 IO 占用远高于其他节点。…

喜报!聚铭网络实力入选2024年度扬州市网络安全技术支撑服务机构

近日&#xff0c;中共扬州市委网络安全和信息化委员会办公室正式公布了“2024年度扬州市网络安全技术支撑服务机构”名单&#xff0c;聚铭网络凭借其卓越的技术实力与优质的安服能力&#xff0c;在众多竞争者中脱颖而出&#xff0c;光荣上榜&#xff01; 为了健全扬州市网络安…

仿12306校招项目业务五(敏感信息模块)

加密存储 数据加密背景 数据加密是指对某些敏感信息通过加密规则进行数据的变形&#xff0c;实现敏感隐私数据的可靠保护。 涉及客户安全数据或者一些商业性敏感数据&#xff0c;如身份证号、手机号、卡号、客户号等个人信息按照相关部门规定&#xff0c;都需要进行数据加密。…

程序人生——Java中基本类型使用建议

目录 引出Java中基本类型使用建议建议21&#xff1a;用偶判断&#xff0c;不用奇判断建议22&#xff1a;用整数类型处理货币建议23&#xff1a;不要让类型默默转换建议24&#xff1a;边界、边界、还是边界建议25&#xff1a;不要让四舍五入亏了一方 建议26&#xff1a;提防包装…

Nodejs 第五十五章(socket.io)

传统的 HTTP 是一种单向请求-响应协议&#xff0c;客户端发送请求后&#xff0c;服务器才会响应并返回相应的数据。在传统的 HTTP 中&#xff0c;客户端需要主动发送请求才能获取服务器上的资源&#xff0c;而且每次请求都需要重新建立连接&#xff0c;这种方式在实时通信和持续…

细粒度IP定位参文27(HGNN):Identifying user geolocation(2022年)

[27] F. Zhou, T. Wang, T. Zhong, and G. Trajcevski, “Identifying user geolocation with hierarchical graph neural networks and explainable fusion,” Inf. Fusion, vol. 81, pp. 1–13, 2022. (用层次图、神经网络和可解释的融合来识别用户的地理定位) 论文地址:…

设计模式一 ---单例设计模式(动力节点,JavaSE基础)

设计模式 1.什么是设计模式&#xff1f; 2.设计模式的分类 单例设计模式就是GoF模式中的一种。 3.GoF设计模式的分类&#xff1a; 单例设计模式&#xff1a; 顾名思义&#xff1a;单个实例的设计模式&#xff01;

C#调用Halcon出现尝试读取或写入受保护的内存,这通常指示其他内存已损坏。System.AccessViolationException

一、现象 在C#中调用Halcon&#xff0c;出现异常提示&#xff1a;尝试读取或写入受保护的内存,这通常指示其他内存已损坏。System.AccessViolationException 二、原因 多个线程同时访问Halcon中的某个公共变量&#xff0c;导致程序报错 三、测试 3.1 Halcon代码 其中tsp_width…

【Android】 ClassLoader 知识点提炼

1.Java中的 ClassLoader 1.1 、ClassLoader的类型 Java 中的类加载器主要有两种类型&#xff0c;即系统类加载器和自定义类加载器。其中系统类 加载器包括3种&#xff0c;分别是 Bootstrap ClassLoader、Extensions ClassLoader 和 Application ClassLoader。 1.1.1.Bootstra…