大语言模型在构建UNSPSC 分类数据中的应用

news2024/9/27 4:51:55

        UNSPSC 是联合国标准产品和服务代码。UNSPSC由联合国开发计划署(UNDP)和Dun & Bradstreet公司(D & B)于1998年联合制定,自2003年以来一直由GS1 US管理。GS1 US 将在 2024 年底前将 UNSPSC 的管理权移交给 UNDP。

        本文主要研究如何使用mongoDB数据库,nodeJS的javascript程序,大语言模型(chatGPT)生产UNSPSC 分类系统的数据。

下载unspsc 文档

        首先下载 unspsc  分类EXCEL 文档,unspsc 官网(https://www.unspsc.org/)上无法下载,大概要成为unspsc 的subscriber  之后才可以,但是我不知道如何能够成为unspsc 的订阅者。

        国内的道客巴巴上有个中文翻译文档,结果下载下来才发现编码与描述不对版,也许是早期的东西吧,白瞎了34元。我是在康奈尔大学的网站上下载了一个英文的unspsc 文档,在联合国全球市场网下载了一个中文的文档。

     有读者告诉我正确的方法,请在评论区留言。

下载unspsc 分类

从康奈尔大学的网站上下载了一个unspsc 文档,包含的商品大约149851个.

https://finance.cornell.edu/procurement/buyers/unspsc

文档格式

Segment,Family,Class,Commodities 是分成三个表。

下载 中文文档

        我们希望下载一个中文的unspsc 文档,最终在联合国全球采购市场网站上下载了中文unspsc 文档,但是在中国联合国全球采购网站上却没有。这个·文档中只有13000多种商品,部分标题没有被翻译

https://www.ungm.org/Public/UNSPSC

文档格式

转储

        下一步将unspsc 到mongoDB 数据库中。

第一种方法(以unspsc 为基础)

        unspsc.xlsx 文档另存为cvs 文件,Segment.cvs,Family.cvs,Class.cvs,Commodity.cvs 几个文件,我们通过一个javascript 程序unspscStore.js 将cvs 文档存储到mongoDB 中。成为4 个collection。

第二种方法(以unspsc_chinese 为基础)

   将unspsc中文文档(删除前11行,A,B 列)转储到mongodb 中。由此生成Segment,Family,Class,Commodity 四个Collection。

最后,我们决定先使用中文的数据构建项目的内容。

构建产品的特性模型

       对所有Commodity 的商品,构建商品的Properties ,存储在Property Collection。

    基本方法是采用chatGPT 自动生成商品的特征。

实验(KIMI)

商品定义

商品特征

 KIMI提问:

请给出如下商品的特征参数: “动态随机存取储存器DRAM”,JSON格式输出,格式为 {Property:[{Name:"属性的名称",Value:"属性的值”}]

 KIMI 回答:

{
  "Property": [
    {
      "Name": "类型",
      "Value": "动态随机存取存储器"
    },
    {
      "Name": "容量",
      "Value": "多种容量选项,如1GB, 2GB, 4GB等"
    },
    {
      "Name": "速度",
      "Value": "以兆赫兹(MHz)为单位的速度等级"
    },
    {
      "Name": "时钟周期",
      "Value": "存储器的时钟周期时间"
    },
    {
      "Name": "刷新周期",
      "Value": "必需的刷新间隔时间"
    },
    {
      "Name": "数据访问时间",
      "Value": "CAS延迟时间"
    },
    {
      "Name": "模块类型",
      "Value": "如DIMM, SODIMM, RDIMM等"
    },
    {
      "Name": "电压",
      "Value": "操作电压,如1.5V, 1.35V等"
    },
    {
      "Name": "接口类型",
      "Value": "如DDR, DDR2, DDR3, DDR4等"
    },
    {
      "Name": "散热解决方案",
      "Value": "如散热片安装或无散热片"
    },
    {
      "Name": "端到端可靠性",
      "Value": "如奇偶校验或ECC支持"
    }
  ]
}

文心一言

提问(商品定义):

请用一句话给出如下商品的定义 “腹膜透析仪和腹膜循环仪”

回答

腹膜透析仪和腹膜循环仪是用于辅助腹膜透析过程,通过机械方式促进腹膜透析液在腹腔内循环与交换,以清除体内代谢废物和多余水分的医疗设备。

 提问(商品特征):

请给出如下商品的特征参数: “动态随机存取储存器DRAM”,JSON格式输出,格式为 {Property:[{Name:"属性的名称",Value:"属性的值”}]

回答

{  
  "Property": [  
    {  
      "Name": "类型",  
      "Value": "动态随机存取储存器(DRAM)"  
    },  
    {  
      "Name": "数据存储方式",  
      "Value": "动态存储,需要定期刷新数据以保持信息不丢失"  
    },  
    {  
      "Name": "访问速度",  
      "Value": "相对较快,适合作为计算机的主存储器"  
    },  
    {  
      "Name": "容量范围",  
      "Value": "从几兆字节到数百吉字节不等,具体取决于型号和技术"  
    },  
    {  
      "Name": "电压需求",  
      "Value": "低电压设计,通常在1.2V至1.5V之间"  
    },  
    {  
      "Name": "接口类型",  
      "Value": "包括DDR, DDR2, DDR3, DDR4, LPDDR等,每种类型具有不同的数据传输速率和功耗"  
    },  
    {  
      "Name": "封装类型",  
      "Value": "如BGA, TSOP, FBGA等,影响安装和散热性能"  
    },  
    {  
      "Name": "延迟时间",  
      "Value": "用CAS延迟(CL)等指标衡量,影响数据访问的响应时间"  
    },  
    {  
      "Name": "工作频率",  
      "Value": "通常以MHz或GHz为单位,影响数据传输速率"  
    },  
    {  
      "Name": "错误检测和纠正",  
      "Value": "部分DRAM支持ECC(错误纠正码)功能,提高数据完整性和可靠性"  
    }  
  ]  
}

 大语言模型的输出的质量并不高。

源代码(待补充)

浏览

编写一个nodeJS 程序unspscServer.mjs 能够浏览unspsc 的分类和商品Commodity 的特征。

界面
源代码

结束语

       该项目主要研究如何将chatGPT作为一种生产力工具,提高生成结构化数据的生产力方式。

    第一步使用chatGPT 生成商品的描述和数据特征(Properties)。这项工作如果人工完成是非常巨大的工程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2168822.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【HarmonyOS】TaskPool非阻塞UI

TaskPool方法不会阻塞UI,如果做上传图片的功能加载Loading记得使用TaskPool,Promise、Async/Await都会阻塞UI 【引言】 发现Promise可能会阻塞UI,尝试使用async或await,但发现它们仍然会导致阻塞。后来看到chaoxiaoshu回复的Tas…

数字孪生平台,助力制造设备迈入超感知与智控新时代!

痛点剖析 当前,制造业面临系统分散导致的数据孤岛问题,严重阻碍了有效监管与统计分析;同时,设备多样化且兼容性不足,增加了管理难度;台账记录方式混乱,工单审批流程繁琐且效率低下;…

electron使用npm install出现下载失败的问题

我在使用electron进行下载时,经常出现一个错误。 HTTPError: Response code 404 (Not Found) for https://registry.npmmirror.com/v21.4.4/electron-v21.4.4-win32-x64.zip 这个时候需要修改一些npm的配置。使用命令npm config list -ls 滑到下面,找到一…

第一个maven web工程(eclipse)

1、点击file--》new--》Maven Project,如下: 2、直接next,如下 3、搜索web原型,如下 4、填写项目的坐标,如下 5、创建完成后,需要自己补一个文件夹,名称为java,如下: …

class 023 随机快速排序

这篇文章是看了“左程云”老师在b站上的讲解之后写的, 自己感觉已经能理解了, 所以就将整个过程写下来了。 这个是“左程云”老师个人空间的b站的链接, 数据结构与算法讲的很好很好, 希望大家可以多多支持左程云老师, 真心推荐. https://space.bilibili.com/8888480?spm_id_f…

云中红队系列 | 使用 AWS API 配置Fireprox进行 IP轮换

在渗透测试评估期间,某些活动需要一定程度的自动化,例如从 LinkedIn 等网站抓取网页以收集可用于社会工程活动、密码喷洒登录门户或测试时盲注的有效员工姓名列表网络应用程序。但是,从单个源 IP 地址执行这些活动可能会导致在测试期间被拦截…

【TabBar嵌套Navigation案例-新特性页面-代码位置 Objective-C语言】

一、接下来,我们来说这个新特性页面 1.首先,看一下我们的示例程序,这里改一下,加一个叹号, command + R, 好,首先啊,这里边有一个新特性页面,当我这个程序是第一次安装、第一次运行、还有呢、就是当这个应用程序更新的时候,我应该去加载这个新特性页面, 然后呢,这…

JPEG图像的DCT(Discrete Cosine Transform)变换公式代码详解

引 言 网络上图像在传输过程中为节省内存空间主要采用jpeg格式。jpeg图属于有损压缩图像的一种。在图像篡改检测过程中,可以利用jpeg图像的单双压缩伪影的不同而判别图像为伪造图并可以定位伪造区域。RGB图像变成jpeg图像过程中涉及从RGB图变成YCbCr图像&#xff0c…

使用离火插件yoloV8数据标注,模型训练

1. 启动 2.相关配置 2.1 data.yaml path: D:/yolo-tool/yaunshen-yolov8/YOLOv8ys/YOLOv8-CUDA10.2/1/datasets/ceshi001 train: images val: images names: [蔡徐坤,篮球] 2.2 cfg.yaml # Ultralytics YOLOv8, GPL-3.0 license # Default training settings and hyp…

物联网行业中通信断线重连现象介绍以及如何实现

01 概述 断线重连是指在计算机网络中,当网络连接遇到异常中断或者断开时,系统会自动尝试重新建立连接,以保证网络通信的连续性和稳定性。这是一种常见的网络通信技术,广泛应用于各种计算机网络场景,包括互联网、局域…

蓝队技能-应急响应篇Web内存马查杀Spring框架型中间件型JVM分析Class提取

知识点: 1、应急响应-Web框架内存马-分析&清除 2、应急响应-Web中间件内存马-分析&清除 注:框架型内存马与中间件内存马只要网站重启后就清除了。 目前Java内存马具体分类: 1、传统Web应用型内存马 Servlet型内存马:…

探索EasyCVR视频融合平台:在视频编解码与转码领域的灵活性优势

随着视频监控技术的飞速发展,各类应用场景对视频数据的处理需求日益复杂多样。从公共安全到智慧城市,再到工业监控,高效、灵活的视频处理能力成为衡量视频融合平台性能的重要标准。在众多解决方案中,EasyCVR视频融合平台凭借其在视…

Java面试题之JVM20问

1、说说 JVM 内存区域 这张图就是一个 JVM 运行时数据图,「紫色区域代表是线程共享的区域」,JAVA 程序在运行的过程中会把他管理的内存划分为若干个不同的数据区域,「每一块儿的数据区域所负责的功能都是不同的,他们也有不同的创建…

Django设计批量导入Excel数据接口(包含图片)

Django设计批量导入Excel数据接口(包含图片) 目录 Django设计批量导入Excel数据接口(包含图片)示例xlsx文件接口详情前端上传FormData后端APIView调用函数 Django 4.2.7 openpyxl 3.1.5示例xlsx文件 接口详情 前端上传FormData …

2-104 基于MATLAB的动态模式分解(Dynamic Mode Decomposition,DMD)

基于MATLAB的动态模式分解(Dynamic Mode Decomposition,DMD),从人类步行数据中提取信息.动态模式分解是一种降维算法,在流体力学领域引入的。与提供内部坐标系和相应投影的SVD相似,DMD为您提供随不同时间行为演变的特定…

【架构】前台、中台、后台

文章目录 前台、中台、后台1. 前台(Frontend)特点:技术栈: 2. 中台(Middleware)特点:技术栈: 3. 后台(Backend)特点:技术栈: 示例场景…

PMOS的原理

PMOS(金属氧化物半导体场效应晶体管)是一种以空穴为主要载流子的场效应管,它的D极(漏极)、S极(源极)和G极(栅极)的工作原理如下: 1. D极(漏极&am…

已存在的Python项目使用依赖管理工具UV

1. 文档 uv文档 2. 如何转换 初始化 uv initrequirements.txt转换成pyproject.toml uv add $(cat requirements.txt)删除requirements.txt 如果更新pyproject.toml之后,使用命令 uv sync替换项目环境 如果有库没有加入依赖,自己手动加一下&am…

详解电力物联网通常使用哪些通信规约?

在电力物联网行业中,通信规约是关键的技术之一,用于实现电网设备与控制中心之间的数据通信和信息管理。本篇就为大家简单说明电力物联网通常使用哪些通信规约。 1、IEC 60870-5-101/104 这是由国际电工委员会(IEC)制定的一系列标…

微信小程序配置prettier+eslint

虽然微信开发者工具是基于vscode魔改的.但是由于版本过低,导致很多插件也用不上新版本.所以在微信开发者工具限制的版本下使用的prettier,eslint也是有版本要求. 本文主要就是记录一下需要的版本号 1.微信开发者工具安装插件 2.package.json中添加以下依赖及安装依赖 "de…