如何在一个中文大模型上,加入招投标字段标注的数据,搭建一个招投标字段解析的Transformer模型?

news2024/9/20 16:46:58

ChatGPT方案1

在这里插入图片描述

在一个中文大模型上加入招投标字段标注的数据,并搭建招投标字段解析的Transformer模型可以通过以下步骤实现:

  1. 收集并标注招投标相关的数据。可以使用现有的数据集,也可以通过爬虫技术获取相关数据,然后进行人工标注。标注数据需要标注字段名(例如标的物、投标人等)和对应字段的值。

  2. 将标注好的数据转换为适合Transformer模型训练的格式。可以将数据转换为类似于常见的序列标注数据集格式,即每个标签一行,每个标签包含词语和其对应的标注,例如:

标的物 O
: O
XXX B-标的物
, O
YYY I-标的物
。 O
投标人 O
: O
ZZZ B-投标人
, O
WWW I-投标人
。 O
……
  1. 使用开源的Transformer模型库,例如Hugging Face的transformers库,搭建招投标字段解析的Transformer模型。可以选择使用预训练的中文BERT或者RoBERTa模型,也可以自己进行训练。

  2. 训练模型时,数据集需要经过中文分词和输入编码(例如使用BertTokenizer),然后作为输入传递给Transformer模型进行训练。在训练时,可以使用类似于NER任务的交叉熵损失函数和Adam优化器。

  3. 训练完成后,可以使用训练好的模型对新的招投标文本进行解析,识别其中的字段名和对应的值。可以使用类似于序列标注的方法,对招投标文本进行分词,然后对每个词语进行标注,得到该词语所属的字段名和对应的值。最后按照字段名将对应的值进行聚合。

Bing 方案2

在这里插入图片描述

您好,这是必应。根据我从网络上搜索到的信息,我给出以下建议:

  • 您可以使用一个预训练的中文大模型,如BERT1,作为基础模型,然后在招投标字段标注的数据上进行微调,以适应您的任务需求。
  • 您可以将招投标字段标注的任务视为一个序列标注问题,即给定一个招投标文本,为每个单词或字符分配一个标签,表示它属于哪个字段,如项目名称、预算金额、开标时间等。
  • 您可以使用Transformer2的编码器-解码器结构来构建您的模型,其中编码器负责对输入文本进行编码,解码器负责生成对应的标签序列。您也可以使用一些变体或改进的Transformer模型,如BART3等。
  • 您可以在模型的输入中加入位置编码2,以提供每个单词或字符的位置信息,从而帮助模型捕获语言中的顺序关系。

希望这些信息对您有所帮助。如果您还有其他问题,请随时提问。

Claude+ 方案3

在这里插入图片描述

在一个中文预训练模型上加入招投标字段标注数据,搭建字段解析模型的步骤如下:

选择一个中文Transformer模型,如BERT、RoBERTa、BERT-wwm等。这里取BERT-wwm-ext作为例子。

准备招投标字段标注数据集,包含文本序列和BIO标签序列。

将BERT-wwm-ext模型加载,冻结所有层,只更新最后一层。

在BERT-wwm-ext的最后一层后面增加两个新的层:

一个全连接层,输入为BERT最后一层的输出,输出维度为标签数,激活函数为softmax。
一个CRF层,用于BIO标签序列的解码。
连接招投标字段标注数据集到BERT-wwm-ext模型输入,全连接层和CRF层输出连接标签。

编译模型,使用BIO标注的交叉熵损失,优化器选择Adam。

只训练新增的全连接层和CRF层,冻结BERT-wwm-ext模型其他层。

训练一定轮数后,在验证集上评估F1-score和精确率,选择最优模型。

在测试集上评估最终模型,得到各个招投标字段的抽取效果。

可在此基础上继续优化,如添加 dropout 等正则化手段,使用更大的 BERT 模型等。

这样就可以利用 a BERT-wwm-ext模型和招投标字段标注数据,构建一个招投标字段解析的Transformer模型。利用大规模中文预训练模型带来的语义表达能力,并在此基础上微调,可以取得不错的效果。

Claude-instant 方案4

在这里插入图片描述

可以按下述步骤在一个中文BERT等大模型上搭建招投标字段解析模型:

准备招投标公告数据,每个公告同时标注了公告主要内容及其对应的招投标字段。公告主内容和招投标字段对应关系作为训练集数据。

选择一个大中文模型,比如BERT,RoBERTa等作为基础模型。可能需要微调基础模型的前几层,以适应下游的任务。

在基础模型的最后一层添加招投标任务的输出层。输出层包含所有招投标字段的标记(比如投标人、资格审查、现场评标等),每个标记对应一个需要预测的精度值。

训练数据进行 DataLoader 处理,通过 dataloader 进行模型训练。损失为交叉熵损失。

在测试数据上展开训练好的模型,针对每条公告主内容,模型会同时输出所有的招投标标记对应的精度预测值。

根据预测结果和真实标注,计算各个招投标标记的准确率,判断模型的性能。

根据实际需求,可以对模型进行优化调参,提高精度。也可以考虑将其他特征(比如公告属性、位置特征等)加入模型,可能进一步提高效果。

结合具体数据和模型,上述流程即可搭建一个招投标公告字段解析的 Transformer 模型。模型的精度由训练数据的充分性、基础模型的选择及trained参数的优化调整决定。

文心一言方案5

在这里插入图片描述

要在一个中文大模型上加入招投标字段标注的数据,并搭建一个招投标字段解析的Transformer模型,可以按照以下步骤进行:

数据预处理:首先需要对招投标数据进行预处理,包括数据清洗、格式转换和特征提取等。可以使用中文分词、词性标注、命名实体识别等技术来提取数据中的关键特征。
特征工程:将提取的特征进行归一化、去除异常值和缺失值等处理,以提高模型的性能和鲁棒性。
模型训练:使用预训练的Transformer模型进行训练,可以使用已有的预训练模型,如BERT、XLNet等,也可以自己构建一个预训练模型。
模型预测:使用训练好的模型对新的招投标数据进行预测,可以使用预测结果来进行下一步的分析和决策。
需要注意的是,在实际应用中,还需要考虑数据的安全性和隐私保护问题,以及模型的可解释性和可扩展性等问题。此外,还需要对模型进行调参和优化,以提高模型的性能和鲁棒性。

Bard 方案6

在这里插入图片描述
将投标字段标记的数据添加到大型中文模型中,构建投标字段解析的Transformer模型,可以按照以下步骤进行:

收集文本和投标字段的数据集。数据集应该足够大,以便有效地训练模型。

预处理数据。这包括标记文本、标记投标字段和删除停止词。

对数据集上的大型中文模型进行微调。这可以通过一种叫做迁移学习的技术来实现。

在固定测试集上评估模型。这将帮助您确定模型在未见过的数据上的表现。

以下是关于每一步的一些额外细节:

  1. 收集文本和投标字段的数据集

文本和竞价字段的数据集可以从各种来源收集,例如:

在线拍卖网站

政府采购网站

私人招标平台

在收集数据时,重要的是要确保文本和投标字段被准确标记。这可以通过手动标记数据或使用机器学习模型自动标记数据来完成。

  1. 数据预处理

一旦收集了数据集,在训练模型之前对数据进行预处理是很重要的。这包括标记文本、标记投标字段和删除停止词。

标记化是将文本分解为单个单词或标记的过程。这对于模型理解文本的含义是必要的。

标记投标字段是在文本中识别特定投标字段的过程。这对于模型学习如何解析竞标字段非常重要。

删除停止词是从文本中删除常用词的过程。这样做是为了提高模型的性能。

3.在数据集上对大型中文模型进行微调

数据经过预处理后,是时候对数据集上的大型中文模型进行微调了。这可以通过一种叫做迁移学习的技术来实现。

迁移学习是一种技术,它允许你使用一个预先训练好的模型来训练一个不同任务的新模型。在本例中,您将使用大型中文模型来训练用于竞标字段解析的模型。

对模型进行微调的过程相对简单。您只需要向模型提供训练数据,模型将学习解析竞标字段。

  1. 在固定测试集上评估模型

一旦对模型进行了微调,在一个固定测试集上评估模型是很重要的。这将帮助您确定模型在未见过的数据上的表现。

hold -out测试集应该是一组未用于训练模型的文本和竞标字段。该模型应该能够以较高的准确率解析出hold out测试集中的投标字段。

如果模型在持久化测试集中表现不佳,则可能需要收集更多数据或进一步微调模型。

我希望这对你有帮助!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/448904.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux应用编程(进程)

一、进程与程序 注册进程终止处理函数 atexit() #include <stdlib.h> int atexit(void (*function)(void));使用该函数需要包含头文件<stdlib.h>。 函数参数和返回值含义如下&#xff1a; function&#xff1a;函数指针&#xff0c;指向注册的函数&#xff0c;此…

使用S3协议通过dfs实现Spring的SPI机制和spring.factories

目录 参考一、SPI机制1、什么是SPI2、使用场景&#xff1f;3、使用介绍4、代码演示新建工程edevp-dfs-api的spi接口新建阿里云oss实现类新建minio实现类新建测试工程edevp-demo测试 5、总结优点&#xff1a;解耦缺点&#xff1a; 二、Spring Boot的扩展机制之Spring Factories1…

MathType7最新版本下载安装与使用,注册表文件分享,添加为Word公式插件

wx供重浩&#xff1a;创享日记 对话框发送&#xff1a;mathtype 免费获取MathType7安装包注册表文件 MathType是强大的数学公式编辑器&#xff0c;与常见的文字处理软件和演示程序配合使用&#xff0c;能够在各种文档中加入复杂的数学公式和符号&#xff0c;可用在编辑数学试卷…

【回忆 总结】我的大学四年

大学四年关键词速览 如果穿越回大一&#xff0c;你想对大一的你提什么最重要的建议&#xff1f;同样是上网课&#xff0c;我为何能比大多数同学学的更好&#xff1f;回到学校&#xff0c;我的大二似乎一帆风顺&#xff1f;在不断的迷茫和徘徊中&#xff0c;大三的我做出的决定&…

Vue开发过程中那些易混淆的知识点

vue & vue cli Vue CLI Vue 一堆的js插件Vue CLI是基于 Node.js 开发出来的工具&#xff0c;它是一个官方发布 vue.js 项目脚手架&#xff0c;可以快速搭建 Vue 开发环境以及对应的 webpack 配置&#xff0c;单独编译&#xff0c;单独部署。可以再集成各种第三方插件&am…

偏好强化学习概述

文章目录 为什么需要了解偏好强化学习什么是偏好强化学习基于偏好的马尔科夫决策过程&#xff08;Markov decision processes with preferences&#xff0c;MDPP&#xff09; 反馈类型分类学习算法分类近似策略分布(Approximating the Policy Distribution)比较和排序策略(Comp…

STATS 782 - R Basic Concepts

文章目录 前言一、R basic1. R Operator2. 变量赋值3. c() - combine 函数4. 对向量的操作5. Special Numerical Values 二、 Built-in Functions1. min, max and range2. sum and prod3. Cumulative Summaries4. paste5. list&#xff08;&#xff09;6. seq&#xff08;&…

【Unity VR开发】结合VRTK4.0:添加遮蔽追踪器

语录&#xff1a; 恋爱应该是双方扶持对方共同完成自己的目标&#xff0c;而不是虚幻的思想、肤浅的物质、和纸醉金迷的生活。 前言&#xff1a; 遮蔽追踪器&#xff08;Trackers.ObscuranceTracker&#xff09;是基于游戏对象存在或不可见之间切换对象的状态&#xff0c;从而遮…

SpringBoot 通过AOP + Redis 防止表单重复提交

Spring Boot是一个用于构建Web应用程序的框架&#xff0c;通过AOP可以实现防止表单重复提交。在这篇博客中&#xff0c;我将介绍如何使用AOP来防止表单重复提交。 配置Redis 1. 添加Redis依赖 <dependency><groupId>org.springframework.boot</groupId>&…

【Python爬虫项目实战二】Chatgpt还原验证算法-解密某宝伪知网数据接口

目录 🐱背景🐱工具🐱分析流程🐔登陆分析🐔检索分析🐔模拟HTML代码请求🐔 解析HTML🐔 再次分析🐟分析js算法🐟 拿下furl🐟拿下sfname🐟拿下sfname🐔 构造请求🐔再次瓶颈🐔分析cookie🐟 成功演示🐱总结

【历史上的今天】3 月 24 日:苹果推出 Mac OS X;微软前任 CEO 出生;Spring 1.0 正式发布

整理 | 王启隆 透过「历史上的今天」&#xff0c;从过去看未来&#xff0c;从现在亦可以改变未来。 今天是 2023 年 3 月 24 日&#xff0c;在 2016 年的今天&#xff0c;暴雪娱乐公司发布了第一人称射击多人游戏《守望先锋》。根据评分汇总网站 Metacritic 的统计&#xff0c…

新形势新政策下建企分包分供管理模式优化探索

通过建筑工程分包的模式&#xff0c;总包商可以有效地扬长避短&#xff0c;选择最有优势的分包企业&#xff0c;提高资源的使用效率&#xff0c;有利于在激烈的市场竞争中取得一席之地。当前&#xff0c;国内建筑市场工程分包总体运行情况良好&#xff0c;但还是存在着诸多阻碍…

Postcat 如何生成接口文档,2 分钟学会

Postcat 是一个强大的开源、跨平台&#xff08;Windows、Mac、Linux、Browsers...&#xff09;的 API 开发测试工具&#xff0c;支持 REST、Websocket 等协议&#xff08;即将支持 GraphQL、gRPC、TCP、UDP&#xff09;&#xff0c;帮助你加速完成 API 开发和测试工作。 作为代…

研读Rust圣经解析——Rust learn-12(智能指针)

研读Rust圣经解析——Rust learn-12&#xff08;智能指针&#xff09; 智能指针智能指针选择Box<T>使用场景创建Box使用Box在堆上存储递归类型数据解决 通过 Deref trait 将智能指针当作常规引用处理追踪指针的值创建自定义的智能指针&#xff08;*&#xff09; Deref隐式…

手把手实现一个lombok

手把手实现一个lombok 一、lombok原理 JSR269二、实现步骤1.工程与环境依赖注意细节 2.注解处理器3.注解4.jcTree 修改语法4.新建模块依赖我们这个jar包进行编译5.源码调试 一、lombok原理 JSR269 什么是JSR &#xff1f; JSR是Java Specification Requests的缩写&#xff0c…

python 神经网络回归

神经网络回归数据&#xff0c;21条&#xff0c;每条12个月&#xff0c;根据输入预测下一年 数据集&#xff1a; 下载链接 620906209062090620906209062090620906209062090620906209062090660936365969622628916949069597656066534455211622826735957783727886869762952670916…

【远程访问及控制】

目录 一、OpenSSH服务器1.1、SSH远程管理1.2、ssh服务器的端口1.3、修改端口号1.4、设置用户登录 二、实验2.1、设置白名单2.2、设置黑名单 三、sshd 服务支持两种验证方式:3.1、密码验证3.2、密钥对验证公钥和私钥的关系&#xff1a; 四、使用SSH客户端程序4.1、ssh 远程登录4…

java项目之疫情网课管理系统(springboot+vue源码)

风定落花生&#xff0c;歌声逐流水&#xff0c;大家好我是风歌&#xff0c;混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的疫情网课管理系统。项目源码以及部署相关请联系风歌&#xff0c;文末附上联系信息 。 &#x1f495;&#x1f495;作者&#xff1a;风…

Java集合框架(Collection)

集合框架 一个Java对象可以在内部持有若干其他Java对象&#xff0c;并对外提供访问接口&#xff0c;把这种Java对象称为集合 集合框架都包含三大块内容&#xff1a;&#xff08;接口、实现、算法&#xff09; &#xff08;1&#xff09;对外的接口 &#xff08;2&#xff09;…

【C++】string类的简单模拟实现

目录 string类初识 string模拟实现 string类成员变量 构造函数 拷贝构造 赋值运算符重载 析构函数 深浅拷贝问题 string类初识 由于C语言中的字符串不太符合OOP(面向对象编程)的思想&#xff0c;而且其底层空间需要用户自己管理&#xff0c;经常有访问越界的情况出现。…