打造自己的RAG解析大模型:(新技能)企业垂类数据标注(一)

news2024/11/13 4:09:12

在上一篇文章中,我们以通用版面分析服务为例,展示了从模型发布到API集成的完整流程。如果你成功完成了这些步骤,值得庆祝!这不仅意味着你已成功安装PaddleX,还掌握了利用它发布OCR和目标检测等大模型服务的能力,这离创建属于你的RAG解析平台仅一步之遥。现在,你已经拥有百度飞桨提供的通用开源模型部署能力,可以满足一些基础需求。然而,要进一步满足企业的特定需求,还需要对行业数据进行标注,并利用这些数据集进行模型训练,从而打造适用于垂直领域的定制化模型。这种垂类模型能够深入挖掘企业特定场景的信息,更精确地服务于业务目标,最终带来更大的应用价值。

工欲善其事,必先利其器

正如古语所言:“工欲善其事,必先利其器。”想要高效、准确地标注优质的垂类数据集,选择一款合适的标注工具至关重要。在下文中,我将介绍几款开源标注工具,这些工具都经过我的亲身体验,适合处理不同的标注需求。我会详细讲解每款工具的主要功能、支持的标注类型,以及它们在特定场景中的优势,以帮助你找到最合适的标注工具,为高质量的数据集奠定坚实基础。

PPOCRLabelv2

PPOCRLabel 是一款专为 OCR 任务设计的半自动化图像标注工具,能够大大提高标注效率。它集成了 PP-OCR 模型,可自动标注文本区域并重新识别,帮助用户快速完成标注工作。该工具由 Python3 和 PyQT5 编写,导出的数据格式可直接用于 PaddleOCR 的模型训练。

支持标签图形:

  • 矩形框
  • 正方形框
  • 多点框

支持的标注场景:

  • 表格
  • 版面
  • 不规则文本
  • 关键信息

数据导出格式:

  • COCO
  • Paddle Table格式
  • Json

启动后界面:

在这里插入图片描述

表格标注示意图:

图片

开源地址:

https://github.com/PFCCLab/PPOCRLabel

Labelme

LabelMe 是一款为计算机视觉研究设计的图像标注工具,提供 Web 和 GUI 两种界面模式,满足不同场景需求。Web 界面支持多人协作标注,适合团队项目和分布式任务,便于数据共享和进度跟踪;而 GUI 界面更适合单人使用,提供直观的交互体验,非常适合经验丰富的独立标注者。

支持标签图形:

  • 矩形框
  • 正方形框
  • 多点框

支持的标注场景:

  • 表格
  • 版面
  • 不规则文本
  • 关键信息

数据导出格式:

  • COCO
  • VOC

启动后界面:

在这里插入图片描述

实例分割示意图:

在这里插入图片描述

开源地址:

https://github.com/wkentaro/labelme

Label Studio

Label Studio 是一款功能丰富的开源数据标注工具,提供基于 Web 的界面,支持多人协作,适合团队在同一平台上管理多个项目和用户。它不仅支持多种数据类型(如文本、图像、音频、视频),还提供丰富的标注模板,能够满足从简单标注到复杂任务的需求。对于需要灵活处理多种数据类型的团队来说,Label Studio 提供了高效的解决方案,有助于提升标注工作流的规范性和效率。

支持标签图形:

  • 矩形框
  • 正方形框
  • 多点框

支持的标注场景:

  • 表格
  • 版面
  • 不规则文本
  • 关键信息

数据导出格式:

  • COCO
  • VOC

启动界面:

在这里插入图片描述

示意图:

在这里插入图片描述

项目管理示意图(上图)

在这里插入图片描述

数据管理器(上图)

在这里插入图片描述

整体说明(上图)

Label Studio支持多账号管理,支持分组标注,可以根据自己的项目来建立标注分组,多人同时标注。

开源地址:

https://github.com/HumanSignal/label-studio/

展望

以上介绍的开源标注工具如 PPOCRLabel、LabelMe 和 Label Studio 都各具特色,适用于不同的标注需求。当然,开源社区中还有其他工具同样优秀,如 VoTT、labelImg、roLabelImg,用户可根据具体需求选择。我们列出了这些工具的开源地址,供大家自行探索。后续会专门探讨不同场景下如何选择合适的工具以及相应的标注技巧,如文字检测、版面分析、表格、关系识别等。高质量的标注数据对模型精度至关重要,是构建高性能 OCR 和目标检测模型的关键一步。随着对数据标注需求的增加,掌握标注技能不仅有助于个人技术成长,也具有很强的市场应用前景。希望后续文章能够帮助大家掌握这一实用技能。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

下面这些都是我当初辛苦整理和花钱购买的资料,现在我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2228233.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于vue框架的的驾校练习时段预约系统z94u5(程序+源码+数据库+调试部署+开发环境)文末可获取,系统界面在最后面。

系统程序文件列表 项目功能:用户,驾校教练,车辆信息,训练场,教练预约,时间段,预约取消,学员签到,学员签退 开题报告内容 基于Vue框架的驾校练习时段预约系统开题报告 一、研究背景与意义 随着汽车保有量的持续增长,驾驶培训需求日益旺盛。然而&#…

技术干货|热门仿真工具HyperWorks 的二次开发与 Python 结合,重构仿真新体验

目前市面上有许多热门仿真软件,其中HyperWorks是各大企业最常用的。目前HyperWorks发布了 2024 新版本,已经全面支持Python作为二次开发接口,对Python的支持已经在架构中引入了相应的模块,基本是百分百覆盖。借助Python本身的优势…

2022NOIP比赛总结

种花 1.本题是一道前缀和优化加上枚举的问题。先考虑 C 因为 F 是 C 下边随便加一个点,所以只要求出 C 就求出了 F 。 注意到,并没有要求上下行一样,唯一的要求是 C 的两个横要隔一行,这就是问题的突破点,这题很明显…

《DIY项目之“一只眼狗链”》:视频方案

项目背景 《DIY项目之“一只眼狗链”》合集主要记录完成一个DIY项目的所有过程。该合集预计更新频率为2~3周一篇(同样属于一边做一边记录发布,时间上主要涉及PCB绘板、零部件采购、样品制作、编程等,存在一定的不可控性)。 当前项…

若依微服务15 - RuoYi-Vue3 实现前端独立运行

正文开始: RuoYi-Vue3 使用 Vue3 Element Plus Vite 技术栈。 GitHub 开源地址:https://github.com/yangzongzhuan/RuoYi-Vue3 本文介绍使用若依提供的在线后端接口,仅启动前端项目并进行界面开发,而无需启动后端服务。 一、克隆…

【ROS】详解ROS文件系统

参考:ROS入门笔记(七):详解ROS文件系统 - 少云清的文章 - 知乎 https://zhuanlan.zhihu.com/p/338042120 ROS文件目录 这里的软件包指的是src下的文件夹,因为在ROS下创建软件包的流程如下: 把软件包…

Unity游戏上传微信小游戏步骤

准备一个小程序账号,在首页设置服务类目为小游戏(需要新创建的小程序才能设置,之前设置过的不能更改为小游戏) AppID(小程序ID) 在网页左下角点击进入账号设置-基本设置 下拉找到小程序Id(后面用到) 点击进入下载微信开发者…

SAP 根据不同生产版本创建销售预测简介

SAP 根据不同生产版本创建销售预测简介 业务场景前台操作1、创建BOM2、创建工艺路线3、创建生产版本4、创建销售预测5、调整销售预测6、查看物料需求业务场景 很多工厂一个物料可能会存在多个BOM,当有多个BOM存在的情况下就会存在多个生产版本,当创建计划独立需求的时候,系…

【java batik_使用BATIK解析SVG生成PNG图片】

矢量图的介绍及应用场景 矢量图是什么意思? 矢量图,也称为向量图,英文名字是Vector graphics。 矢量图是一种基于矢量的图形,由一系列的线段和曲线组成。由数学公式和算法生成的。这意味着矢量图可以在任何分辨率下清晰地显示&…

浅谈钓鱼攻防之道-制作免杀excel文件钓鱼

如果我告诉你我很厉害,也许你会说我在吹牛。但是如果我告诉你我并不厉害,你肯定知道我在撒谎。 1、CSV注入之RCE CSV公式注入(CSV Injection)是一种会造成巨大影响的攻击向量,攻击这可以向Excel文件中注入可以输出或以CSV文件读取的恶意攻击…

Linux Shell 实现一键部署mariadb11.6

mariadb MariaDB数据库管理系统是MySQL的一个分支,主要由开源社区在维护,采用GPL授权许可 MariaDB的目的是完全兼容MySQL,包括API和命令行,使之能轻松成为MySQL的代替品。在存储引擎方面,使用XtraDB来代替MySQL的InnoDB。 MariaDB由MySQL的创始人Michael Widenius主导开发…

在 Elasticsearch 中顺利管理季节性时间变化

作者:来自 Elastic Valeriy Khakhutskyy, James Gowdy 用于 Elasticsearch 异常检测的新夏令时日历。 每年春季和秋季两次,许多国家/地区都会调整时钟以更好地利用日光。这些时钟调整不仅会带来时差和 “困倦的星期一” 的感觉,还会带来来自…

开源一套基于若依的wms仓库管理系统,支持lodop和网页打印入库单、出库单的源码

大家好,我是一颗甜苞谷,今天分享一款基于若依的wms仓库管理系统,支持lodop和网页打印入库单、出库单的源码。 前言 在当今快速发展的商业环境中,库存管理对于企业来说至关重要。然而,许多企业仍然依赖于传统的、手动…

C++ | Leetcode C++题解之第509题斐波那契数

题目&#xff1a; 题解&#xff1a; class Solution { public:int fib(int n) {if (n < 2) {return n;}vector<vector<int>> q{{1, 1}, {1, 0}};vector<vector<int>> res matrix_pow(q, n - 1);return res[0][0];}vector<vector<int>>…

「Mac畅玩鸿蒙与硬件12」鸿蒙UI组件篇2 - Image组件的使用

在鸿蒙应用开发中,Image 组件用于加载和显示图片资源,并提供多种属性来控制图片的显示效果和适配方式。本篇将带你学习如何在鸿蒙应用中加载本地和远程图片、设置图片样式以及实现简单的图片轮播功能。 关键词 Image 组件图片加载本地资源远程图片图片轮播一、Image 组件基础…

【CSS3】css开篇基础(5)

1.❤️❤️前言~&#x1f973;&#x1f389;&#x1f389;&#x1f389; Hello, Hello~ 亲爱的朋友们&#x1f44b;&#x1f44b;&#xff0c;这里是E绵绵呀✍️✍️。 如果你喜欢这篇文章&#xff0c;请别吝啬你的点赞❤️❤️和收藏&#x1f4d6;&#x1f4d6;。如果你对我的…

怎么将文件批量重命名001到100?6个超好用的方法汇总

怎么将文件批量重命名001到100&#xff1f;在日常工作和学习中&#xff0c;我们经常需要处理大量的文件。这些文件可能包括文档、图片、音频、视频等各种类型&#xff0c;而它们的命名往往各不相同&#xff0c;这给我们的查找工作带来了很大的困扰。为了提高查找效率&#xff0…

【运动的&足球】足球运动员球守门员裁判检测系统源码&数据集全套:改进yolo11-DBBNCSPELAN

改进yolo11-FocalModulation等200全套创新点大全&#xff1a;足球运动员球守门员裁判检测系统源码&#xff06;数据集全套 1.图片效果展示 项目来源 人工智能促进会 2024.10.28 注意&#xff1a;由于项目一直在更新迭代&#xff0c;上面“1.图片效果展示”和“2.视频效果展示…

Linux_02 Linux常用软件——vi、vim

vi编辑器有三种主要模式&#xff0c;每种模式的功能和用途不同&#xff1a; 一、命令模式 (Command Mode)&#xff1a; - 启动 vi 时默认进入此模式。 - 你可以在此模式下移动光标&#xff0c;输入各种命令&#xff08;如删除、复制、粘贴等&#xff09;。 yy&#xff1a;…

python 爬虫抓取百度热搜

实现思路&#xff1a; 第1步、在百度热搜页获取热搜元素 元素类名为category-wrap_iQLoo 即我们只需要获取类名category-wrap_为前缀的元素 第2步、编写python脚本实现爬虫 import requests from bs4 import BeautifulSoupurl https://top.baidu.com/board?tabrealtime he…