深度学习数据集—文本、数字、文字识别大合集

news2024/11/16 11:24:32

最近收集了一大波关于文本、数字识别相关的数据集,有数字识别、也有语言文字识别,废话不多说现在分享给大家!!

1、500张手写拼音数据集

500张手写拼音数据集,包含对应txt格式标注及图片,,并提供lmdb数据格式转换脚本。

数据获取地址:https://www.dilitanxianjia.com/2540/

2、大规模金融领域中文语义解析数据集

数据集采用金融领域的表格作为数据源,涵盖了基金的产品和属性,选手需要构建模型将用户的自然语言问句转换成结构化查询语句(Structured Query Language, SQL)。AntSQL数据集由蚂蚁财富提供,由阿里云天池平台承办,旨在推动金融领域中文NLP技术和社区的健康发展,促进数字金融领域的交叉学科研究,服务数字经济健康发展的国家战略需求。

数据获取地址:https://www.dilitanxianjia.com/2492/

3、中文对联数据集

中文对联数据集,该对联数据集共包含 70 余万条对联数据,按字切分,并分为训练数据集、测试数据集以及一份词汇表。其中,训练数据集、测试数据集分别分为上联和下联两部分。

数据获取地址:https://www.dilitanxianjia.com/2462/

4、符号图像数据集

符号图像数据集,该数据集共包含1363个图像文件,其中JPEG文件1361个,PNG文件2个。这些图像代表了英语和斯堪的纳维亚字母表中的29个字母,包括字母A-Z以及字母æ, ø和å。该数据集可用于各种机器学习任务,如图像分类和字符识别。

数据获取地址:https://www.dilitanxianjia.com/2435/5

5、12万个俄罗斯笑话数据集

12万个俄罗斯笑话数据集

数据获取地址:https://www.dilitanxianjia.com/2085/

6、几何形状分类数据集

几何形状分类数据集,数据集由3个数据类组成,每个类代表一种几何形状(三角形、正方形和圆形)。每个类由10000张生成的图像组成。

数据获取地址:https://www.dilitanxianjia.com/2066/

7、带有数字的页面图片数据集

带有数字的页面图片数据集,共10张手写阿拉伯数字图片

数据获取地址:https://www.dilitanxianjia.com/1992/

8、10000张字符文件识别数据集

10000张字符文件识别数据集,这些图像还包含字母(A-Z)、数字(0-9)和特殊字符(例如#)

数据获取地址:https://www.dilitanxianjia.com/1989/

9、各种字体的数字数据集

各种字体的数字数据集,不考虑字体规则的情况下识别数字。

数据获取地址:https://www.dilitanxianjia.com/1716/

10、手写数字和英文字符,数据集

手写数字和英文字符,数据集包含5个CSV文件datasetphanum、datasetchars、datasettemnist和datasetmnist,分别包括字母数字、字母、emnist手写字母和数字。datasetfinal是包含上述所有数据集的合并文件。图像的灰度为(28,28),存储在数据集的784列中。最后一列包含标签。

数据获取地址:https://www.dilitanxianjia.com/1713/

11、20个不同类别的中文新闻数据集

复旦大学新闻分类数据集,20个不同类别的中文新闻数据集,train文件夹下的文件是培训文件(共9804段)。答案文件夹下的文件是用于测试的(共9833段)。有20个不同的类别。

数据获取地址:https://www.dilitanxianjia.com/1710/

12、甲骨文图片数据集

甲骨文图片数据集

数据获取地址:https://www.dilitanxianjia.com/1199/

13、古波斯语楔形文字字体数据集

古波斯语楔形文字字体数据集,选择了开源的Tesseract引擎进行字符的分割、学习和分类。由于铭文中存在噪声(石缝),本文采用了一些图像处理技术来消除噪声。该系统的最终输出包括楔形字体的提取,句子的波斯语和英语的抄写,句子的发音和翻译大量提取的波斯语和英语单词,使我们更好地了解他们在那个时代的说话方式。通过验证和结果切片获得的结果表明,该系统能够较好地处理楔形文字的识别,对测试数据的所有字符进行了较好的分类,准确率约为92%。

数据获取地址:https://www.dilitanxianjia.com/1196/

14、手写体数字从0到9图像数据集

手写体数字从0到9图像数据集,此数据集包含200张手写体数字图像。所有的数字都是作者在白纸上手写的,然后用智能手机相机拍摄。拍完照片后,额外的白色区域被裁剪。

数据获取地址:https://www.dilitanxianjia.com/1192/

15、俄语手写信件数据集

俄语手写信件数据集,该数据集包括一个文件夹,共有14190张PNG格式的俄文手写信件图片,便于使用CNN对手写信件进行分类。

数据获取地址:https://www.dilitanxianjia.com/1188/

16、发票信息识别数据集

发票信息识别数据集,数据集由XML文件和图像组成。XML文件包含从发票图像中提取的数据,为了清晰起见,文本和XML文件的名称保持相同。数据集的用户应该提取发票号、发票数据、公司名称(从公司1到公司2的发票)、公司电话号码、地址等实体。

数据获取地址:https://www.dilitanxianjia.com/1182/

17、梵文字符数据集

梵文字符数据集,CSV文件的尺寸为92000 1025。有1024个输入特征的像素值在灰度(0到255)。“字符”列表示与每个图像对应的梵文字符名。

数据获取地址:https://www.dilitanxianjia.com/1179/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1222931.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C/C++ 运用VMI接口查询系统信息

Windows Management Instrumentation(WMI)是一种用于管理和监视Windows操作系统的框架。它为开发人员、系统管理员和自动化工具提供了一种标准的接口,通过这个接口,可以获取有关计算机系统硬件、操作系统和应用程序的信息&#xf…

LLM大模型量化原理

大型语言模型(LLM)可以用于文本生成、翻译、问答任务等。但是,LLM 也非常大(显然,大型语言模型)并且需要大量内存。 这对于手机和平板电脑等小型设备来说可能具有挑战性。 可以将参数乘以所选的精度大小以…

手撕单链表(C语言)

目录 1.单链表的物理结构 2.头文件的实现 3.SList.c文件的实现 3.1尾插、创建节点 3.2打印 3.3头插 3.4尾删 3.5头删 3.6查找 3.7指定位置之前插入数据 3.8指定位置之后插入数据 3.9删除指定位置节点 3.10删除pos之后的节点 3.11销毁链表 4 所有的代码 1.单链表的物理结构 众所…

6.8完全二叉树的节点个数(LC222-E)

算法: 如果不考虑完全二叉树的特性,直接把完全二叉树当作普通二叉树求节点数,其实也很简单。 递归法: 用什么顺序遍历都可以。 比如后序遍历(LRV):不断遍历左右子树的节点数,最后…

小程序授权获取昵称

wxml: <form bindsubmit"formsubmit"><view style"width: 90%;display: flex;margin-left: 5%;"><view class"text1">昵称&#xff1a;</view><input style"width: 150px;margin-left: 30px;margin-top: 30px;…

【论文阅读笔记】Supervised Contrastive Learning

【论文阅读笔记】Supervised Contrastive Learning 摘要 自监督批次对比方法扩展到完全监督的环境中&#xff0c;以有效利用标签信息提出两种监督对比损失的可能版本 介绍 交叉熵损失函数的不足之处&#xff0c;对噪声标签的不鲁棒性和可能导致交叉的边际&#xff0c;降低了…

face_recognition:高准确率、简单易用的人脸识别库 | 开源日报 No.79

ageitgey/face_recognition Stars: 49.8k License: MIT 这个项目是一个使用 Python 编写的人脸识别库&#xff0c;可以从图片中识别和操作人脸。它基于 dlib 开发&#xff0c;并采用深度学习技术构建了最先进的人脸识别模型&#xff0c;在 Labeled Faces in the Wild 数据集上…

Redis(消息队列Stream)

Stream是一个轻量级的消息队列。 Redis中Stream的作用是提供一种高效的消息传递机制&#xff0c;允许多个消费者并行地消费消息&#xff0c;并且不会重复消费已经处理过的消息。它可以用于实现分布式任务队列、日志收集、实时数据处理等场景。Redis中的Stream支持多个消费者组…

【LeetCode刷题-滑动窗口】--992.K个不同整数的子数组

992.K个不同整数的子数组 思路&#xff1a; class Solution {public int subarraysWithKDistinct(int[] nums, int k) {return atMostKDistinct(nums,k) - atMostKDistinct(nums,k-1);}//最多包含K个不同整数的子区间个数private int atMostKDistinct(int[] a,int k){int len …

PS学习笔记——新建文档/修改文档

文章目录 新建文档文档属性像素/分辨率颜色模式背景内容高级选项存储预设 修改文档 新建文档 方法一&#xff1a;ctrlN快捷键可直接打开新建文档界面 方法二&#xff1a;点击菜单栏中 文件->新建&#xff0c;即可打开新建文档界面 文档参数可按需调节(标题可以提前设定或者…

反激变压器计算方法_笔记

反激变压器计算方法_笔记 匝数比原边电感选定磁芯线圈匝数线径 原视频链接 匝数比 5V 是想要得到的输出电压 0.7V为二极管导通的压降 185Vx根号2是有效值 最大占空比取0.4。得出最小匝数为30。 更改某些值可能得出来的匝数比就不一定是30了&#xff0c; 这其实也是反激变压器…

mac苹果电脑需要安装杀毒软件吗?

随着数字时代的发展&#xff0c;计算机安全问题变得越来越重要。而在计算机安全领域中&#xff0c;杀毒软件是一个被广泛讨论的话题。苹果电脑需要安装杀毒软件吗&#xff1f;对于苹果电脑用户来说&#xff0c;他们常常会疑惑自己是否需要安装杀毒软件来保护自己的电脑。本文将…

力扣每日一题-数位和相等数对的最大和-2023.11.18

力扣每日一题&#xff1a;数位和相等数对的最大和 开篇 这道每日一题还是挺需要思考的&#xff0c;我绕晕了好久&#xff0c;根据题解的提示才写出来。 题目链接:2342.数位和相等数对的最大和 题目描述 代码思路 1.创建一个数组存储每个数位的数的最大值&#xff0c;创建一…

kubernetes学习笔记-概念

参考&#xff1a;https://kubernetes.io/zh-cn/docs/concepts/overview/ 概述 Kubernetes 是一个可移植、可扩展的开源平台&#xff0c;用于管理容器化的工作负载和服务&#xff0c;可促进声明式配置和自动化。 Kubernetes 拥有一个庞大且快速增长的生态&#xff0c;其服务、…

【Linux】C文件系统详解(二)——什么是fd文件描述符以及理解“一切皆文件“

文章目录 fd-文件描述符如何深度理解"一切皆文件"**我们使用OS的本质:**FILEFILE是什么?谁提供的?和我们刚刚讲的内核的struct有关系吗FILE是一个结构体.该结构体内部一定要有以下字段:FILE是C语言标准库提供的.FILE和我们刚刚讲的内核的struct没有关系,最多就是上…

医院绩效考核系统源码 医院绩效考核系统方案

医院绩效考核系统源码 医院绩效考核系统是现代医院管理的重要方法和科学的管理工具。良好的绩效管理&#xff0c;有助于带动全院职工的工作积极性&#xff0c;有助于提高工作效率、提高医疗质量、改善服务水平、降低运营成本&#xff0c;全面提升医院的精细化管理水平。 医院绩…

不允许你还没有了解哈希表、哈希桶、哈希冲突的解决,如何避免冲突

✏️✏️✏️今天给各位带来的是哈希桶、哈希冲突方面的知识。 清风的CSDN博客 &#x1f61b;&#x1f61b;&#x1f61b;希望我的文章能对你有所帮助&#xff0c;有不足的地方还请各位看官多多指教&#xff0c;大家一起学习交流&#xff01; 动动你们发财的小手&#xff0c;点…

springMVC学习笔记-请求映射,参数绑定,响应,restful,响应状态码,springMVC拦截器

目录 概述 springMVC做了什么 springMVC与struts2区别 springMVC整个流程是一个单向闭环 springMVC具体的处理流程 springMVC的组成部分 请求映射 RequestMapping 用法 属性 1.value 2.method GET方式和POST方式 概述 HTTP给GET和POST做了哪些规定 GET方式&…

IDEO也不行了吗?设计正在变革#实时设计

2023 年 8 月&#xff0c;在与宜家品牌合作近 10 年之后&#xff0c;SPACE10 关门了。 最近&#xff0c;IDEO&#xff0c;设计思维的早期倡导者和践行者&#xff0c;宣布裁员1/3。 介绍下这两家设计公司&#xff1a; SPACE10 由宜家全额资助&#xff0c;于 2015 年落户哥本哈根…

生成式AI模型量化简明教程

在不断发展的人工智能领域&#xff0c;生成式AI无疑已成为创新的基石。 这些先进的模型&#xff0c;无论是用于创作艺术、生成文本还是增强医学成像&#xff0c;都以产生非常逼真和创造性的输出而闻名。 然而&#xff0c;生成式AI的力量是有代价的—模型大小和计算要求。 随着生…