深度学习数据集—文本、数字、文字识别大合集

news2025/4/13 22:25:56

最近收集了一大波关于文本、数字识别相关的数据集，有数字识别、也有语言文字识别，废话不多说现在分享给大家！！

1、500张手写拼音数据集

500张手写拼音数据集，包含对应txt格式标注及图片，，并提供lmdb数据格式转换脚本。

数据获取地址：https://www.dilitanxianjia.com/2540/

2、大规模金融领域中文语义解析数据集

数据集采用金融领域的表格作为数据源，涵盖了基金的产品和属性，选手需要构建模型将用户的自然语言问句转换成结构化查询语句（Structured Query Language, SQL）。AntSQL数据集由蚂蚁财富提供，由阿里云天池平台承办，旨在推动金融领域中文NLP技术和社区的健康发展，促进数字金融领域的交叉学科研究，服务数字经济健康发展的国家战略需求。

数据获取地址：https://www.dilitanxianjia.com/2492/

3、中文对联数据集

中文对联数据集，该对联数据集共包含 70 余万条对联数据，按字切分，并分为训练数据集、测试数据集以及一份词汇表。其中，训练数据集、测试数据集分别分为上联和下联两部分。

数据获取地址：https://www.dilitanxianjia.com/2462/

4、符号图像数据集

符号图像数据集，该数据集共包含1363个图像文件，其中JPEG文件1361个，PNG文件2个。这些图像代表了英语和斯堪的纳维亚字母表中的29个字母，包括字母A-Z以及字母æ， ø和å。该数据集可用于各种机器学习任务，如图像分类和字符识别。

数据获取地址：https://www.dilitanxianjia.com/2435/5

5、12万个俄罗斯笑话数据集

12万个俄罗斯笑话数据集

数据获取地址：https://www.dilitanxianjia.com/2085/

6、几何形状分类数据集

几何形状分类数据集，数据集由3个数据类组成，每个类代表一种几何形状(三角形、正方形和圆形)。每个类由10000张生成的图像组成。

数据获取地址：https://www.dilitanxianjia.com/2066/

7、带有数字的页面图片数据集

带有数字的页面图片数据集，共10张手写阿拉伯数字图片

数据获取地址：https://www.dilitanxianjia.com/1992/

8、10000张字符文件识别数据集

10000张字符文件识别数据集，这些图像还包含字母(A-Z)、数字(0-9)和特殊字符(例如#)

数据获取地址：https://www.dilitanxianjia.com/1989/

9、各种字体的数字数据集

各种字体的数字数据集，不考虑字体规则的情况下识别数字。

数据获取地址：https://www.dilitanxianjia.com/1716/

10、手写数字和英文字符，数据集

手写数字和英文字符，数据集包含5个CSV文件datasetphanum、datasetchars、datasettemnist和datasetmnist，分别包括字母数字、字母、emnist手写字母和数字。datasetfinal是包含上述所有数据集的合并文件。图像的灰度为(28,28)，存储在数据集的784列中。最后一列包含标签。

数据获取地址：https://www.dilitanxianjia.com/1713/

11、20个不同类别的中文新闻数据集

复旦大学新闻分类数据集，20个不同类别的中文新闻数据集，train文件夹下的文件是培训文件(共9804段)。答案文件夹下的文件是用于测试的(共9833段)。有20个不同的类别。

数据获取地址：https://www.dilitanxianjia.com/1710/

12、甲骨文图片数据集

甲骨文图片数据集

数据获取地址：https://www.dilitanxianjia.com/1199/

13、古波斯语楔形文字字体数据集

古波斯语楔形文字字体数据集，选择了开源的Tesseract引擎进行字符的分割、学习和分类。由于铭文中存在噪声(石缝)，本文采用了一些图像处理技术来消除噪声。该系统的最终输出包括楔形字体的提取，句子的波斯语和英语的抄写，句子的发音和翻译大量提取的波斯语和英语单词，使我们更好地了解他们在那个时代的说话方式。通过验证和结果切片获得的结果表明，该系统能够较好地处理楔形文字的识别，对测试数据的所有字符进行了较好的分类，准确率约为92%。

数据获取地址：https://www.dilitanxianjia.com/1196/