注意,本文只提供学习的思路,严禁违反法律以及破坏信息系统等行为,本文只提供思路
如有侵犯,请联系作者下架
该文章模型已经上线ocr识别网站,欢迎测试!!,地址:http://yxlocr.nat300.top/ocr/textclick/5
某网站使用顶象的生僻字点选模型,部分数据集如下:
这种数据集对于训练而言,还是照常的分类,问题在于打码的难度,该网站初步统计,生僻字占到2k多个,但是没有办法,生僻字还是要照常打码,但是如果对于全部的生僻字都去打码一定的数据集,那么打码的成本会高很多,所以可以采用真实数据集混生成数据集去训练,虽然准确率会降低一点点,但是打码的成本大大降低,这里,我使用了二十多个字体