免费开源的高精度OCR文本提取,支持 100 多种语言、自动文本定位和脚本检测,几行代码即可实现离线使用(附源码)。
要从图像、照片中提取文本吗?是否刚刚拍了讲义的照片并想将其转换为文本?那么您将需要一个可以通过 OCR(光学字符识别)识别文本的应用程序。
图片文字识别依据的是文字识别原理,通过对文字的亮暗检测,并且与字符库进行对比,从而判断是哪个文字。并作输出。该软件基于开放式的XML数据结构,可以对数据进行扩充和再定义。支持第三方开发厂商方便地进行文档数据的转换、迁移和再利用。OCR图片文字识别软件采用UNICODE国际编码标准。系统可在一个统一的平台下,同时处理包括中文、日文、韩文、英文在内的多种文字的识别和校对修改。
图片文字识别的中文识别率达99.8%以上。日文、英文、韩文的识别率也高居世界水平。图片文字识别还有一个很重要的特点:版面还原,支持字体、字号、版面位置、字体颜色等,可以让信息以原版的状态呈现。这对于报刊、图书、杂志等文档的识别具有很重要的意义。
Tesseract.js 是一个 javascript 库,可以从图像中获取几乎任何语言的文字。它将原始的 Tesseract 从 C 编译为 JavaScript WebAssembly,从而使 OCR 可以在浏览器中访问。Tesseract.js 引擎最初是用 ASM.js 编写的,后来移植到 WebAssemblyÿ