什么是 OCR?
OCR(光学字符识别)实际上是文本识别。它是一种软件过程,可从非文本格式的文档中识别和提取文本,例如图像(JPG、PNG、BMP 等)和 PDF。它具有“阅读”图像中的文本的能力,即将单词的图像转换为其实际的文本字符。这允许用户轻松复制或编辑文档中的原始文本,而不必手动转录文本。
光学字符识别是如何工作的?
光学字符识别通常通过对图像进行去饱和和对比来对图像进行预处理,以优化暗区和亮区之间的对比度。因此,所有黑色的都被视为字符,而白色的则被视为这些字符的背景。然后使用模式识别算法和包括特征检测在内的其他方法来识别图像中文本的视觉结构:从段落到行、句子、单词等一直到单个字符。这些过程现在经常使用人工智能,它可以通过练习数千张带有不同字体、大小和语言的文本的图像来学习识别图像中的文本。
使用 OCR 有什么好处?
使用光学字符识别的优势显然是它节省了将图像中的文本数字化的时间。比较手动从书中重新键入文本到扫描书籍并使用可以在几秒钟内提取文本的 OCR 软件处理扫描所需的时间。
我们如何处理您的文件
您选择的文件将通过 Internet 发送到我们的服务器,以便对其执行 OCR。
转换完成或失败后,发送到我们服务器的文件会立即删除。
发送文件和下载从这些文件中提取的文本时使用 HTTPS 加密。
这个在线应用程序完全基于您的网络浏览器,无需安装软件。
您可以根据需要多次使用此免费应用程序,无需注册。
它适用于任何具有网络浏览器的设备,包括手机、平板电脑和台式电脑。