jTessBoxEditor2.0

    下载量:0    评分:8.0    更新时间:2023-09-04    大小:103.55 MB


软件介绍

jTessBoxEditor官方版是一款功能强大的Tesseract OCR的Box编辑工具。jTessBoxEditor最新版采用JAVA开发而来,可以帮助用户提高Tesseract-OCR文字识别准确率。通过jTessBoxEditor软件用户还进行能够持续的训练,操作简单,内置多种参数可以直接使用。

jTessBoxEditor

软件基础简介

双击JAR文件以启动程序,或执行以下命令:

java-Xms128m-Xmx1024m-jar jTessBoxEditor.jar

您需要提供TIFF/Box文件作为编辑器的输入。在训练中使用的图像应为300 DPI和1 bpp(每像素位数)黑白或8 bpp灰度,未压缩的TIFF格式;以UTF-8格式编码的box文件由具有适当命令行选项的Tesseract可执行文件生成(请参阅Tesseract Training Wiki)。或者它们都可以使用内置的TIFF/Box生成器创建。

Box View中提供了以下热键,以便于编辑:

W/S-向上/向下移动盒子;A/D-左/右移动框

Q/E-减小/增加箱宽;R/F-减小/增加箱子高度

-上一个/下一个框

X-在框中编辑字符

使用热键时按住Shift可将移动速度乘以10.编辑字符时按Enter或ESC可对框编辑器进行聚焦。

请注意,框文件中使用的坐标系在左下角有(0,0);但是,在计算机图形设备上,(0,0)被定义为左上角。jTessBoxEditor使用并显示在图形设备坐标中。编辑的盒子文件仍以适当的格式读取和写入。

对于给定输入UTF-8文本文件,生成器生成适合使用Tesseract进行训练的TIFF/Box文件对。根据启用的抗锯齿模式,生成的图像是具有300 DPI分辨率的二进制或灰度,未压缩的多页TIFF。可以调整字母跟踪或字符间距,以消除边界框重叠问题。请注意,某些框的坐标可能与Tesseract本身生成的坐标略有不同(1或2个像素);尽管如此,生成的box文件可用于验证Tesseract使用与Unicode兼容的文件比较工具(如WinMerge)创建的文件。

提示:实验表明,TIFF/Box Generator创建的图像训练质量较高,字体大小为24pt或更大,并且添加了一些噪音。

用户可以在UTF-8文本文件中指定符号或变音符号(如在梵文或印度语脚本中找到的符号或变音符号,需要与主要基本字符组合),具体而言data/combiningsymbols.txt,由生成器读取。此设置使用户可以灵活地为其语言脚本定义组合符号/变音符号。

最新版本提供自动培训。Tesseract Windows培训可执行文件与程序捆绑在一起;对于其他平台,您需要构建它们。将所有必需的源训练数据文件(以适当的语言代码为前缀)放在指定的目录中(检查samples文件夹中的示例)。还可以使用随附的train.ps1Windows PowerShell脚本自动执行培训操作。

该合并TIFF功能可以节省用于培训包含相同字体的文本转换成一个单一的多页TIFF文件的多张图片。包含转换函数,用于将字符文本字段中的数字字符引用(NCR)和转义序列转换为Unicode字符。

jTessBoxEditor下载

软件特性

-支持Tesseract 2.0x和3.0x格式的编辑框数据

-实现框选择和合并/拆分/插入/删除操作

-通过微调器实现盒子尺寸更改功能

-支持文本字段的Unicode转换

-包括框搜索功能

安装步骤

1、运行——CMD(WIN7要以管理员身份运行)

2、清空你的硬盘隐藏的vodcache文件夹内的所有文件

3、从新下载你下载的视频,然后将vodcache文件夹内所有的文件(TDL文件一定要全部)复制到一个磁盘的根目录,比如E:

4、在CMD中输入E:,然后回车,在E:/>后输入copy/b*.tdl 1.mp4

5、你就能看到在你的E盘有一个1.mp4了。


软件截图

图片[3]|jTessBoxEditor2.0|天然软件园

软件官网

https://github.com/UB-Mannheim/jTessBoxEditor2.0


软件综述

jTessBoxEditor 2.0是一款基于Java的文本行框编辑器,用于训练和改进Tesseract OCR引擎。它提供了一系列功能来调整Tesseract用于识别文本行的行框。

优点:

  • 易于使用:直观的界面和简单的控件,即使对于初学者也很容易使用。
  • 强大的编辑工具:提供多种编辑工具,例如框选择、移动、缩放和旋转,以便精确调整行框。
  • 快速校正:允许快速纠正或调整行框,以提高Tesseract的识别率。
  • 支持多种图像格式:可以处理各种图像格式,包括JPEG、PNG和TIFF。
  • 可扩展:使用插件机制,允许添加额外的功能。
  • 开源:作为开源软件发布,可以免费使用和修改。

缺点:

  • 缺少高级功能:与一些商业OCR工具相比,可能缺少一些高级功能,例如图像预处理和后处理选项。
  • 可能需要技巧:对于复杂或嘈杂的图像,可能需要一些技巧才能有效地调整行框。
  • 仅基于Java:需要安装Java运行时环境 (JRE) 才能使用该软件。

总体而言,jTessBoxEditor 2.0是一款功能强大易用的工具,对于希望提高Tesseract OCR引擎准确性的用户非常有用。虽然它可能缺少某些高级功能,但它对于大多数文本识别任务来说是一个不错的选择。

THE END
喜欢就支持一下吧
点赞6 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容