识别和捕获不同脚本中的文本
使用鼠标操作时,您可以捕获屏幕上的文本,即使该文本只是一个图片,如照片。MultiTerm Widget 对屏幕上的字符执行光学字符识别 (OCR)。
关于此任务
您可以下载并安装特定语言训练数据,以便提高对以其他语言和脚本书写的字符的识别效果。
小组件出厂设置已经过优化,可识别英文字符。由于英语通常不包含某些字符(如 á a ä â),因此,软件可能无法在未训练的情况下正确识别它们。
训练数据为小组件软件提供一个不同的引用字符集。Google 的 tesseract-ocr 页面提供多种语言和脚本的适用训练数据。
过程
- 在浏览器中,转到 Tesseract 文档。
- 按照该页面所述,下载相应的训练文件包。例如,对德语而言,请下载
deu.traineddata。 - 将文件重命名为
generic.traineddata。 - 确保已停用 MultiTerm Widget。
- 在 Windows 资源管理器中,定位至 MultiTerm Widget 安装文件夹。通常是 %programfiles%\SDL\SDL MultiTerm\MultiTerm16。
- 重命名现有
generic.traineddata文件(例如,generic.traineddata.save),然后将下载的generic.traineddata文件复制到此文件夹中。 - 重新启动 MultiTerm Widget。