商务服务
自动提取图片中文字内容,这个开源免费软件送给你 | PA实战资源
2024-10-31 11:00

- 1 -

自动提取图片中文字内容,这个开源免费软件送给你 | PA实战资源

图片内容提取方法及问题

前面的文章《》里,讲了使用Power Automate Destkop直接提取PDF文件内容的操作方式,但有朋友问,是否可以提取图片转成的PDF内容:

如上面回复,这里的核心其实并不是PDF内容的提取,而是图片识别的问题——就是我们经常说的OCR问题,当然,Power Automate里也是支持OCR识别的,而且提供了至少3种方式:

对于第2/3种方式,涉及到在线调用Google或微软云端认知(AI)接口的问题,在此暂不讨论。

而第1种是调用本机OCR引擎进行文字识别的,一般情况下我们可以直接使用,其中使用了开源的Tesseract开源OCR引擎,但是,默认情况下仅支持英语、德语、西班牙语、法语和意大利语等5种语言:

那中文怎么办?

- 2 -

OCR引擎安装及使用

实际上,对于不同语言的识别,关键是能获取到Tesseract引擎的数据包,而这可以通过下载、安装Tesseract软件获得(软件下载链接见文末)。

Tesseract软件下载后,安装非常简单,几乎所有步骤都是按提示操作即可,但是,下面这个步骤注意勾选“Additiona language data(download)”选项:

安装好后,我们即可以在Tesseract的安装目录下,找到tessdata文件夹,其中就有中文的数据包——chi_sim.traineddata:

有了这个数据包,接下来在Power Automate Desktop里的操作就简单了。

选择引擎、要识别的图片路径后,OCR引擎设置里,打开“使用其他语言”开关,语言缩写里填上“chi_sim”,选择语言数据包的路径即可,如下图所示:

经过上面的步骤,即可以提取到图片里的文字信息,然后我们可以添加“将文本写入文件”的步骤,将识别的图片文字信息输出到一个文件里:

- 3 -

效果

对于图片文字提取,大家最关心的一个问题是,提取的效果如何?即识别正确率是不是足够高?为此,我对多张图片进行了测试。

总的来说,读取格式清洁、规范打印的图片文字,效果还不错,如下图片:

除一些带下划线、特殊符号标记等造成的干扰外,绝大部分的内容均被正确识别:

而对于本身存在一些深色背景、格式比较混杂的图片,识别效果则很差!如下图,识别出来的内容基本不可用:

对于自己实际工作中的图片内容识别,建议在使用Power Automate构造自动化处理过程时,先进行测试,在识别率满足实际工作需要情况下投入使用。

    以上就是本篇文章【自动提取图片中文字内容,这个开源免费软件送给你 | PA实战资源】的全部内容了,欢迎阅览 ! 文章地址:http://xiaoguoguo.dbeile.cn/news/108.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 多贝乐移动站 http://xiaoguoguo.dbeile.cn/mobile/ , 查看更多   
最新新闻
deepseek使用教程 vscode
标题“websocket包”指代的是一个在计算机网络技术中应用广泛的组件或技术包。WebSocket是一种网络通信协议,它提供了浏览器与服
门店拓客系统搭建门店引流管理系统
门店拓客系统开发详询吴经理,门店拓客系统商城,门店拓客管理系统(悦丹系统开发)。在产业互联网的生态下,产业系统中的供应链
初一为什么吃饺子?吃饺子的由来及包饺子小窍门
过年为什么吃饺子?  一是按照古代的习俗,饺子是过年祭祀后食用的食品。过年时,讲究守岁时包,辞岁时吃,即到子时吃,此时为
揭秘AI搜索新生态:DeepSeek与百度的对比分析
近年来,随着人工智能技术的飞速发展,搜索引擎的市场格局开始发生微妙的变化。特别是挑战传统搜索引擎的AI驱动型平台如DeepSeek
百度答题赚钱怎么做?百度答题利用AI辅助赚取稳定收益完整攻略
关键这是一个长期的项目,在圈内很多人收费大部分的价位是300~1000元不等。今天海哥就来拆解如何利用AI进行百度问题获取收益的完
创新智能设备AI助手:无法错过的高效生活必备工具
在快速发展的智能设备市场中,AI助手的创新技术为用户带来了显著的生活改变。最新推出的智能设备——AI助手Pro,不仅具备高效的
超ChatGPT,DeepSeek成全球增速最快AI应用!国产AI黑马是如何炼成的
DeepSeek作为国产AI应用,自2025年1月11日上线以来,全球日活跃用户突破2215万,成为增速最快的AI应用。其成功吸引了芯片巨头如A
上影厂33位老演员,出生50年代,8位美女走出3位影后
原创 DJ雅清 老电影的那些事今天请大家欣赏昔日上影厂33位老演员的明星老照片。他们全都出生于50年代,个个演技精湛,但男星大多
DeepSeek和豆包哪个更适合普通人?用了几个月,说说我的真实感受
我是一名IT软件工程师,在过去几个月里同时体验了国内两款热门AI工具——DeepSeek和豆包,这两者其实对于我来说日常更多应用于模
探究AI工具的无限可能:从绘画到写作,让你的创作更轻松
随着人工智能(AI)技术的迅猛发展,AI工具在艺术创作和内容生成领域展现出不可思议的潜力。从AI绘画到AI写作,我们可以看到越来