免费视频|新人指南|投诉删帖|广告合作|地信网APP下载

查看: 6752|回复: 13
收起左侧

[技巧] 用office2003和扫描仪进行文本识别(OCR)——有图有真相

[复制链接]

500

主题

1017

铜板

115

好友

黄金会员

地信网论坛贵宾

Rank: 23Rank: 23Rank: 23Rank: 23Rank: 23Rank: 23Rank: 23

积分
4506

灌水勋章斑竹勋章

QQ
发表于 2010-8-8 07:34 | 显示全部楼层 |阅读模式
前面发了PDF转换的软件,回帖中有人需要把图片文字识别为可以编辑的WORD文档,也就是经常说的OCR识别,这个软件目前说少也不少,国内外都有,说多也不多,每个软件或多或少都有点小问题,存在识别率低的问题,这还主要是你图片的问题上,图片清晰度和图片上文字的公正程度等等。
下面就我亲身体验来说明,看下面。把经过写下来,让没试过的看看,更主要的是抛砖引玉,请高手指正。
我用的是win7系统,office2003早不用了,2007前些日子在2010出来的时候也写在了,显示使用OFFICE2010,2010中没有这个组件,我便在XP MODE中安装了2003来完成OCR识别,呵呵。

把扫描仪打开,依次点:开始-所有程序-Microsoft Office-Microsoft Office工具-Microsoft Office Ducoment Scanning,如下图:
(我猜有些精简版的office或者安装时没有选择安装OCR功能的可能没有这个选项,我装这东东从来都是完全安装的,所以不知道别人是什么情况)
1.jpg

启动扫描程序
2.jpg
在上面的图中随便设置一下,把一张测试用的打印好的纸放到扫描仪里,点下那个大大的“扫描”按钮,就听到一阵机器的轰鸣声响起(所以说是破扫描仪),漫长的一分钟后,扫描结束,自动启动了Microsoft Office Ducoment Imaging,这个时候其实文字识别(OCR)已经结束:
3.jpg

在上面的图中,点 4.jpg 是进行OCR,
5.jpg 则是把OCR的结果发送到到word文档中
6.jpg

这里可以选文档的保存位置,确定后,OCR的结果就在word文档中显示了。下面看看识别的效果:

原件:
7.jpg

识别后:
8.jpg

可以看到,对这种很清晰的、字体很端正的印刷件,识别的效果还差强人意。

然后,我想了一个问题,这玩意儿对手写文字识别率如何呢?试了一下,结果如下:

原件:
9.jpg

识别后:
10.jpg
很简单吧。。。。结束了。。。

那啥,如果。。。如果没有扫描仪,能不能做OCR呢,其实也是可以的。不管你用什么方法,用相机拍也好,在电脑上对屏幕截图也好,总之把这些有文字的图片保存为tiff格式,然后,从Microsoft Office工具里手动打开Microsoft Office Ducoment Imaging,再用它打开这个tiff文件,点进行OCR,点把OCR的结果发送到到word文档中就行了。
大家心里知道Microsoft Office Ducoment Imaging只认tiff和mdi格式的图片就行了

评分

参与人数 2威望 +30 收起 理由
yuerhome + 10 感谢提供!
xiedaolei + 20 优秀文章!

查看全部评分

本人QQ:19671976    百度空间 http://hi.baidu.com/qqpatch/ Windows系统封装技术交流群超级群:26455111 无约而来WINDOWS 7 OEM系统官方发布

500

主题

1017

铜板

115

好友

黄金会员

地信网论坛贵宾

Rank: 23Rank: 23Rank: 23Rank: 23Rank: 23Rank: 23Rank: 23

积分
4506

灌水勋章斑竹勋章

QQ
 楼主| 发表于 2010-8-8 08:08 | 显示全部楼层
编辑完成了,呵呵,改吃饭去了,希望能帮到大家。
当然office自带的ocr没有专业的汉王、紫光好,权当应急之用。
本人QQ:19671976    百度空间 http://hi.baidu.com/qqpatch/ Windows系统封装技术交流群超级群:26455111 无约而来WINDOWS 7 OEM系统官方发布

500

主题

1017

铜板

115

好友

黄金会员

地信网论坛贵宾

Rank: 23Rank: 23Rank: 23Rank: 23Rank: 23Rank: 23Rank: 23

积分
4506

灌水勋章斑竹勋章

QQ
 楼主| 发表于 2010-8-8 08:09 | 显示全部楼层
顺便推荐汉王的一款OCR软件,虽然有广告,但是完全免费,而且远远比MODI提供的OCR更专业、识别率也要高得多:
http://download.hw99.com/hanwang/online/ocr80/HW_PDF_OCR_80.rar
本人QQ:19671976    百度空间 http://hi.baidu.com/qqpatch/ Windows系统封装技术交流群超级群:26455111 无约而来WINDOWS 7 OEM系统官方发布

0

主题

2937

铜板

9

好友

教授级高工

Rank: 12Rank: 12Rank: 12

积分
1286
发表于 2010-8-8 08:18 | 显示全部楼层
谢谢楼主分享,看起来这个OCR实际意义不大!

2

主题

184

铜板

0

好友

助理工程师

老火的很

Rank: 5Rank: 5

积分
268
发表于 2010-8-8 08:21 | 显示全部楼层
谢了哈!!

500

主题

1017

铜板

115

好友

黄金会员

地信网论坛贵宾

Rank: 23Rank: 23Rank: 23Rank: 23Rank: 23Rank: 23Rank: 23

积分
4506

灌水勋章斑竹勋章

QQ
 楼主| 发表于 2010-8-8 08:37 | 显示全部楼层

回 3楼(tsyhome) 的帖子

图片的原因占很大原因的
本人QQ:19671976    百度空间 http://hi.baidu.com/qqpatch/ Windows系统封装技术交流群超级群:26455111 无约而来WINDOWS 7 OEM系统官方发布

62

主题

11万

铜板

158

好友

版主

孙立槟

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

积分
43908

宣传勋章灌水勋章

发表于 2010-8-8 08:46 | 显示全部楼层
学习了,没想到OFFICE2003还有这么多功能!
众里寻他千百度,那人却在签到处!...

956

主题

3万

铜板

347

好友

版主

简单自然

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

积分
20906

活跃勋章斑竹勋章宣传勋章贡献勋章宣传勋章

发表于 2010-8-8 08:52 | 显示全部楼层
是挺好用的
该会员没有填写今日想说内容.

500

主题

1017

铜板

115

好友

黄金会员

地信网论坛贵宾

Rank: 23Rank: 23Rank: 23Rank: 23Rank: 23Rank: 23Rank: 23

积分
4506

灌水勋章斑竹勋章

QQ
 楼主| 发表于 2010-8-8 11:24 | 显示全部楼层

回 7楼(yuerhome) 的帖子

是不错吧,呵呵,看看2010版的吧,还要好
本人QQ:19671976    百度空间 http://hi.baidu.com/qqpatch/ Windows系统封装技术交流群超级群:26455111 无约而来WINDOWS 7 OEM系统官方发布

20

主题

1万

铜板

30

好友

教授级高工

佛说万事有因果,魔说一切皆在我

Rank: 12Rank: 12Rank: 12

积分
1555

宣传勋章活跃勋章

QQ
发表于 2010-8-9 16:20 | 显示全部楼层
学习了...
天行健,君子以自强不息 地势坤,君子以厚德载物
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

在线客服
快速回复 返回顶部 返回列表