|生命中医网|网站总纲|网上教室|生命中医论坛| 会员聊天室| 中医术数源流图|多年五运六气推算|网站使用及简介|
分类:杂汇文章
字号:
修改
PDF格式电子书转成TXT格式妙法

cuiwan

PDF格式电子书转成TXT格式妙法



目前电子书的主要格式是PDF。它绝大多数是由扫描纸质书,形成图像文件,直接做成PDF电子书。这种格式逼真,能显示图像,但是不但文件体积很大,而且只能在电脑上阅读,不能在手机、MP3、手持的电子阅读器上阅读。极少数手持电子阅读器声称支持PDF格式,其实由于幅面限制,效果不好。而整天趴在电脑前看书,既浪费又辛苦。所以把PDF格式转成TXT通用文本格式,就成了重要问题。

但是,这个问题目前还没发现有简单的解决办法。网上所谓能转换PDF到 TXT的软件,实际上只能转换原来就是文本做成的PDF格式电子书,对图像做成的一筹莫展。图像转换成文本必须经过文字识别。现有的文字识别软件不能把电子书一次识别完成,必须逐页识别,逐页存储,如果页数较多,让人不能忍受。这就是TXT文本格式书少的原因。

我们只好自己动手。我经过摸索实践,想出了如下办法:

1、用acrobat reader打开PDF格式电子书。选择打印,打印机选“microsoft office document writer”,打印页数自选。就会把PDF文件虚拟打印成一个同名TIF文件。

2、打开ACDsee,在浏览器下选中刚才的TIF文件(不用打开),用工具中的转换文件格式功能,可以自动转变成一组JPG或BMP文件。有多少页就有多少个JPG文件,自动加上了顺序号。

3、打开汉王文字识别系统,选择打开图像文件,将所有JPE文件都打开。在识别菜单中选全部文件,然后识别。系统自动把全部JPG文件识别后存为一组同名TXT文件。

4、利用文本合并软件将所有TXT文件合并成一个TXT文件。速度很快,识别大约不到一秒一页(与机器有关),其余都很快,另外时间就是打开文件,多选文件等等(windows下多选很容易,不必一个一个单击)。一个几百页的书十多分钟就完了。识别准确率与原书扫描质量有关。



来源:http://cuiwanduan.bokee.com/6553519.html

石头注释:此文在原文基础上有改动.由于时间关系,此方法石头本人还没有试用过.如有什么问题,请留言,我将尽快更正.感谢你的支持!



石头新增内容:

其实也有一些简单的方法,不需要像上面的那么麻烦,把所有的事情交给一个网站处理就好了呀,http://pdftextonline.com/q/ 这是一个PDF转换成TXT的网站,只要你上传你想要转换的PDF文档,之后在下载TXT文件就好了.很简单的. 但是要说明一点,你的PDF文档不能大于10M.对于那些大于10M的PDF文档,这种方法还是不实用的.

备注:很多时候,很多事情,我们都可以利用在线处理的方法来处理,我们不需要什么都自己动手.学会享受生活.


以下为最近的前十五条评论:
共0条信息
暂时没有信息

----评论处 ----
发评者:请回答:77 十 76 =