第一部分 关于pdf文件识词
pdf阅读:建议使用adobe acrobat 7.0Professional简体中文版(只有专业版本才有ocr功能,而reader版本没有ocr,而且同以前版本比较打开速度快,无专利认证那套东东,文件大小209M吧。以下简称“Acrobat 7.0 pro”)
下载地址
http://download.winzheng.com/softview/SoftView_2019.htm
注意:在安装acrobat 7.0 pro的时候要选择完全安装或者自定义安装选择安装上
“亚洲语言支持”,因为在“典型”安装时是不安装“亚洲语言支持”的,这在看中文的时候可能有影响。
针对电子词典:金山词霸2003医学版(以下简称“金山”)
新医药大词典(以下简称“新医药”)
1.所有的pdf文件都不能识词
或者在“金山”和“新医药”都安装的情况下,用其中一个可以识词,另外一个不能识词,
可以肯定是插件问题。
对于金山
AcrobatReader 7.0取词:将金山词霸的安装目录下(*:\Program Files\Kingsoft\Powerword2003\PlugIn *代表你所安装到的盘符,以下同)的Xdict32.API复制到Adobe Reader7.0的安装目录*:\Program Files \Adobe\Acrobat 6.0Reader\plug_ins 文件夹下即可。
Acrobat 7.0取词:将金山词霸的安装目录下的Xdict32.API复制到Adobe 7.0的安装目录*:\Program Files\Adobe\Acrobat 7.0\Acrobat\plug_ins文件夹下即可。
如果上述办法仍然无法加入词霸的插件(Acrobat工具栏没有出现词霸的图标),则请到在中文版acrobat 7.0pro中设置如下:选择"编辑"菜单中的"首选项",在弹出的界面的左侧列表中选中"启动"一项,然后在"启动"面板中将"仅认证增效工具"前的选项去掉,再将右下角的浏览方式设为单页,最后重启Acrobat reader即可。(好像acrobat 7.0pro默认的就是去掉的估计这项用不着,Acrobat Reader 7.0我没装不知道)
6.0版把7.0换成6.0即可。
对于新医药
(截取自其官方网站
http://www.medscape.com.cn/kehuf ... sionid=PFLNDPBEEPHL)
一般情况下,《新编全医药学大词典》在安装时会将自己的一个插件自动添加到acrobatreader中去,用户安装词典后即可在pdf文件中使用词典,但是正确添加插件的前提是acrobatreader是正常安装的,即注册表中有acrobat reader的安装路径。不能取词,可能是注册表中没有acrobatreader的安装路径,需要手工添加词典的插件到acrobat reader中
解决办法:
第一步:首先找到词典的安装路径,例如默认安装路径,*\program files\kingyee\meddic\ 找到meddic文件夹中的plugin文件夹打开,里面有三个文件:RwAcrob4c.api,RwAcrob5c.api,RwAcrob6c.api;
如果是acrobat reader4.0就拷贝RwAcrob4c.api;
如果是acrobat reader5.0就拷贝RwAcrob5c.api;
如果是acrobat reader6.0就拷贝RwAcrob6c.api; (4,5,6没人用了吧)
如果是acrobat reader7.0也拷贝RwAcrob6c.api;
第二步:找到acrobat reader的安装路径,打开plug_ins文件夹,然后将拷贝的文件粘贴进来。然后重新启动acrobat reader软件。
第三步:此时一般就可以翻译pdf文件了。如果还是不行,就是acrobat reader还需要设置一下。
设置方法:
在中文版acrobat 7.0pro中设置如下:选择"编辑"菜单中的"首选项",在弹出的界面的左侧列表中选中"启动"一项,然后在"启动"面板中将"仅认证增效工具"前的选项去掉,再将右下角的浏览方式设为单页,最后重启Acrobat reader即可(好像acrobat 7.0pro默认的就是去掉的估计这项用不着,Acrobat Reader 7.0我没装不知道)。
2.部分pdf文件可以识词,部分不可以。
把握一个原则:pdf文档内容只要可以复制就可以识词。
分以下两种情况:
A:有密码保护:有些虽有密码保护只是不准更改文档,可以复制,内容只要可以复制,就可以识词,就不用理什么密码了。
对不允许复制的就要用软件去出密码。
去除密码工具PDF Password Remover(推荐使用英文版)
下载地址:
PDF Password Remover v2.2
http://download.winzheng.com/softview/SoftView_26105.htm
PDF Password Remover v2.2 注册机
http://download.winzheng.com/softview/SoftView_26106.htm
软件很容易上手:
注意有些时候文件名比较长或有特殊字符或是中文,可能无法打开,此时将文件名改成数字的,如“1.pdf”(pdf为扩展名),处理完后再改回原来的文件名就可以了。
B:pdf文件是扫描图片做的,虽无任何限制,但无法复制文档内容。
可参见我在dxy发的帖子
http://www.dxy.cn/bbs/post/view? ... 1&age=0#3402620
这就要用到Adobe Acrobat Pro 7.0的ocr功能 ,图片格式的PDF可以直接转换成文字PDF,版面形式不变,转完后直接保存即可。
选择“文档”--“使用OCR识别文本”
另外针对前面提到的密码保护的图片格式pdf文件,先去除密码后再ocr。(未去除密码前,ocr功能是灰色的不能用)。
另外有些从网站下载来的文献,会在页眉和页脚加上“Copyright”等字样,此时直接运用ocr时,会出现提示“acrobat无法在本页执行识别,因为:本页包含可渲染的文本”
针对以上情况,摸索出了一个方法:
先从“高级”--“导出所用图像”(文中的插图也会按一张图片导出),然后再用 |