和昨天发的不一样!!!!今天发的这个支持OCR!!!!!
前两天需要压缩一个pdf文件,由于pdf中涉及到了一些个人信息,不想使用在线的网站的压缩。下载了几个离线的压缩工具,大部分居然都需要收费,虽然后来找到了一个免费的工具搞定了这件事,不过想到后面可能还会碰到这样的事情,因此萌生了自己做一个在线压缩pdf的网站的想法。查阅了相关资料,最后借助ghostscript 实现了我的需求,等于是站在巨人的肩膀上吧。不过有mjj觉得网站功能太单调了,还有mjj想要OCR的功能,我看了一下ghostscript的文档,发现ghostscript是支持OCR的,那还等什么,集成就完事了。如果mjj们觉得有用的话,给我的github仓库https://github.com/lixiaofei123/pdftoolbox点一个star吧。由于新的工具网站不仅仅是只支持pdf压缩,现在也支持OCR,后面可能还会增加别的功能,因此我将原来的pdfcomress仓库换成了pdftoolbox(PDF工具箱)。
下面是新版PDF工具箱的首页
先说安装。首先要安装PDF工具箱,肯定要购买一台服务器,这里我强烈推荐腾讯云的轻量服务器,目前还在秒杀活动,2C4G的配置一年只需要74元。秒杀地址我就不放了,相信mjj们都可以找到
然后选择【地域】和【镜像】,【地域】选择距离自己最近的,【镜像】选择Docker,当然如果自己会安装docker的话,也可以尝试自己安装。我这里为了方便,就直接选择自带的docker镜像了
购买了服务器以后,然后配置密钥之类的,再用ssh终端工具连接上。这些就不讲了,相信mjj们比我熟悉。这里我假设mjj们已经安装好了docker环境。
我把程序打包成了Docker镜像,每次提交都用github action自动构建Docker镜像并自动push到docker仓库里。如果mjj们还不放心的话,可以访问我的github仓库https://github.com/lixiaofei123/pdftoolbox,里面有dockerfile,可以自行构建镜像。
用docker安装,那自然是十分简单,几行命令就搞定了
mkdir -p /data/pdftoolbox/input
mkdir -p /data/pdftoolbox/output
docker run -d –name pdftoolbox –restart=always -p 8082:8082 -v /data/pdftoolbox/input:/opt/pdftoolbox/input -v /data/pdftoolbox/output:/opt/pdftoolbox/output mrlee326/pdftoolbox
其中/opt/pdftoolbox/input是用来放置用户上传文件的目录,/opt/pdftoolbox/output是用来放转换后的文件的目录,建议将其挂载在宿主机上,这样就方便后面清理文件了。有能力的话,可以自己写一个定时脚本来清理过期的文件。
如果上面执行没有报错的话,那么基本上就已经启动成功了,此时访问ip:8082就可以看到首页了。
先来试用一下pdf压缩功能。在低质量模式下,可以将pdf的体积压缩到原来的1/4大小。
pdf压缩主要针对的是包含图片比较多的pdf,如果原pdf中基本上都是文字的话,那么压缩的效果就不太理想。因为基本上没压缩的空间了。
再来试一下OCR功能,我是从专利网上随便下载了一个pdf进行测试的。这个功能同样是基于ghostscript来实现的。先激活【PDF文字提取】选项,然后根据需要来选择额外支持的语言,目前内部默认支持简体中文和英文,因此基本上不需要选择。点击上传文件,就会自动进行转换,如果机器的性能比较低的话,这一步可能会比较慢,请耐心等待几分钟。等下面的进度条全部走完,并出现【点击下载】按钮,说明转换完毕,这时候点击下载即可。
如果需要配置HTTPS的话,相信这么简单的东西,mjj自己都会配置,我就不班门弄斧了。通过上面的过程,我们就有了一个属于自己的在线pdf压缩网站,这样也不用担心自己的个人信息被别人保存,同时更换电脑的话也不需要重新安装软件。
安徽省网友说:技术帖顶
辽宁省网友说:Mark一下
黑龙江省网友说:很遗憾的告诉你,我用QQ来OCR
河南省网友说:居然可以发链接了,感动
台湾省网友说:冲啊 让阅读量上1000
陕西省网友说:支持一下
甘肃省网友说:冲啊
四川省网友说:支持一下
浙江省网友说:这么巧,我也是
浙江省网友说:我猜你下一个应该要发webrtc70吧
广东省网友说:还不如给雷猴子付费呢
黑龙江省网友说:我一般是直接转word了
安徽省网友说:说起这个,去年编译webrtc编译到吐血。
甘肃省网友说:大佬是个好人,usage从买服务器开始教,还不放aff
甘肃省网友说:mjj都人手轻量服务器了
江西省网友说:后排支持