找回密码
 注册

手机号码,快捷登录

手机号码,快捷登录

查看: 1452|回复: 1

[原创] 在linux中用关键字搜索所有的pdf文档

[复制链接]
发表于 2024-1-18 17:14:58 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×


Makefile的文件内容如下:

SPATH ?= *PDK
PDFS  ?= $(shell cat pdflist)

genlist:
        find $(SPATH) -name "*.pdf" > pdflist
        sed -i -e 's/^/\"/g' pdflist
        sed -i -e 's/\.pdf/.pdf"/g' pdflist

run: genlist
        rm -rf txt
        mkdir txt
        @FOR pdf in $(PDFS); do\
            path_split=($${pdf//// }) ; \
            fname=$${path_split[-1]}; \
            pdftotext $${pdf} txt/$${fname}.txt ; \
        done


解释:
1. SPATH 路径代表的是你这次所有pdf的大致位置,这里列出工艺PDK 下面的pdf
2. make genlist 会产生 一个pdflist文件,标注了pdf的全路径
3. make run 包含产生pdflist,然后把所有的pdf文件转换成txt文件,grep就可以直接搜索。搜索到了后去pdflist看具体的pdf路径,然后打开
4. 以上脚本来自lenrek,侵删。



 楼主| 发表于 2024-10-14 10:30:13 | 显示全部楼层
使用方法:这个在多个pdf文件中查找关键字,看哪里是你需要的关键字解析内容;把pdf内容全部处理成txt文件了,再取查找关键字所在的文档
1. grep -r "关键字" txt   2. 在收索出来的路径中打开pdflist查看文件路径;打开pdflist文件就可以检索了关键字了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|手机版|小黑屋|关于我们|联系我们|隐私声明|EETOP 创芯网 ( 京ICP备:10050787号 京公网安备:11010502037710 )

GMT+8, 2026-1-16 00:23 , Processed in 0.024244 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表