Java 解析pdf文档内容实战案例
【摘要】 一、应用场景1.首先我个人认为一切的技术都是为了服务实际的业务场景,所以说业务场景很重要,我一般写文章也都是先说明我的业务场景,这样大家也应该会比较容易理解,能知道我们为什么要解析这个pdf文档内容。2.项目上的实际案例是用来解析财务报表(资产负债表,利润表,所得税,增值税报表)的。但是那些报表,因为涉及隐私保密问题,所以我就用的个人银行流水给大家做一个详细的讲解过程。3.咱么既然要解析P...
一、应用场景
1.首先我个人认为一切的技术都是为了服务实际的业务场景,所以说业务场景很重要,我一般写文章也都是先说明我的业务场景,这样大家也应该会比较容易理解,能知道我们为什么要解析这个pdf文档内容。
2.项目上的实际案例是用来解析财务报表(资产负债表,利润表,所得税,增值税报表)的。但是那些报表,因为涉及隐私保密问题,所以我就用的个人银行流水给大家做一个详细的讲解过程。
3.咱么既然要解析PDF文档内容,肯定是想把它解析成格式化数据(JSON)格式的,对吧,这样才能方便我们对数据的一个使用。
二、直接上代码
具体基本每一行,我都有详细的注释说明。
1.先看看我要解析的源文件程序嗑学家_薪资流水.pdf
上面这个文件是相对比较规整格式的文件,实际情况应该会有许多报表格式不一样,解析出来的有换行之类的,需要特殊处理。
2.maven的pom文件引入依赖包如下:
注:我这里还有对PDF文档的其他一些解析,包括html字符串生成PDF文档的实际应用需求,所以我这儿引入的包比较多一点儿,你可以根据自己需求,按需引入依赖包。
三、具体实现代码
3.1下面这个文件是一个完整的Java 类
注:此处我引入了alibaba的JSON解析包,如果您复制过去报错的,可以自行引入需要的包。
3.2上面这个事例代码里面,我不仅把pdf内容输出到了文件内,还做了一个格式化输出的解析。
3.3 输出的文件cxkxj_xzls.txt 内容如下:
3.4格式化输出内容就是JSON数组
四、结语:
小编是一名爱生活,爱代码,爱交朋友的热血青年,希望我们能够共同进步,共同成长。
感觉有帮助的帮小编点个免费的赞吧,如有问题,可以私信或者评论区留言,小编知无不言,言无不尽。
喜欢小编的可以微信搜素:民谣嗑学家
关注我个人公众号,小编平时,除了工作码代码,还是一名业余吉他爱好者,有喜欢的朋友可以一起交流交流。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)