POI系列之根据样式识别word内容和标题

举报
yd_273762914 发表于 2020/12/02 22:38:19 2020/12/02
【摘要】 业务场景:最近接到需求,想实现将一份word文档,其中特定的文本内容获取出来,首先想到两种方法,一种是通过OCR技术,一种是通过模板占位符。 虽然想起来好像是可以实现的,不过ocr技术自己要在短时间实现是不太现实的,要用第三方的会加重项目成本。然后思路是想通过先固定特定的模板,通过一些占位符技术去实现,想法可以,也有在一些付费的第三方应用里看到过,不过实现起来也没...

业务场景:最近接到需求,想实现将一份word文档,其中特定的文本内容获取出来,首先想到两种方法,一种是通过OCR技术,一种是通过模板占位符。
虽然想起来好像是可以实现的,不过ocr技术自己要在短时间实现是不太现实的,要用第三方的会加重项目成本。然后思路是想通过先固定特定的模板,通过一些占位符技术去实现,想法可以,也有在一些付费的第三方应用里看到过,不过实现起来也没那么容易,特别是想要在一两天内实现,时间太紧促了,所以只能通过一种小技巧绕过,方法虽然可行,不过不是好的方法

这种方法是先约定模板,要筛选出来的文本固定一种特定的样式,然后通过通过程序识别出这种文本,还有一种方法是通过书签,不过网上搜到有第三方jar是要收费的,就不描述了

poi-ooxml是word文档需要的

<properties> <poi.version>3.9</poi.version>
</properties>

<dependencies> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>${poi.version}</version> </dependency> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>${poi.version}</version> </dependency>
</dependencies>

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
import org.apache.poi.POIXMLDocument;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.model.StyleDescription;
import org.apache.poi.hwpf.model.StyleSheet;
import org.apache.poi.hwpf.usermodel.Paragraph;
import org.apache.poi.hwpf.usermodel.Range;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
import org.apache.poi.xwpf.usermodel.XWPFParagraph;
import org.apache.poi.xwpf.usermodel.XWPFRun;

import java.io.*;
import java.util.List;

public class WordUtils { public static void main(String[] args) throws Exception { String filePath = "D://test.docx"; printWord(filePath); } public static void printWord(String filePath) throws IOException { XWPFDocument document = new XWPFDocument(POIXMLDocument.openPackage(filePath)); List<XWPFParagraph> paragraphs = document.getParagraphs(); for (XWPFParagraph p : paragraphs) { //获取段落中的句列表 List<XWPFRun> runsLists = p.getRuns(); for (XWPFRun runs : runsLists) { //获取句的字体颜色 String c = runs.getColor(); //获取句中字的大小 int f = runs.getFontSize(); //获取文本内容 String s = runs.getText(0); // 字体为16的黑色字体都筛选出来 if (f == 16 && "000000".equals(c)) { System.out.println(s); } } } }
}


  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44

ps:本博客内容比较简单,只是自己做下记录,有时间再探讨一下实现,网上实现的很多都是付费的,不建议用本博客的方法,本博客只是自己做下笔记

文章来源: smilenicky.blog.csdn.net,作者:smileNicky,版权归原作者所有,如需转载,请联系作者。

原文链接:smilenicky.blog.csdn.net/article/details/109378938

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。