不使用第三方库获取PDF页数
【摘要】 不需要第三方库就可以获取PDF页数
先上码
/// <summary> /// 获取PDF页数 /// By motozilog /// 2019-09-02 /// </summary> /// <param name="pdfFile">传入PDF文件路径</param> /// <returns>PDF页数(若为0,则表示错误)</returns> public int GetPdfPages(string pdfFile) { try { FileStream fs = new FileStream(pdfFile, FileMode.Open, FileAccess.Read); StreamReader r = new StreamReader(fs); string pdfText = r.ReadToEnd(); Regex rx1 = new Regex(@"Type/Pages/Count [\d]*"); MatchCollection matches = rx1.Matches(pdfText); int maxPage = 0; foreach (var x in matches) { int p = 0; if (Int32.TryParse(x.ToString().Replace("Type/Pages/Count", "").Trim(), out p)) { if (p > maxPage) { maxPage = p; } } } fs.Close(); fs.Dispose(); r.Close(); r.Dispose(); GC.WaitForPendingFinalizers(); return maxPage; } catch (Exception) { return 0; } }
随着政务系统的升级,证照库己逐步统一成PDF格式,将PDF中每一页转换成图片,并利用华为云的OCR服务(文字识别)对证照图片进行文本识别,通过文本的检索可大大提高政务系统的搜索效率和正确率。
获取PDF页数在网上有很多教程,要么是通过第三方库,要么找到类似于这样的代码:
regexp = new Regex( @"/Type\s*/Page[^s]" );
但这个代码,实际上是不work的。
例如这个PDF,实际只有1页,但却匹配了2次,就会误认为是2页。
经过了一段探索,找到了是/Type/Pages/Count(注意:需要PDF1.4以上,但目前手上的都是1.4或者1.7)
所以正则表达式写成:
Regex rx1 = new Regex(@"Type/Pages/Count [\d]*");
但是发现有些高拍仪的厂家是用iText生成PDF,就会出现多个Count的字段
所以遍历找最大的就行了。
Done!
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)