不使用第三方库获取PDF页数
【摘要】 不需要第三方库就可以获取PDF页数
先上码
/// <summary>
/// 获取PDF页数
/// By motozilog
/// 2019-09-02
/// </summary>
/// <param name="pdfFile">传入PDF文件路径</param>
/// <returns>PDF页数(若为0,则表示错误)</returns>
public int GetPdfPages(string pdfFile)
{
try
{
FileStream fs = new FileStream(pdfFile, FileMode.Open, FileAccess.Read);
StreamReader r = new StreamReader(fs);
string pdfText = r.ReadToEnd();
Regex rx1 = new Regex(@"Type/Pages/Count [\d]*");
MatchCollection matches = rx1.Matches(pdfText);
int maxPage = 0;
foreach (var x in matches)
{
int p = 0;
if (Int32.TryParse(x.ToString().Replace("Type/Pages/Count", "").Trim(), out p))
{
if (p > maxPage)
{
maxPage = p;
}
}
}
fs.Close();
fs.Dispose();
r.Close();
r.Dispose();
GC.WaitForPendingFinalizers();
return maxPage;
}
catch (Exception)
{
return 0;
}
}
随着政务系统的升级,证照库己逐步统一成PDF格式,将PDF中每一页转换成图片,并利用华为云的OCR服务(文字识别)对证照图片进行文本识别,通过文本的检索可大大提高政务系统的搜索效率和正确率。
获取PDF页数在网上有很多教程,要么是通过第三方库,要么找到类似于这样的代码:
regexp = new Regex( @"/Type\s*/Page[^s]" );
但这个代码,实际上是不work的。
例如这个PDF,实际只有1页,但却匹配了2次,就会误认为是2页。
经过了一段探索,找到了是/Type/Pages/Count(注意:需要PDF1.4以上,但目前手上的都是1.4或者1.7)
所以正则表达式写成:
Regex rx1 = new Regex(@"Type/Pages/Count [\d]*");
但是发现有些高拍仪的厂家是用iText生成PDF,就会出现多个Count的字段
所以遍历找最大的就行了。
Done!
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
作者其他文章
技术火炬手2019/09/04 08:29:501楼编辑删除举报