不使用第三方库获取PDF页数

举报
motozilog 发表于 2019/09/04 15:40:37 2019/09/04
【摘要】 不需要第三方库就可以获取PDF页数

先上码

/// <summary>
/// 获取PDF页数
/// By motozilog
/// 2019-09-02
/// </summary>
/// <param name="pdfFile">传入PDF文件路径</param>
/// <returns>PDF页数(若为0,则表示错误)</returns>
public int GetPdfPages(string pdfFile)
{
    try
    {
        FileStream fs = new FileStream(pdfFile, FileMode.Open, FileAccess.Read);
        StreamReader r = new StreamReader(fs);
        string pdfText = r.ReadToEnd();
        Regex rx1 = new Regex(@"Type/Pages/Count [\d]*");
        MatchCollection matches = rx1.Matches(pdfText);
        int maxPage = 0;
        foreach (var x in matches)
        {
            int p = 0;
            if (Int32.TryParse(x.ToString().Replace("Type/Pages/Count", "").Trim(), out p))
            {
                if (p > maxPage)
                {
                    maxPage = p;
                }
            }
        }
        fs.Close();
        fs.Dispose();
        r.Close();
        r.Dispose();
        GC.WaitForPendingFinalizers();
        return maxPage;
    }
    catch (Exception)
    {
        return 0;
    }
}


随着政务系统的升级,证照库己逐步统一成PDF格式,将PDF中每一页转换成图片,并利用华为云的OCR服务(文字识别)对证照图片进行文本识别,通过文本的检索可大大提高政务系统的搜索效率和正确率。

获取PDF页数在网上有很多教程,要么是通过第三方库,要么找到类似于这样的代码:

regexp = new Regex( @"/Type\s*/Page[^s]" );

但这个代码,实际上是不work的。

例如这个PDF,实际只有1页,但却匹配了2次,就会误认为是2页。

image.png

经过了一段探索,找到了是/Type/Pages/Count(注意:需要PDF1.4以上,但目前手上的都是1.4或者1.7)

image.png

所以正则表达式写成:

Regex rx1 = new Regex(@"Type/Pages/Count [\d]*");

但是发现有些高拍仪的厂家是用iText生成PDF,就会出现多个Count的字段

image.png

所以遍历找最大的就行了。

Done!

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

举报
请填写举报理由
0/200