Python编程:读取pdf、pptx、docx、xlsx文件的页数

举报
彭世瑜 发表于 2021/08/13 23:39:14 2021/08/13
【摘要】 pdf 安装工具 pip install pdfplumber 1 代码示例 import pdfplumber from pdfminer.pdfparser import PDFSyntaxError def get_pdf_page(pdf_path): try: f = pdfplumber.open(pdf_path) page = len(f.pa...

pdf

安装工具

pip install pdfplumber

  
 
  • 1

代码示例

import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError

def get_pdf_page(pdf_path): try: f = pdfplumber.open(pdf_path) page = len(f.pages) except PDFSyntaxError: page = 0 return page


  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

pptx

安装工具

 pip install python-pptx

  
 
  • 1

代码示例

from pptx import Presentation

def get_pptx_page(pptx_path): try: p = Presentation(pptx_path) page = len(p.slides) except KeyError: page = 0 return page

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

docx、xlsx

Word是流动分页的,文件内容本身并不存储分页结果。具体分页时断在哪里、最后分出多少页,都需要现场渲染所有的图文内容之后才能确定。

Word文件中仅包含了一行一行的文本,与页面设置中指定的页面尺寸。

Word每次打开文件时都会一行一行“摆放”文本数据,发现一页装不下了自动新开一页

所以,读取页数是不对的

参考

  1. 如何在 Linux 上使用 Python 读取 word 文件信息(如页数)?
  2. Python编程:pypdf2和pdfplumber获取pdf文件的页数

文章来源: pengshiyu.blog.csdn.net,作者:彭世瑜,版权归原作者所有,如需转载,请联系作者。

原文链接:pengshiyu.blog.csdn.net/article/details/85618178

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

举报
请填写举报理由
0/200