Python编程:读取pdf、pptx、docx、xlsx文件的页数
【摘要】 pdf
安装工具
pip install pdfplumber
1
代码示例
import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError
def get_pdf_page(pdf_path): try: f = pdfplumber.open(pdf_path) page = len(f.pa...
安装工具
pip install pdfplumber
- 1
代码示例
import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError
def get_pdf_page(pdf_path): try: f = pdfplumber.open(pdf_path) page = len(f.pages) except PDFSyntaxError: page = 0 return page
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
pptx
安装工具
pip install python-pptx
- 1
代码示例
from pptx import Presentation
def get_pptx_page(pptx_path): try: p = Presentation(pptx_path) page = len(p.slides) except KeyError: page = 0 return page
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
docx、xlsx
Word是流动分页的,文件内容本身并不存储分页结果。具体分页时断在哪里、最后分出多少页,都需要现场渲染所有的图文内容之后才能确定。
Word文件中仅包含了一行一行的文本,与页面设置中指定的页面尺寸。
Word每次打开文件时都会一行一行“摆放”文本数据,发现一页装不下了自动新开一页
所以,读取页数是不对的
参考
文章来源: pengshiyu.blog.csdn.net,作者:彭世瑜,版权归原作者所有,如需转载,请联系作者。
原文链接:pengshiyu.blog.csdn.net/article/details/85618178
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)