- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

软件测试|教你用Python处理PDF文件（三）

霍格沃兹测试开发发表于 2023/08/09 18:19:59 2023/08/09

【摘要】前言我们之前介绍了提取PDF文件中的文字内容，我们使用PyPDF2即可实现操作，但是如果PDF文件有图片的话，只提取文本的话无法把图片的内容一起提取出来，我们需要另外的脚本来实现对图片的提取。环境准备对于抽取PDF中的图片，我们使用的还是PyPDF2这个库，安装命令如下：pip install PyPDF2我们还是使用之前使用的过的，test2.pdf来用做例子。使用实例我们提取PDF...

前言

我们之前介绍了提取PDF文件中的文字内容，我们使用PyPDF2即可实现操作，但是如果PDF文件有图片的话，只提取文本的话无法把图片的内容一起提取出来，我们需要另外的脚本来实现对图片的提取。

环境准备

对于抽取PDF中的图片，我们使用的还是PyPDF2这个库，安装命令如下：

pip install PyPDF2

我们还是使用之前使用的过的，test2.pdf来用做例子。

使用实例

我们提取PDF文件中的图片的代码如下：

import PyPDF2
from PIL import Image
def extract_images_from_pdf(pdf_path, output_folder):
    pdf_file = open(pdf_path, 'rb')
    pdf_reader = PyPDF2.PdfReader(pdf_file)

    image_count = 0
    for page_number in range(len(pdf_reader.pages)):
        page = pdf_reader.pages[page_number]
        if '/XObject' in page['/Resources']:
            x_objects = page['/Resources']['/XObject'].get_object()
            for obj in x_objects:
                if x_objects[obj]['/Subtype'] == '/Image':
                    image = x_objects[obj]
                    if '/Filter' in image:
                        if image['/Filter'] == '/DCTDecode':
                            image_ext = 'jpg'
                        elif image['/Filter'] == '/JPXDecode':
                            image_ext = 'jp2'
                        else:
                            image_ext = 'png'
                    else:
                        image_ext = 'png'

                    image_data = image._data
                    image_name = f'image_{image_count}.{image_ext}'
                    image_path = f'{output_folder}/{image_name}'

                    with open(image_path, 'wb') as img_file:
                        img_file.write(image_data)

                    print(f'Saved image: {image_path}')
                    image_count += 1

    pdf_file.close()
# 使用示例
pdf_path = 'files/test2.pdf'  # PDF文件路径
output_folder = 'files'  # 图片输出的文件夹路径

extract_images_from_pdf(pdf_path, output_folder)

运行脚本，发现files文件夹新增了两个jpg文件，如下：

图片如下：

总结

本文主要介绍了使用PyPDF2库实现对PDF文件中的图片进行提取的操作，后续我们将介绍提取PDF文件中的表格内容。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

软件测试|教你用Python处理PDF文件（三）

前言

环境准备

使用实例

总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

软件测试|教你用Python处理PDF文件（三）

前言

环境准备

使用实例

总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品