软件测试|教你用Python处理PDF文件(三)
【摘要】 前言我们之前介绍了提取PDF文件中的文字内容,我们使用PyPDF2即可实现操作,但是如果PDF文件有图片的话,只提取文本的话无法把图片的内容一起提取出来,我们需要另外的脚本来实现对图片的提取。 环境准备对于抽取PDF中的图片,我们使用的还是PyPDF2这个库,安装命令如下:pip install PyPDF2我们还是使用之前使用的过的,test2.pdf来用做例子。 使用实例我们提取PDF...
前言
我们之前介绍了提取PDF文件中的文字内容,我们使用PyPDF2即可实现操作,但是如果PDF文件有图片的话,只提取文本的话无法把图片的内容一起提取出来,我们需要另外的脚本来实现对图片的提取。
环境准备
对于抽取PDF中的图片,我们使用的还是PyPDF2这个库,安装命令如下:
pip install PyPDF2
我们还是使用之前使用的过的,test2.pdf来用做例子。
使用实例
我们提取PDF文件中的图片的代码如下:
import PyPDF2
from PIL import Image
def extract_images_from_pdf(pdf_path, output_folder):
pdf_file = open(pdf_path, 'rb')
pdf_reader = PyPDF2.PdfReader(pdf_file)
image_count = 0
for page_number in range(len(pdf_reader.pages)):
page = pdf_reader.pages[page_number]
if '/XObject' in page['/Resources']:
x_objects = page['/Resources']['/XObject'].get_object()
for obj in x_objects:
if x_objects[obj]['/Subtype'] == '/Image':
image = x_objects[obj]
if '/Filter' in image:
if image['/Filter'] == '/DCTDecode':
image_ext = 'jpg'
elif image['/Filter'] == '/JPXDecode':
image_ext = 'jp2'
else:
image_ext = 'png'
else:
image_ext = 'png'
image_data = image._data
image_name = f'image_{image_count}.{image_ext}'
image_path = f'{output_folder}/{image_name}'
with open(image_path, 'wb') as img_file:
img_file.write(image_data)
print(f'Saved image: {image_path}')
image_count += 1
pdf_file.close()
# 使用示例
pdf_path = 'files/test2.pdf' # PDF文件路径
output_folder = 'files' # 图片输出的文件夹路径
extract_images_from_pdf(pdf_path, output_folder)
运行脚本,发现files文件夹新增了两个jpg文件,如下:
图片如下:
总结
本文主要介绍了使用PyPDF2库实现对PDF文件中的图片进行提取的操作,后续我们将介绍提取PDF文件中的表格内容。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)