Python3,2行代码,多种方法,直接把网页内容转换成PDF文档和图片。

举报
Carl_奕然 发表于 2023/03/28 18:38:32 2023/03/28
【摘要】 再也不用通过word转换成pdf文档了。

1、引言


小鱼:小云,你这是干啥呢?
小云:我的女神想要这个网页的内容。
小鱼:那你也不能这一点点的复制粘贴啊,
小云:为了我的女神,再辛苦我都愿意…
小鱼:咱能不能man一点,你直接把网页内容爬下来不就完事了,
小云:我的女神还要把这些内容转换成PDF,
小鱼:你的女神事可真多…
小云:鱼哥,你有什么好的法子吗?
小鱼:嗯,办法嘛,确实有
小云:我懂。
小鱼:…上道这么快,果然为了你的女神,你什么都舍得,我也不磨叽了,直接上教程。

2、代码实战


关于网页的内容转换成PDF,通常思路:

爬取网页内容
保存到本地
转换成PDF文档
这种方法, 确实可以实现,但是,很麻烦,需要转两次。
而今天,小鱼给大家分享的方法,就3行代码,一次搞定。

2.1 模块介绍


2.1.1 pdfkit


pdfkit 是把 HTML+CSS 格式的文件转换成 PDF 的一种工具,它是 wkhtmltopdf 这个工具包的 python 封装。

2.2 安装


pip install pdfkit



其它安装方式,直接看这两篇:

敲黑板:

  • pdfkit 是基于 wkhtmltopdf 的封装,所以需要先安装 wkhtmltopdf 。
  • wkhtmltopdf官网:https://wkhtmltopdf.org/


2.3 代码实例

2.3.1 URL 对应网页转 PDF


代码示例

# -*- coding:utf-8 -*-
# @Time   : 2022-06-12
# @Author : carl_DJ

import pdfkit

'URL 对应网页转 PDF'
#wkhtmltopdf.exe 为本地安装的路径
config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
#调用pdfkit.from_url参数,转换PDF
pdfkit.from_url(r'https://blog.csdn.net/wuyoudeyuer?type=blog', 'Carl_奕然.pdf', configuration=config)



运行结果

2.3.2 HTML 文件转 PDF


代码示例

# -*- coding:utf-8 -*-
# @Time   : 2022-06-12
# @Author : carl_DJ

import pdfkit

'HTML 文件转 PDF'
config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
#调用pdfkit.from_file参数,转换PDF
pdfkit.from_file(r'D:\Carl_奕然的博客.html, 'Carl_奕然.pdf', configuration=config)



敲黑板

  • 读取html,需要调用pdfkit.from_file 参数。


2.3.3 字符串转 PDF

代码示例

# -*- coding:utf-8 -*-
# @Time   : 2022-06-12
# @Author : carl_DJ

import pdfkit

'字符串转 PDF'
config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
#调用pdfkit.from_file参数,转换PDF
pdfkit.from_string(r'Ilike wangxinling, 'Carl_奕然.pdf', configuration=config)



运行结果

在这里插入图片描述

2.4 拓展

小云:鱼哥,如果我不想写代码,能不能一键转换成PDF呢?
小鱼:嗯,这个可以实现,但是不能一键,必须一行代码。
 小云:也行,能少些一行是一行。

2.4.1 网页转换PDF


开篇小鱼也说过:pdfkit 是基于 wkhtmltopdf 的封装,所以功能肯定也是基于 wkhtmltopdf 的。
于是乎,我们就能先到,直接用wkhtmltopdf 的功能,看看能否实现PDF转换。
代码示例

  • 第一步、找到wkhtmltopdf的安装路径,以小鱼的为例:
    D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe 

  • 第二步、powershell打开,输入命令
    .\wkhtmltopdf.exe https://blog.csdn.net/wuyoudeyuer/category_9471191.html D:\carl.pdf

运行结果

在这里插入图片描述

解析

  • .\wkhtmltopdf.exe :调用wkhtmltopdf.exe
    https://blog.csdn.net/wuyoudeyuer?type=blog:url地址
    D:\carl.pdf:保存的路径


2.4.2 网页转换图片


代码示例
我们来试一下网页转换成图片,
同样,

  • 第一步、打开powershell,进入到bin文件夹下
  • 第二步、输入命令:.\wkhtmltoimage.exe https://blog.csdn.net/wuyoudeyuer/category_9471191.html D:\carl.png

运行结果

3、总结


今天的分享,就到这里了。
是不是奇奇怪怪的姿势,又增加了呢。
我们总结一下今天的内容:


pdfkit 可以可以实现的转换

  • URL 对应网页转 PDF
  • html文件转 PDF
  • 字符串转 PDF


wkhtmltopdf.exe可以实现的转换

  • 网页转图片
  • 网页转 PDF


所以,学会了这个第三方库,就实现了直接转换成PDF的方法。

我是​小鱼​:

  • CSDN 博客专家;
  • 阿里云 专家博主;
  • 51CTO 博客专家;
  • 51认证讲师;
  • 金牌面试官;
  • 面试培训师;

关注我,带你学习更多更有趣的Python知识。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。