Python提取Word表格数据教程(含.doc/.docx)
✨重磅!盹猫的个人小站正式上线啦~诚邀各位技术大佬前来探秘!✨
这里有:
- 硬核技术干货:编程技巧、开发经验、踩坑指南,带你解锁技术新姿势!
- 趣味开发日常:代码背后的脑洞故事、工具测评,让技术圈不再枯燥~
- 独家资源分享:开源项目、学习资料包,助你打怪升级快人一步!
🌟 来逛逛吧,说不定能挖到你正在找的技术宝藏哦~
目录
欢迎来到 盹猫(>^ω^<)的博客
本篇文章主要介绍了
[Python提取Word表格数据教程(含.doc/.docx)]
❤博主广交技术好友,喜欢文章的可以关注一下❤
一、编写目的
最近由于工作上的需要,需要使用Python完成DOC文档格式数据的读取和修改工作,但通过查阅相关资料,直接对DOC文档进行读取和修改没有相关的依赖(主要为doc文件为较早的windows系统支持格式),需要将DOC文件转换为.docx格式,为什么是docx格式?
-
.docx
是 XML 格式,通常无编码问题,但若从其他格式转换可能出错。 - python-docx依赖库可以直接对docx文档格式进行操作,但无法对doc格式进行操作。
那么问题就转变为如何将doc格式转换为.docx格式的问题,有下面的解决方法:
- 如果你在windows系统上且安装有 Word 可以使用pywin32调用Word提供的COM口进行格式转换。
那如果就不想花钱或者安装Word,或者我使用的是其它系统(如Linux系统)又该如何转换doc格式到.docx格式呢?
这里也找到了相关的软件支持: 。它提供了和Word几乎相同的功能,但其为免费开源的,并且可以通过命令行进行调用,最重要的可以多系统支持。
本篇文章就是记录使用LibreOffice+python-docx完成doc文档内表格的转换和修改的。
二、环境准备
一、安装LibreOffice
如果是Windows系统可以
的.exe安装包,然后就是不断地下一步即可。如果是Linux系统可以通过下面的命令进行安装:
Ubuntu/Debian:
Fedora:
openSUSE:
安装完成后,可以在命令行中进行版本验证:
如果输出下述内容则表明安装成功:
二、安装python-docx
在已有的python环境下安装python-docx可以使用以下命令:
三、代码实现
一、转换成docx
根据上面的步骤,先进行doc到docx的转换,我们可以使用以下命令进行转换:
当然这里需要再Python中进行命令行的调用,直接上代码:
在上面的代码中先进行LibreOffice环境是否安装的检测,然后调用命令行进行目标文件的转换,转换完成的文件放到output_dir目录下。
二、读取和修改
转换成docx文件后就可以使用python-docx依赖对数据进行操作了,下面的Python代码实现了docx文档内表格的读取:
修改起来也是非常方便的,只需要在更新row.cells[索引].text后,执行一下doc.save(docx_path)的操作,代码如下:
四、总结
上面就是对doc格式的文档表格的读取和修改操作的全部内容了,虽然doc文件格式比较落后,但不可避免的有些公司可能有些比较古老的系统,在日常生产中就使用到doc文件格式,如果你有这方面的需求,希望这篇文章能帮助到你。
如果你对区块链内容感兴趣可以查看我的专栏:
感谢您的关注和收藏!!!!!!
- 点赞
- 收藏
- 关注作者
评论(0)