朋友碰到个PDF转word的需求, 网上一大堆工具都是付费的, 问我有没有办法.
我搜了下python的pdf2docx就可以实现, 记录一下
要求Python版本>=3.6
。
通过pip
安装库:
pip install pdf2docx
作为Python库使用
from pdf2docx import Converter
pdf_file = '/path/to/xxx.pdf'
docx_file = 'path/to/xxx.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # 默认参数start=0, end=None
cv.close()
# more samples
# cv.convert(docx_file, start=1) # 转换第2页到最后一页
# cv.convert(docx_file, pages=[1,3,5]) # 转换第2,4,6页
作为命令行工具调用
pdf2docx convert xxx.pdf xxx.docx
可以通过--start
、--end
或者--pages
指定页面范围。
转换效果可能不是100%完美, 有可能图片会错位, 这时候可以试试微软Office, WPS, 极速Office不同的软件打开试试
评论 (0)