使用Python拆分、合并PDF(python分类合并数据)

liftword3周前 (05-04)技术文章12

知识点

使用Python操作PDF!

主要内容有:1、PDF拆分;2、PDF合并。

在工作中,难免会和PDF打交道,所以掌握一点处理PDF的技能非常有必要,本文将介绍几个常用的功能。

PDF拆分

很多时候,获取的PDF很长,我们如果想要截取其中某些页面那么怎么处理呢?有很多的工具可以完成类似的操作,我们用Python也能做到类似的事情。并且用Python来做类似的处理,非常便于我们后面做一些批处理工具。

直接上代码吧!

from PyPDF2 import PdfFileWriter, PdfFileReader

def pdf_split(pdf_in,pdf_out,start,end):
    # 初始化一个pdf
    output = PdfFileWriter()
    # 读取pdf
    with open(pdf_in,'rb') as in_pdf:
        pdf_file = PdfFileReader(in_pdf)
        # 从pdf中取出指定页
        for i in range(start, end):
            output.addPage(pdf_file.getPage(i))
        # 写出pdf
        with open(pdf_out,'ab') as out_pdf:
            output.write(out_pdf)

if __name__ == '__main__':
    pdf_in  = '待分割pdf'
    pdf_out = '分割后pdf'
    s,e     = 起始页,结束页
    pdf_manage(pi, po, s, e)

PDF合并

与pdf拆分相对的,是pdf的合并。使用Python也能轻松完成,不早了,不废话了,还是直接上代码吧!

from PyPDF2 import PdfFileReader,PdfFileMerger

def pdf_merger(in_pdfs,out_pdf):
    # 初始化
    merger = PdfFileMerger()
    # 循环,合并
    for in_pdf in in_pdfs:
        with open(in_pdf,'rb') as pdf:
            merger.append(PdfFileReader(pdf))
    merger.write(out_pdf)

if __name__ == '__main__':
    in_pdfs = ['放要合并的PDF文件名称,注意顺序']
    out_pdf = '输出文件'
    pdf_merger(in_pdfs, out_pdf)

相关文章

信创平台下使用 Python 的 PyPDF2 库,将PDF文件拆分成单页

如何将一个多页码的PDF文档拆分成一页一页的单页呢?究竟怎样才能把一个拥有众多页码的 PDF 文档拆解为一页一页的单独页面呢?在探寻将多页码的 PDF 文档拆分成一页一页单页的有效途径时,或许利用使用...

高效办公!Python 批量生成PDF文档是如何做到的?

前言:日常办公中,经常会使用PDF文档,难免需要对PDF文档进行编辑,有时候PDF文档中的大部分内容都是一样的,只是发送对象不同。这种模板套用的场景下,使用Python进行自动化就尤为方便,用最短的时...

10分钟实现PDF转Word神器!看DeepSeek如何用Python解放打工人

开篇痛点每个被PDF折磨过的职场人都懂——领导发来的扫描件要修改,手动抄到Word需要2小时;网上下载的报告想复制数据,却变成乱码…今天我们用Python+DeepSeek,10分钟打造一个智能转换工...

AI启动!教你写一个PDF免费转成word文件程序!

编程项目轻松学,代码生成一步到位。AI启动PDF转成word文档so easy!·首先打开豆包,选择AI编程,输入用Python写一个PDF转换成word的程序,啪啦啪啦啪啦全力输出。·要输出桌面,运...

pdfkit | 利用python实现html文件转pdf

在用jupyter notebook写代码文档的时候,有时需要导出pdf版本,但jupyter会报错。我在想,除了网上的debug方法,还没有其他方案可以生成pdf。度娘搜了下,很多博客推荐Pytho...

Python一行代码实现PDF转Excel(python如何将pdf转化为excel)

第三方包tabula工具适用于从PDF中提取可复制(非图片格式)的表格数据,并输出表格安装pip install tabula-py函数调用df= tabula.read_pdf("PDF文件...