pdf-FBA货件_箱唛空白页截取
评论
收藏

pdf-FBA货件_箱唛空白页截取

经验分享
明恒
2024-07-01 12:01·浏览量:391
明恒
发布于 2024-06-30 21:09更新于 2024-07-01 12:01391浏览

1、背景:

pdf希望保留有用的信息,把不需要的截掉。

实现原理:

获取源文件pdf里的文本内容以及对应的坐标,根据坐标设置需要写入内容,并设置好新文件pdf的宽度高度,通过show_pdf_page进行写入

2、效果图:

原内容:

修改后:

3、代码:

需要安装  pymupdf  库

import fitz

input_pdf_path = r"C:\Users\Administrator\Downloads\副本.pdf"
new_pdf_path = r"C:\Users\Administrator\Downloads\11.pdf"
def jiequ_pdf(input_pdf_path,new_pdf_path):
    #input_pdf_path  原文件路径
    #new_pdf_path  新文件路径
    print(input_pdf_path)
    print(new_pdf_path)
    doc = fitz.open(input_pdf_path)
    new_doc = fitz.open()
    for page_num in range(len(doc)):
        page = doc[page_num]
        text = page.get_text("dict")["blocks"]
        bbox = text[-1]["bbox"] #获取最后一个内容坐标
        rect = page.rect
        last_block_bbox = fitz.Rect(0,0,rect.width,bbox[-1]+10)  # 获取需要的内容四个坐标
        new_page = new_doc.new_page(width=rect.width,height=bbox[-1]+10)
        new_page.show_pdf_page(new_page.rect, doc, page_num, clip=last_block_bbox)
    new_doc.save(new_pdf_path)
    new_doc.close()



收藏
全部评论1
最新
发布评论
评论