python-docx

简介

这是一个用于创建和修改 Word 文档的库。

pip 安装

pip install python-docx

实战

将图片插入到 Word 文档

from docx import Document
from docx.shared import Inches

# 创建一个新的 Word 文档
doc = Document()

# 添加标题
doc.add_heading(‘图片插入示例’, level=1)

# 插入图片到 Word 文档
# ‘path/to/your/image.jpg’ 是你图片的路径
doc.add_picture(‘path/to/your/image.jpg’, width=Inches(4))

# 保存 Word 文档
doc.save(‘output.docx’)

doc.add_picture 方法用于插入图片。width 参数用于设置图片的宽度,你可以根据需要调整。

处理 OCR(光学字符识别)

如果你的图片包含文本,并且你希望将图片中的文本提取到 Word 文档中,你可以使用 OCR 技术进行文本提取,然后再将提取的文本添加到 Word 文档中。你可以使用 pytesseract 库来进行 OCR。

1.安装依赖

你需要安装 pytesseractPillow(用于图像处理):

pip install pytesseract pillow

并确保你已安装了 Tesseract OCR 软件。你可以从 Tesseract GitHub 页面 下载并安装它。

2.提取图片中的文本并插入到 Word 文档

from docx import Document
from PIL import Image
import pytesseract

# 加载图片并提取文本
image = Image.open(‘path/to/your/image.jpg’)
text = pytesseract.image_to_string(image)

# 创建一个新的 Word 文档
doc = Document()

# 添加标题
doc.add_heading(‘图片文本提取示例’, level=1)

# 插入提取的文本到 Word 文档
doc.add_paragraph(text)

# 保存 Word 文档
doc.save(‘output_with_text.docx’)

 

作者 admin

百度广告效果展示