python-docx
简介
这是一个用于创建和修改 Word 文档的库。
pip 安装
pip install python-docx
实战
将图片插入到 Word 文档
from docx import Document
from docx.shared import Inches
# 创建一个新的 Word 文档
doc = Document()
# 添加标题
doc.add_heading(‘图片插入示例’, level=1)
# 插入图片到 Word 文档
# ‘path/to/your/image.jpg’ 是你图片的路径
doc.add_picture(‘path/to/your/image.jpg’, width=Inches(4))
# 保存 Word 文档
doc.save(‘output.docx’)
doc.add_picture
方法用于插入图片。width
参数用于设置图片的宽度,你可以根据需要调整。
处理 OCR(光学字符识别)
如果你的图片包含文本,并且你希望将图片中的文本提取到 Word 文档中,你可以使用 OCR 技术进行文本提取,然后再将提取的文本添加到 Word 文档中。你可以使用 pytesseract
库来进行 OCR。
1.安装依赖
你需要安装 pytesseract
和 Pillow
(用于图像处理):
pip install pytesseract pillow
并确保你已安装了 Tesseract OCR 软件。你可以从 Tesseract GitHub 页面 下载并安装它。
2.提取图片中的文本并插入到 Word 文档
from docx import Document
from PIL import Image
import pytesseract
# 加载图片并提取文本
image = Image.open(‘path/to/your/image.jpg’)
text = pytesseract.image_to_string(image)
# 创建一个新的 Word 文档
doc = Document()
# 添加标题
doc.add_heading(‘图片文本提取示例’, level=1)
# 插入提取的文本到 Word 文档
doc.add_paragraph(text)
# 保存 Word 文档
doc.save(‘output_with_text.docx’)