Python读写docx文件

Python读写docx文件

Python读写word文档有现成的库可以处理

pip install python-docx安装一下。

https://python-docx.readthedocs.io/en/latest/

学习官网:
http://python-docx.readthedocs.org/en/latest/

import docx
# 新建,打开,保存文件。

import docx
#新建文档
doc_new = docx.Document()
# 保存文档
doc_new.save('demo.docx')
#读取文档
doc = docx.Document('demo.docx')

python-docx包含了word文档的相关对象

  • doc.paragraphs #段落
  • doc.tables #表格
  • doc.sections #节
  • doc.styles #样式
  • doc.inline_shapes #内置图形

段落样式

# 插入段落。

doc.add_paragraph('第一段',style=None) #插入一个段落,文本为“第一段”
#默认是不应用样式,这里也可以不写style参数,或者指定一个段落样式

doc.add_paragraph('第二段',style='Heading 2')
#这些样式都是word默认带有的样式,可以直接罗列出来有哪些段落样式
print ([s.name for s in doc.styles if s.type==1])

段落样式 :

['Normal', 'Header', 'Footer', 'Heading 1', 'Heading 2', 'Heading 3', 'Heading 4', 'Heading 5', 'Heading 6', 'Heading 7', 'Heading 8', 'Heading 9', 'No Spacing', 'Title', 'Subtitle', 'List Paragraph', 'Body Text', 'Body Text 2', 'Body Text 3', 'List', 'List 2', 'List 3', 'List Bullet', 'List Bullet 2', 'List Bullet 3', 'List Number', 'List Number 2', 'List Number 3', 'List Continue', 'List Continue 2', 'List Continue 3', 'macro', 'Quote', 'Caption', 'Intense Quote', 'TOC Heading']

# 新增样式
from docx.shared import RGBColor #这个是docx的颜色类
#新建文档
#新增样式(第一个参数是样式名称,第二个参数是样式类型:1代表段落;2代表字符;3代表表格)
style = doc.styles.add_style('style name 1', 2)
#设置具体样式(修改样式字体为蓝色,当然还可以修改其他的)
style.font.color.rgb = RGBColor(0x0, 0x0, 0xff)

字符样式

# 字符样式
# 插入一个空白段落
p = doc.add_paragraph('')
# 写入
p.add_run('毛利1', style="Heading 1 Char")
p.add_run('毛利2')
p.add_run('毛利3', style="Heading 2 Char")
#这样一个段落就应用了两个字符样式,中间“毛利”就没应用样式
print(p.text) #输出结果是u'123456789' 也还是连续的

毛利1毛利2毛利3

# 设置字体
r = p.add_run('毛利4')
r.font.bold = True    #加粗
r.font.italic = True  #倾斜 

表格操作

# 表格操作

#新建一个2x3的表格,style可以不写
table=doc.add_table(rows=2,cols=3,style=None)
#可以用table 的rows和columns得到这个表格的行数和列数
print (len(table.rows))
print (len(table.columns))
#遍历表格rows
for index,row in enumerate(table.rows):
    row.cells[0].text = '毛利{}'.format(index)
    print(row.cells[0].text)

#新增行或列
table.add_row()
table.add_column(width=1)

2

3

毛利0

毛利1

<docx.table._Column at 0x17a7f928128>

官方例子

# 官方例子
from docx import Document
from docx.shared import Inches

document = Document()

document.add_heading('Document Title', 0)
# 段落
p = document.add_paragraph('A plain paragraph having some ')
p.add_run('bold').bold = True
p.add_run(' and some ')
p.add_run('italic.').italic = True
# 
document.add_heading('Heading, level 1', level=1)
document.add_paragraph('Intense quote', style='Intense Quote')

document.add_paragraph(
    'first item in unordered list', style='List Bullet'
)
document.add_paragraph(
    'first item in ordered list', style='List Number'
)

# document.add_picture('monty-truth.png', width=Inches(1.25))

records = (
    (3, '101', 'Spam'),
    (7, '422', 'Eggs'),
    (4, '631', 'Spam, spam, eggs, and spam')
)

table = document.add_table(rows=1, cols=3)
hdr_cells = table.rows[0].cells
hdr_cells[0].text = 'Qty'
hdr_cells[1].text = 'Id'
hdr_cells[2].text = 'Desc'
for qty, id, desc in records:
    row_cells = table.add_row().cells
    row_cells[0].text = str(qty)
    row_cells[1].text = id
    row_cells[2].text = desc

document.add_page_break()

document.save('demo1.docx')

效果如下图所示

总结

参考:
http://python-docx.readthedocs.org/en/latest/

相关文章

Python 实现从文本文件提取数据并分析保存

一、引言在日常的数据处理工作中,我们经常会遇到从文本文件中提取特定信息并进行分析的需求。本文将详细介绍如何使用 Python 编写代码,从一个包含用户网络使用信息的文本文件中提取用户姓名、入站流量和出...

Python处理文本的25个经典操作

Python处理文本的优势主要体现在其简洁性、功能强大和灵活性。具体来说,Python提供了丰富的库和工具,使得对文件的读写、处理变得轻而易举。简洁的文件操作接口Python通过内置的open()函数...

Python:读取文本返回关键词及其权重

使用 jieba.analyse 库 函数 extract_tags( )从文本 data 中提取关键词,并返回关键词及其权重。参数:data:待分析的文本(字符串)。topK=10:提取权重最高的前...

Python读写文本数据

问题你需要读写各种不同编码的文本数据,比如 ASCII,UTF-8或UTF-16编码等。解决方案使用带有 rt 模式的 open()函数读取文本文件。如下所示:# Read the entire fi...

Python如何读取PDF中的文字和图片,请移步至此!

从PDF中提取内容能帮助我们获取文件中的信息,以便进行进一步的分析和处理。此外,在遇到类似项目时,提取出来的文本或图片也能再次利用。要在Python中通过代码提取PDF文件中的文本和图片,可以使用 S...