打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Python提取docx文档中例题、插图、表格清单

from docx import Document

import re

result = {'li':[], 'fig':[], 'tab':[], 'tuozhan':[]}

doc = Document(r'C:\test.docx')

for p in doc.paragraphs:

    t = p.text #获取每一段的文本

    if re.match('例\d+-\d+ ', t):

        result['li'].append(t)

    elif re.match('图\d+-\d+ ', t):

        result['fig'].append(t)

    elif re.match('表\d+-\d+ ', t):

        result['tab'].append(t)

print('='*30)

for li in result['li']:

    print(li)

print('='*30)

for fig in result['fig']:

    print(fig)

print('='*30)

for tab in result['tab']:

    print(tab)

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
Python|python实现将题目转化为字典
盘点一个Python自动化办公的实战案例(word文件处理)
Python - 经典程序示例
Python 爬虫正则表达式和re库,及re库的基本使用,提取单页面信息
爬虫的解析方式三:正则表达式
Python爬虫从入门到精通(解析库re的使用:正则表达式)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服