【Python笔记】Python读取word文本操作详解

文件借鉴摘取:https://www.jb51.net/article/133405.htm(感谢,就喜欢这种有用的文章)

背景:python直接读取txt无压力,但是直接读取word,涉及到docx这样的后缀文件的时候,会有压力,无法读取内容报错,作为一个搬砖人,怎么能允许砖嘚瑟呢?办它...

正文:

本文研究的主要问题时Python读取word文本操作,分享了相关概念和实现代码,具体如下。

一,docx模块  

  Python可以利用python-docx模块处理word文档,处理方式是面向对象的。也就是说python-docx模块会把word文档,文档中的段落、文本、字体等都看做对象,对对象进行处理就是对word文档的内容处理。

二,相关概念

如果需要读取word文档中的文字(一般来说,程序也只需要认识word文档中的文字信息),需要先了解python-docx模块的几个概念。

1,Document对象,表示一个word文档。
2,Paragraph对象,表示word文档中的一个段落
3,Paragraph对象的text属性,表示段落中的文本内容。

三,模块的安装和导入

  安装这个模块的时候,对新人还是很烦的,会用其实超级简单,会在自己的“相关软件安装部署”分类中,记录一个安装笔记,方便自己学习。

  基本的安装需求为:1. 先安装python;2.安装pip;3. 利用pip去在线下载和自动安装python-docx;  

  需要注意,python-docx模块安装需要在cmd命令行中输入pip install python-docx,如下图表示安装成功(最后那句英文Successfully installed,成功地安装完成,十分考验英文水平。)

注意在导入模块时,用的是import docx。

  注意:安装完成后需要检验下自己这个模块是否真正安装成功了,可以通过下面的方法(win7下,且确保python安装正常):

  (1)运行cmd,直接键入命令:python

   (2)上面这样就代表正常了,python文件中可正常导入这个库了

四,举个例子读取word文本

  首先创建一个docx文档,内容是这样的:

  代码如下:

  1. 首先导入docx库

   2. 然后读取一个文件中内容

   3. 运行结果(由于我加了一些关键字检索的处理所以,处理完运行结果是这样的)

   上面就是,这个python模块的简单应用。

原文地址:https://www.cnblogs.com/coreLeo/p/15077444.html