python文本分析与挖掘(一)-构建语料库

liftword4个月前 (02-19)技术文章63

实现功能:

python文本分析与挖掘(一)-构建语料库


实现代码:

1

import os

2

from warnings import simplefilter

3

simplefilter(action='ignore', category=FutureWarning)

4

import os.path

5

import codecs

6

import pandas

7


8

#==========词料库构建=================

9

def Create_corpus(file):

10

filePaths = []

11

fileContents=[]

12

for root, dirs, files in os.walk(file):

13

print(root)

14

print(dirs)

15

print(files)

16

# os.path.join()方法拼接文件名返回所有文件的路径,并储存在变量filePaths中

17

for name in files:

18

filePath=os.path.join(root, name)

19

filePaths.append(filePath)

20

print(filePaths)

21

f = codecs.open(filePath, 'r', 'utf-8')

22

print(f)

23

fileContent = f.read()

24

print(fileContent)

25

f.close()

26

fileContents.append(fileContent)

27

#codecs.open()方法打开每个文件,用文件的read()方法依次读取其中的文本,将所有文本内容依次储存到变量fileContenst中,然后close()方法关闭文件。

28

#创建数据框corpos,添加filePaths和fileContents两个变量作为数组

29

corpos = pandas.DataFrame({'filePath': filePaths,'fileContent': fileContents})

30

print(corpos)

31


32

Create_corpus("F:\医学大数据课题\AI_SLE\AI_SLE_TWO\TEST_DATA")

实现效果:


喜欢记得点赞,在看,收藏,

关注V订阅号:数据杂坛,获取数据集,完整代码和效果,将持续更新!

相关文章

Python数据挖掘——文本分析_用python处理文本数据分类

作者 | zhouyue65来源 | 君泉计量文本挖掘:从大量文本数据中抽取出有价值的知识,并且利用这些知识重新组织信息的过程。一、语料库(Corpus)语料库是我们要分析的所有文档的集合。二、中文分...

Python文本统计与分析从基础到进阶

本文分享自华为云社区《Python文本统计与分析从基础到进阶-云社区-华为云》,作者:柠檬味拥抱。在当今数字化时代,文本数据无处不在,它们包含了丰富的信息,从社交媒体上的帖子到新闻文章再到学术论文。对...

文本大数据时代,每个开发人员都需要了解如何分析文本

现在,使用Python和开源工具可以非常方便地进行文本分析,因此在这个文本大数据时代,每个开发人员都需要了解如何分析文本。推荐相关图书:《自然语言处理与计算语言》本书介绍了如何应用自然语言处理和计算语...

听懂用户们在说什么——UGC文本分析怎么做?

编辑导语:文本分析对于用户研究来说十分重要,本文作者分享了UGC文本分析的具体方法逻辑,从获取评论数据、预处理评论数据、分析评论数据、主题分析展开阐述,感兴趣的一起来学习一下吧,希望对你有帮助。如果你...

Python脚本之文本处理和操作_python文本处理教程

Python脚本之文本处理和操作计算文本文件中的字数#计算文本文件的数字 def count_words(file_path): with open(file_path, 'r', encod...

NLTK文本分析好好玩!学姐教你挖掘小说情感走向

亲爱的小伙伴们~今天学姐要带大家玩一个超有趣的Python项目!我们要用NLTK这个神奇的工具来分析小说中的情感变化呢。通过这个项目,你不仅能学会文本分析的基础知识,还能发现小说里潜藏的情感起伏,是不...