python词频分析
程序分析了”主要业务”文件夹的所有文件中的文本信息的词频(分别存储在”词频”文件夹中)
实现代码:
import os
import jieba
import pandas as pd
path = '主要业务' # 文件所在文件夹
files = [path + "\\" + i for i in os.listdir(path)] # 获取文件夹下的文件名,并拼接完整路径
for file in files:
txt = open(file, "r", encoding="utf-8").read()
words = jieba.lcut(txt)
wordsDict = {} # 新建字典用于储存词及词频
for word in words:
if len(word) == 1: # 单个的字符不作为词放入字典
continue
else:
wordsDict.setdefault(word, 0) # 设置词的初始出现次数为0
wordsDict[word] += 1 # 对于重复出现的词,每出现一次,次数增加1
stopWords = ["2019", "不断", "持续", "主要", "企业", "产品", "业务", "公司", "行业", "000", "用于", "情况", "方面", "一种", "要求", "对于",
"进行", "一般", "212", "实现", "处理", "通过", "投入", "随着"]
for word in stopWords:
if word in wordsDict:
del wordsDict[word]
wordsDict_seq = sorted(wordsDict.items(), key=lambda x: x[1], reverse=True) # 按字典的值降序排序
df = pd.DataFrame(wordsDict_seq, columns=['词', '次数'])
df.to_excel("词频//{}.xlsx".format(file.split("\\")[1][:-4]), index=False) # 存为Excel时去掉index索引列
“主要业务”文件夹的所有文件:
东旭蓝天:2019年年度报告.txt
保利地产:2018年年度报告.txt
共达电声:2019年年度报告(更新后).txt
华特气体:2019年年度报告(修订版).txt
吉峰科技:2019年年度报告(更新后).txt
引力传媒:2019年年度报告(修订版).txt
方正科技:2019年年度报告.txt
湖北宜化:2019年年度报告(更新后).txt
联创股份:2019年年度报告(更新后).txt
高乐股份:2019年年度报告.txt