victory的博客

长安一片月,万户捣衣声

0%

jieba | python词频分析

python词频分析

程序分析了”主要业务”文件夹的所有文件中的文本信息的词频(分别存储在”词频”文件夹中)

实现代码:

import os
import jieba
import pandas as pd

path = '主要业务'  # 文件所在文件夹
files = [path + "\\" + i for i in os.listdir(path)]  # 获取文件夹下的文件名,并拼接完整路径

for file in files:
    txt = open(file, "r", encoding="utf-8").read()
    words = jieba.lcut(txt)
    wordsDict = {}  # 新建字典用于储存词及词频
    for word in words:
        if len(word) == 1:  # 单个的字符不作为词放入字典
            continue
        else:
            wordsDict.setdefault(word, 0)  # 设置词的初始出现次数为0
            wordsDict[word] += 1  # 对于重复出现的词,每出现一次,次数增加1

    stopWords = ["2019", "不断", "持续", "主要", "企业", "产品", "业务", "公司", "行业", "000", "用于", "情况", "方面", "一种", "要求", "对于",
                 "进行", "一般", "212", "实现", "处理", "通过", "投入", "随着"]
    for word in stopWords:
        if word in wordsDict:
            del wordsDict[word]

    wordsDict_seq = sorted(wordsDict.items(), key=lambda x: x[1], reverse=True)  # 按字典的值降序排序

    df = pd.DataFrame(wordsDict_seq, columns=['词', '次数'])
    df.to_excel("词频//{}.xlsx".format(file.split("\\")[1][:-4]), index=False)  # 存为Excel时去掉index索引列
  

“主要业务”文件夹的所有文件:
东旭蓝天:2019年年度报告.txt
保利地产:2018年年度报告.txt
共达电声:2019年年度报告(更新后).txt
华特气体:2019年年度报告(修订版).txt
吉峰科技:2019年年度报告(更新后).txt
引力传媒:2019年年度报告(修订版).txt
方正科技:2019年年度报告.txt
湖北宜化:2019年年度报告(更新后).txt
联创股份:2019年年度报告(更新后).txt
高乐股份:2019年年度报告.txt