当前位置: 首页 > news >正文

Python读取Word统计词频输出到Excel

1.安装依赖的包

```
"# 读取docx\n",
    "!pip install python-docx\n",
    "!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-docx\n",
    "# 中英文分词\n",
    "!pip install jieba\n",
    "!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba\n",
    "# 输出到excel\n",
    "!pip install pandas"
    "!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas"
```

2.读取docx文件到一个大字符串

```python
import docx
from docx import Document
document = docx.Document("Python.docx")
content = " ".join([para.text for para in document.paragraphs])
```

3. 中文分词

```
import jieba

seg_list = jieba.cut(content,cut_all=False)
print(type(seg_list))

# 过滤标点符号,无意义的单个字
seg_list = [
    word
    for word in seg_list
    if len(word) >1
]
print(seg_list[:30])
```

4.统计词频

```
from collections import Counter
counter = Counter(seg_list)
for key,count in list(counter.items())[:10]:
    print(key,count)
```

5. 构造pandas并且排序

```
import pandas as pd
df = pd.DataFrame(list(counter.items()), columns = ['word','count'])
df.sort_values(by="count",ascending=False,inplace=True)
df.head()
```

将list转化为dict

```
a=['hello','world','1','2']
b= dict(zip(a[0::2],a[1::2]))
b
```
 

http://www.lryc.cn/news/127429.html

相关文章:

  • windows docker mysql8.0 挂载配置文件不生效的问题
  • openGauss学习笔记-42 openGauss 高级数据管理-触发器
  • Leetcode33 搜索旋转排序数组
  • docker 第一章
  • 注册中心 —— SpringCloud Netflix Eureka
  • 2023年国赛数学建模思路 - 案例:异常检测
  • ⛳ Java 反射
  • Android 13 像Settings一样开启关闭深色模式
  • 微服务实战项目-学成在线-项目优化(redis缓存优化)
  • IDEA 找不到项目 ‘org.springframework.boot:spring-boot-starter-parent:3.1.2‘
  • thinkphp开发的在线学习培训考试模拟考试做题练习系统带商城功能证书管理课程系统
  • Android 应用冷启动优化
  • 538页21万字数字政府智慧政务大数据云平台项目建设方案WORD
  • 进程间通信——信号
  • PAT 1039 Course List for Student
  • 【Sklearn】基于决策树算法的数据分类预测(Excel可直接替换数据)
  • 并发编程4:Java 中的并发基础构建模块
  • Vue-10.集成(.editorconfig、.eslintrc.js、.prettierrc)
  • PHP-FPM进程排查
  • PHP-MD5注入
  • 对redis、redisson、springcache总结
  • Java基础知识实际应用(学生信息管理系统、猜拳小游戏、打印日历)
  • Git:在本地电脑上如何使用git?
  • 卷和分区的关系
  • Linux下在qtcreator中创建qt程序
  • 快递再多也不怕!你的顺丰快递用上5G“神器”
  • 微信小程序:模板使用
  • AUTOSAR NvM Block的三种类型
  • Vue+ElementUI实现选择指定行导出Excel
  • SNMP简单介绍