当前位置: 首页 > news >正文

实验3 中文分词

必做题:

  1. 数据准备:academy_titles.txt为“考硕考博”板块的帖子标题,job_titles.txt为“招聘信息”板块的帖子标题,
  2. 使用jieba工具对academy_titles.txt进行分词,接着去除停用词,然后统计词频,最后绘制词云。同样的,也绘制job_titles.txt的词云。
  3. 将jieba替换为pkuseg工具,分别绘制academy_titles.txt和job_titles.txt的词云。要给出每一部分的代码。

效果图

 

代码

import jieba
import re
from wordcloud import WordCloud
from collections import Counter
import matplotlib.pyplot as plt# 读取academy_titles文件内容
with open('C:\\Users\\hp\\Desktop\\实验3\\academy_titles.txt', 'r', encoding='utf-8') as file:academy_titles = file.readlines()# 读取job_titles文件内容
with open('C:\\Users\\hp\\Desktop\\实验3\\job_titles.txt', 'r', encoding='utf-8') as file:job_titles = file.readlines()# 将招聘信息与学术信息分开
academy_titles = [title.strip() for title in academy_titles]
job_titles = [title.strip() for title in job_titles]# 分词、去除停用词、统计词频(对academy_titles)
academy_words = []
for title in academy_titles:words = jieba.cut(title)filtered_words = [word for word in words if re.match(r'^[\u4e00-\u9fa5]+$', word)]academy_words.extend(filtered_words)

请自行补全代码,或者这周五晚上更新完整代码

 

 

http://www.lryc.cn/news/327107.html

相关文章:

  • ReentrantLock 原理
  • 星云小窝项目1.0——项目介绍(一)
  • VR虚拟仿真在线模拟旅游专业情景
  • ROS 2边学边练(3)-- 何为节点(nodes)
  • MySQL的主从复制和读写分离
  • C# 多态 派生类 abstract virtual new
  • 【爬虫基础】第10讲 urlerror的使用及捕获异常
  • 绍兴越城中墙建材蒸压加气混凝土砌块使用注意事项可送塔山府山北海蕺山城南稽山迪荡灵芝东湖皋埠马山斗门鉴湖东浦孙端陶堰富盛
  • 吴渔夫:AI技术引领游戏产业革命,小团队有大作为
  • 深入探索C++对象模型(二)
  • 【javaWeb 第三篇】Vue快速入门
  • 非root用户安装git lfs(git大文件)命令记录
  • PTA 道路管制
  • 自媒体用ChatGPT批量洗稿软件V5.9环境配置/软件设置教程【汇总】
  • 【WPF应用7】 基本控件-Grid 布局的详解与示例
  • flink-connector-redis支持select查询
  • [密码学] 密码学基础
  • 上海:6月1日起取消企业复工复产白名单制
  • SpringBoot扩展篇:循环依赖源码链路
  • 服务消费微服务
  • uni-app纵向步骤条
  • 【JavaEE -- 文件操作IO有关面试题】
  • Open WebUI大模型对话平台-适配Ollama
  • [2021]Zookeeper getAcl命令未授权访问漏洞概述与解决
  • vscode添加gitee
  • 数据库底层原理
  • JVM虚拟机-实战篇
  • 上岸跨考生的备考经验,送给零基础跨考计算机的你!
  • js改变图片曝光度(高亮度)
  • 【NLP笔记】大模型prompt推理(提问)技巧