当前位置: 首页 > news >正文

0 NLP: 数据获取与EDA

0数据准备与分析

二分类任务,正负样本共计6W;

数据集下载

https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip

样本的分布

    正负样本中评论字段的长度 ,超过500的都很少,可以直接截断;

  1. 处理的时候长文本截断;
  2. 可以前面取一点,中间取,尾巴取;

 下载停用词:备用

import nltk
from nltk.corpus import stopwords

# 下载停用词资源
nltk.download('stopwords')
# 获取中文停用词列表
stopwords_cn_list = stopwords.words('chinese')

中文词向量准备:

https://github.com/Embedding/Chinese-Word-Vectors.git

在初始化阶段预先使用已经训练好的词表进行对应;

文件说明
vocab.pkl词映射列表:格式如
{' ': 0,'0': 1,'1': 2,'2': 3,':': 4,'大': 5,'国': 6,'图': 7,'(': 8,}
embedding_SougouNews.npz预训练词向量文件 ,与vocab.pkl中文对应关系。

ref:

中文文本分类 pytorch实现 - 知乎

http://www.lryc.cn/news/251135.html

相关文章:

  • 159.库存管理(TOPk问题!)
  • 【开源】基于Vue+SpringBoot的康复中心管理系统
  • 设计模式总览
  • 数据链路层之VLAN基本概念和基本原理
  • UVA11729 Commando War
  • 【数据库】数据库基于封锁机制的调度器,使冲突可串行化,保障事务和调度一致性
  • 大文件分片上传、分片进度以及整体进度、断点续传(一)
  • Pytest 的小例子
  • 大数据(十一):概率统计基础
  • web前端之TypeScript
  • 计网Lesson6 - IP 地址分类管理
  • Nat. Mach. Intell. | 预测人工智能的未来:在指数级增长的知识网络中使用基于机器学习的链接预测
  • MySQL海量数据配置优化教程
  • Mac-idea快捷键操作
  • HarmonyOS脚手架:UI组件之文本和图片
  • 详细学习Pyqt5中的6种按钮
  • 【工具】Zotero|使用Zotero向Word中插入引用文献(2023年)
  • 利用Python爬虫爬取豆瓣电影排名信息
  • 灯光开不了了,是不是NVIDIA的问题
  • 线性可分SVM摘记
  • LabVIEW在调用image.cpp或drawmgr.cpp因为DAbort而崩溃
  • nodejs微信小程序+python+PHP贵州旅游系统的设计与实现-计算机毕业设计推荐MySQL
  • WebUI自动化学习(Selenium+Python+Pytest框架)003
  • python+Appium自动化:python多线程多并发启动appium服务
  • 【计算机网络笔记】802.11无线局域网
  • 用C++和python混合编写数据采集程序?
  • Android HCI日志分析案例1
  • LangChain(0.0.339)官方文档四:Prompts下——prompt templates的存储、加载、组合和部分格式化
  • 鸿蒙开发笔记
  • 「计算机网络」Cisco Packet Tracker计算机网络仿真器的使用