当前位置：首页 > news >正文

0 NLP: 数据获取与EDA

news 2025/8/23 20:54:59

0数据准备与分析

二分类任务，正负样本共计6W；

数据集下载

https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip

样本的分布

正负样本中评论字段的长度，超过500的都很少，可以直接截断；

处理的时候长文本截断；
可以前面取一点，中间取，尾巴取；

下载停用词：备用

import nltk
from nltk.corpus import stopwords

# 下载停用词资源
nltk.download('stopwords')
# 获取中文停用词列表
stopwords_cn_list = stopwords.words('chinese')

中文词向量准备：

https://github.com/Embedding/Chinese-Word-Vectors.git

在初始化阶段预先使用已经训练好的词表进行对应；

文件	说明
vocab.pkl	词映射列表：格式如 {' ': 0,'0': 1,'1': 2,'2': 3,'：': 4,'大': 5,'国': 6,'图': 7,'(': 8,}
embedding_SougouNews.npz	预训练词向量文件，与vocab.pkl中文对应关系。

ref:

中文文本分类 pytorch实现 - 知乎

查看全文

http://www.lryc.cn/news/251135.html

159.库存管理（TOPk问题！）

【开源】基于Vue+SpringBoot的康复中心管理系统

设计模式总览

数据链路层之VLAN基本概念和基本原理

UVA11729 Commando War

【数据库】数据库基于封锁机制的调度器，使冲突可串行化，保障事务和调度一致性

大文件分片上传、分片进度以及整体进度、断点续传（一）

Pytest 的小例子

大数据(十一)：概率统计基础

web前端之TypeScript

计网Lesson6 - IP 地址分类管理

Nat. Mach. Intell. | 预测人工智能的未来：在指数级增长的知识网络中使用基于机器学习的链接预测

MySQL海量数据配置优化教程

Mac-idea快捷键操作

HarmonyOS脚手架：UI组件之文本和图片

详细学习Pyqt5中的6种按钮

【工具】Zotero｜使用Zotero向Word中插入引用文献（2023年）

利用Python爬虫爬取豆瓣电影排名信息

灯光开不了了，是不是NVIDIA的问题

线性可分SVM摘记

LabVIEW在调用image.cpp或drawmgr.cpp因为DAbort而崩溃

nodejs微信小程序＋python＋PHP贵州旅游系统的设计与实现-计算机毕业设计推荐MySQL

WebUI自动化学习(Selenium+Python+Pytest框架)003

python+Appium自动化：python多线程多并发启动appium服务

【计算机网络笔记】802.11无线局域网

用C++和python混合编写数据采集程序？

Android HCI日志分析案例1

LangChain（0.0.339）官方文档四：Prompts下——prompt templates的存储、加载、组合和部分格式化

鸿蒙开发笔记

「计算机网络」Cisco Packet Tracker计算机网络仿真器的使用

0数据准备与分析

数据集下载

样本的分布

相关文章：