当前位置: 首页 > news >正文

【NLP笔记】文本分词、清洗和标准化

文章目录

  • 文本分词
    • 中文分词
    • 英文分词
    • 代码示例
  • 文本清洗和标准化

文本分词

参考文章:​一文看懂NLP里的分词(中英文分词区别+3 大难点+3 种典型方法);

文本分词处理NLP的基础,先通过对文本内容进行分词、文本与处理(无用标签、特殊符号、停用词、大写转小写)、向量化等操作,然后才能够作为各种算法的输入,分词一直是 NLP 的基础,但是现在也不一定了,不过在一些特定任务中,分词还是必要的。如:关键词提取、命名实体识别等,感兴趣的可以看看这篇论文:Is Word Segmentation Necessary for Deep Learning of Chinese Representations?

中文分词

  1. HanLP;
  2. 斯坦福CoreNLP;
  3. ANSJ;
  4. 哈工大LTP;
  5. KCWS;
  6. Jieba;
  7. IK;
  8. 清华大学THULAC;
  9. ICATLAS;

英文分词

  1. keras;
  2. spaCy;
  3. gensim;
  4. nltk;

代码示例

  • 文本分词:自然语言处理(NLP)(一)文本预处理篇之分词、向量表示和特征处理;
  • 文档分词:批量处理文件构造语料库并训练Doc2Vec模型(基于gensim的实现);

文本清洗和标准化

参考文档:

  • NLP文本技术 nlp文本预处理;
  • 文本的清洗和标准化:如何处理混乱的数据?;
  • Steps for effective text data cleaning (with case study using Python);
  • 文本清洗(小技巧);

经分词后的文本通常包含很多冗余信息,因此需要进行数据清洗,具体包含:文本清洗(无用标签剔除、特殊符号剔除、停用词剔除、大小写转换等)和文本标准化(字符集的转换、单词的统一化、时间和日期的统一化);

在完成具体任务时,需要根据任务目标对文本数据进行清洗,保证冗余信息的剔除。

http://www.lryc.cn/news/319435.html

相关文章:

  • 2024 年系统架构设计师(全套资料)
  • springboot蛋糕订购小程序的设计与实现
  • MongoDB——linux中yum命令安装及配置
  • 序列化笔记
  • ArkTs的资源Resource类型怎么转为string
  • Apache zookeeper kafka 开启SASL安全认证
  • Rust 的 inline 内联编译策略
  • 软考73-上午题-【面向对象技术2-UML】-UML中的图4
  • html编辑器
  • 利用“定时执行专家”软件的25种任务与12种触发器,提升IT系统管理自动化水平
  • 设计模式学习笔记 - 规范与重构 - 8.实践:程序出错返回啥?NULL、异常、错误吗、空对象?重构ID生成器,处理各函数的异常
  • 【Python使用】python高级进阶知识md总结第4篇:静态Web服务器-命令行启动动态绑定端口号,html 的介绍【附代码文档】
  • langchain+chatglm3+BGE+Faiss Linux环境安装依赖
  • Kubernetes kafka系列 | k8s部署kafka+zookeepe集群(可外部通信)
  • IDEA创建Sping项目只能勾选17和21,没有Java8?
  • ChatGPT 遇到对手:Anthropic Claude 语言模型的崛起
  • 【LeetCode热题100】148. 排序链表(链表)
  • Ubuntu Linux - Primavera P6 EPPM 安装及分享
  • 微信小程序开发学习笔记——3.11完成form评论案例的实现逻辑
  • Linux/Ubuntu/Debian控制台启动的程序和terminal分离的方法-正在运行怎么关闭窗口
  • Lua-Lua与C的交互3
  • TensorFlow的介绍和简单案例
  • 基于Java+SpringMVC+vue+element实现前后端分离校园失物招领系统详细设计
  • 【Stable Diffusion】入门-04:不同模型分类+代表作品+常用下载网站+使用技巧
  • vue3之带参数的动态路由
  • 深入探讨GPT系列与其他NLP架构的流行度差异及其应用解析
  • 实现兼容性良好的前端页面开发
  • Rust学习02:推荐一本入门书,免费的
  • npm run dev命令的执行顺序和原理
  • C# SM2加解密 ——国密SM2算法