当前位置: 首页 > news >正文

自然语言处理从入门到应用——自然语言处理的基本问题:文本分类(Text Classification, Text Categorization)

分类目录:《自然语言处理从入门到应用》总目录


文本分类(Text Classification, Text Categorization)是最简单也是最基础的自然语言处理问题。即针对一段文本输入,输出该文本所属的类别,其中,类别是事先定义好的一个封闭的集合。文本分类具有众多的应用场景,如垃圾邮件过滤(将邮件分为垃圾和非垃圾两类)、新闻分类(将新闻分为政治、经济和体育等类别)等。在《自然语言处理从入门到应用——自然语言处理的应用任务》文章中介绍的文本情感分类任务就是典型的文本分类问题,类别既可以是褒、贬两类,也可以是喜、怒、哀和惧等多类。在使用机器学习,尤其是深度学习方法解决文本分类问题时,首先,需要使用《自然语言处理从入门到应用——文本的表示方法》中介绍的文本表示技术,将输入的文本转化为特征向量;然后,使用后文将要介绍的机器学习模型(也叫分类器),将输入的特征向量映射为一个具体的类别。

除了直接使用文本分类技术解决实际问题,还有很多自然语言处理问题可以转换为文本分类问题,如文本匹配(Text Matching),即判断两段输入文本之间的匹配关系,包括复述关系(Paraphrasing)即判断两个表述不同的文本语义是否相同、蕴含关系(Entailment),即根据一个前提文本,推断与假设文本之间的蕴含或矛盾关系等。一种转换的方法是将两段文本直接拼接起来,然后按复述或非复述、蕴含或矛盾等关系分类。

参考文献:
[1] 车万翔, 崔一鸣, 郭江. 自然语言处理:基于预训练模型的方法[M]. 电子工业出版社, 2021.
[2] 邵浩, 刘一烽. 预训练语言模型[M]. 电子工业出版社, 2021.
[3] 何晗. 自然语言处理入门[M]. 人民邮电出版社, 2019
[4] Sudharsan Ravichandiran. BERT基础教程:Transformer大模型实战[M]. 人民邮电出版社, 2023
[5] 吴茂贵, 王红星. 深入浅出Embedding:原理解析与应用实战[M]. 机械工业出版社, 2021.

http://www.lryc.cn/news/92043.html

相关文章:

  • 【论文】——Robust High-Resolution Video Matting with Temporal Guidance浅读
  • 第四章、用户体验五要素之范围层解析(本文作用是通俗讲解,让你更容易理解)
  • 计算机毕业论文内容参考|基于python的农业温室智能管理系统的设计与实现
  • Java 进阶 -- 流
  • 硬件 TCP/IP 协议栈
  • word恢复和粘贴按钮变灰色,不可用怎么办?
  • 【unity技巧】Physics2D Raycast、Overlapcircle、OverlapBox检测的用法
  • 一、kafka入门
  • 公司新来一00后,真让人崩溃...
  • (1Gb)S28HS01GTGZBHA030/ S28HS01GTGZBHV033/ S28HS01GTGZBHA033 FLASH - NOR闪存器件
  • 苹果服务端通知v2处理(AppStore Server Notifications V2)
  • matlab 道路点云路缘石边界提取
  • 二叉树详解:带你掌握二叉树
  • LNMP网站框架搭建(编译安装)
  • 详解Servlet API
  • 【小白教程】Docker安装使用教程,以及常用命令!
  • TypeScript基础
  • QML学习二:Doxygen为qml工程生成代码文档
  • Vue 有哪些经典面试题?
  • pandas速学-DataFrame
  • 在任务与执行策略之间的隐性耦合
  • Spring Cloud Alibaba Nacos 构建配置中心
  • 华为OD机试真题 Java 实现【猴子爬山】【2023 B卷 100分】,附详细解题思路
  • 【19JavaScript for 循环】JavaScript for 循环:掌握重复执行的关键
  • MySQL学习(联结,组合查询,全文本搜索)
  • Nautilus Chain:独特且纯粹的创新型 Layer3
  • 十六、立方体贴图(天空盒)
  • UniAD:实现多类别异常检测的统一模型
  • Java 面试 | tcp ip http https(2023版)
  • 全志V3S嵌入式驱动开发(音频输出和音频录制)