当前位置: 首页 > news >正文

fastText-文本分类

fastText介绍

fastText是一个快速文本分类算法,与基于神经网络的分类算法相比有两大优点:
1、fastText在保持高精度的情况下加快了训练速度和测试速度
2、fastText不需要预训练好的词向量,fastText会自己训练词向量
3、fastText两个重要的优化:Hierarchical Softmax、N-gram

  fastText结合了自然语言处理和机器学习中最成功的理念。这些包括了使用词袋以及n-gram袋表征语句,还有使用子字(subword)信息,并通过隐藏表征在类别间共享信息。我们另外采用了一个softmax层级(利用了类别不均衡分布的优势)来加速运算过程。

这些不同概念被用于两个不同任务: 

  • 有效文本分类 :有监督学习
  • 学习词向量表征:无监督学习

fastText原理 

包含三部分,模型架构,层次SoftMax,N-gram特征。

1、模型架构

  fastText模型架构和word2vec中的CBOW很相似, 不同之处是fastText预测标签而CBOW预测的是中间词,即模型架构类似但是模型的任务不同。

1.1 word2vec的CBOW架构

  word2vec将上下文关系转化为多分类任务,进而训练逻辑回归模型,这里的类别数量|V|词库大小。通常的文本数据中,词库少则数万,多则百万,在训练中直接训练多分类逻辑回归并不现实。word2vec中提供了

http://www.lryc.cn/news/346455.html

相关文章:

  • 【nodejs 命令行交互神器 - inquirer.js】
  • Liunx软件包管理(上)
  • 华为eNSP中型企业局域网网络规划设计(下)
  • C语言(指针)1
  • perl:用 MIDI::Simple 生成midi文件,用 pygame 播放 mid文件
  • 数据库-脏读
  • react 用合计项
  • IP 地址追踪工具促进有效的 IP 管理
  • 快手蓝V商家电话采集软件操作教程
  • 工业机器人应用实践之玻璃涂胶(篇二)
  • C++ 455. 分发饼干
  • 未来娱乐新地标?气膜球幕影院的多维体验—轻空间
  • 工业机器人应用实践之玻璃涂胶(篇三)
  • 基于Huffman编码的字符串统计及WPL计算
  • 处理VS2022中(C/C++)scanf报错问题(3种)
  • C#面:Session 喜欢丢值且占内存,Cookis不安全,请问 C# 可以用什么办法代替这两种原始的方法
  • Python并发编程 05 锁、同步条件、信号量、线程队列、生产者消费者模型
  • UIKit之UIButton
  • 阿里云VOD视频点播流程(2)
  • 在Ubuntu上搭建幻兽帕鲁服务器
  • Java中常用类String的不可变性详解
  • uniapp 自定义App UrlSchemes
  • MSP430环境搭建
  • 【Qt C++实现蓝牙互联】
  • AI绘画已如此厉害,为何我们仍需学习绘画?
  • Android 实现背景图片不被拉伸的效果 9-patch图片 .9图
  • Java EE/Jakarta EE范畴一览
  • 洛谷 P3391:文艺平衡树 ← Splay树模板题
  • 【高校科研前沿】北师大陈晋教授团队在遥感顶刊发表最新成果:ClearSCD模型:在高空间分辨率遥感影像中综合利用语义和变化关系进行语义变化检测
  • 关于YOLO8学习(五)安卓部署ncnn模型--视频检测