当前位置: 首页 > news >正文

词嵌入、情感分类任务

目录

1.词嵌入(word embedding)

对单词使用one-hot编码的缺点是难以看出词与词之间的关系。

所以需要使用更加特征化的表示(featurized representation),如下图所示,我们可以得到每个词的向量表达。

 

假设训练集中有这样一条序列:I want a glass of orange juice to go along with my cereal.
在skip-grams模型中,我们要做的就是抽取上下文和目标词配对,来构造一个监督学习任务。
(PS:skip-gram模型是根据中心词预测上下文m个词的算法,m是用户自己定义的预测窗口大小)

在模型中,以上下文作为输入,来预测目标词,conten c("orange")->...->softmax->y。
但是使用softmax计算概率过于费时,p(t|c)=\frac{e^{\theta_{t}^{T}e_{c}}}{\sum_{j=1}^{10000}e^{\theta_{j}^{T}e_{c}}}。(10000表示词汇表的数量,e_{t}是关于输出target的参数)。

解决办法:
①可以使用分级的softmax分类器(hierarchical softmax classifier)。例如,第一个分类器告诉你目标在前5000个单词中,第二个分类器告诉你目标在前2500个单词中...

②负采样(negative sampling)。假设有1个正样本和k个负样本,只需要k+1个二分类logistic回归分类器(binary logistic regression classfiers)即可。


 

2.情感分类任务

例如,对一个餐馆进行评价,需要对评论的情绪进行分类。

 

对于该任务,可以使用普通的分类网络,对每个词嵌入向量求和或取平均,最后输入到softmax层进行分类。但是这样没有考虑词序。比如"Completely lacking in good taste, good service, and good ambience"这样的评论虽然有很多“good”,但其实是负面评论。

 可以考虑使用RNN。

 

http://www.lryc.cn/news/111943.html

相关文章:

  • TypeScript使用技巧
  • MySQL — InnoDB事务
  • LeetCode 42. 接雨水(动态规划 / 单调栈)
  • 顺序表、链表刷题指南(力扣OJ)
  • Lambda表达式总结
  • 岛屿的最大面积
  • 迭代器模式(Iterator)
  • Goland搭建远程Linux开发
  • react中PureComponent的理解与使用
  • 洛谷——P5714 【深基3.例7】肥胖问题
  • Mac隐藏和显示文件
  • 软件工程中应用的几种图辨析
  • 下载离线版的VS Visual Studio 并下载指定的版本
  • Eureka 学习笔记5:InstanceRegistry
  • System Verilog——虚方法的使用
  • 线性规划和单纯形法-原理篇
  • FBX SDK开发快速上手指南
  • 探讨|使用或不使用机器学习
  • Git笔记--Ubuntu上传本地项目到github
  • 基于Go编写一个可视化Navicat本地密码解析器
  • Maven【入门笔记】
  • Android Studio中使用cmake开发JNI实战
  • 第七章 图论
  • IEEE SystemVerilog Chapter13 : Tasks and functions (subroutines)
  • day39反转字符串总结
  • 使用Socket实现TCP版的回显服务器
  • 【Nacos篇】Nacos基本操作及配置
  • Dockerfile构建Tomcat镜像
  • k8s的介绍
  • mysql sql语句 需要使用like 场景,解决方案