当前位置: 首页 > news >正文

【深度学习】时间序列表示方法

        自然界除了2D的图片数据之外,还有语音、文字,这些数据都有时间的先后顺序的。对于2D的图像的数据,可以用RGB值来表示像素的色彩度。语音可以用信号幅度值来表示,而Pytorch没有自带String支持,在表示文字之前需要进行Embedding。

        没有String类型,采用embedding来进行表示——[seq_len, feature_len],第一个维度表示序列的长度(即单词的个数),第二个维度表示进行维度表示所需要的维度数。如[5, 1],表示一句话有5个单词,每个单词都用长度为1的向量进行表示;[5, 100],表示一句话有5个单词,每个单词都用长度为100的向量进行表示。[seq_len, feature_len]针对不同的用户场景有着不同的含义,看以下曲线——房价随月份的变化,[100,1]中的第一个维度表示的是月份,第二个维度表示的是表示该月份的房价用长度为1的向量进行表示。

        文本信息的表达方式为[words, word_vec],第一个维度是单词数量,第二个维度区间于编码方式。编码方式可以采用独热编码。

        one-hot编码非常系数,维度非常高,并且语言具有语义相关性(semantic similarity,通过计算余弦相似性),可以采用另外一种编码方式,本质上是对one-hot编码后的语义空间进行降维——word2vec(一种不存在激活函数的神经网络,相当于编词典)。

         跟处理图片一样,处理序列也可以取几batch进行一起处理,这时候张量表示存在两种方式——[word_num, b, word_vec] [b, word_num, word_vec]

word_to_ix = {"hello":0, "world":1}lookup_tensor = torch.tensor([word_to_ix["hello"]], dtype=torch.long)
# 2 words in vacab, 5 dimensional embeddings
embeds = nn.Embedding(2, 5)
hello_embed = embeds(lookup_tensor)
print(hello_embed)
tensor([[0.6614, 0.2669, 0.0617, 0.6213, -0.4519]], grad_fn=<EmbeddingBackward>)

        直接使用GloVe方式(编码方式),直接输入单词既可以得到单词对应的向量。 

from torchnlp.word_to_vector import GloVe
vectors = GloVe()vectors['hello']
http://www.lryc.cn/news/512654.html

相关文章:

  • 1.微服务灰度发布落地实践(方案设计)
  • 【UE5 C++课程系列笔记】15——Assert的基本使用
  • kubernetes Gateway API-1-部署和基础配置
  • likeAdmin架构部署(踩坑后的部署流程
  • 【一款超好用的开源笔记Logseq本地Docker部署与远程使用指南】
  • 浅谈torch.utils.data.TensorDataset和torch.utils.data.DataLoader
  • gesp(C++二级)(16)洛谷:B4037:[GESP202409 二级] 小杨的 N 字矩阵
  • FFmpeg:详细安装教程与环境配置指南
  • 《特征工程:自动化浪潮下的坚守与变革》
  • webrtc 源码阅读 make_ref_counted模板函数用法
  • 【深度学习基础之多尺度特征提取】特征金字塔(Feature Pyramid)是如何在深度学习网络中提取多尺度特征的?附代码
  • 【Docker】离线安装 Docker
  • 三大行业案例:AI大模型+Agent实践全景
  • Dockerfile基础指令
  • 12.30 linux 文件操作,磁盘分区挂载
  • [图形渲染]【Unity Shader】【游戏开发】 Shader数学基础17-法线变换基础与应用
  • YOLOv9-0.1部分代码阅读笔记-train.py
  • 等保测评和密评的相关性和区别
  • 活动预告 |【Part2】 Azure 在线技术公开课:迁移和保护 Windows Server 和 SQL Server 工作负载
  • 大语言模型(LLM)一般训练过程
  • 单片机的基本组成
  • GO性能优化的一些记录:trace工具的使用
  • dede-cms关于shell漏洞
  • NAT 技术如何解决 IP 地址短缺问题?
  • 使用 IDE生成 Java Doc
  • 通过无障碍服务(AccessibilityService)实现Android设备全局水印显示
  • flask后端开发(2):URL与视图
  • 力扣-数据结构-7【算法学习day.78】
  • 【潜意识Java】Java中深入解析抽象类与接口的差异的完整笔记总结【保姆级详细教程】
  • 【Flink运行时架构】系统构架