当前位置: 首页 > news >正文

python-pytorch实现skip-gram 0.5.001

python-pytorch实现skip-gram 0.5.000

    • 数据加载、切词
    • 准备训练数据
    • 准备模型和参数
    • 训练
    • 保存模型
    • 加载模型
    • 简单预测
    • 获取词向量
    • 画一个词向量的分布图
    • 使用词向量计算相似度
    • 参考

数据加载、切词

按照链接https://blog.csdn.net/m0_60688978/article/details/137538274操作后,可以获得的数据如下

  1. wordList 文本中所有的分词,放入这个数组中
  2. raw_text 这个可以忽略,相当于wordlist的备份,防止数据污染了
  3. vocab 将wordList转变为set,即set(wordList)
  4. vocab_size 所有分词的个数
  5. word_to_idx 字典格式,汉字对应索引
  6. idx_to_word 字典格式,索引对应汉字

准备训练数据

data3 = []
window_size1=2
for i,word in enumerate(raw_text):target = raw_text[i]contexts=raw_text[max(i - window_size1, 0): min(i + window_size1 + 1, len(raw_text))]for context in contexts:if target!=context:data3.append((context,target))
data3,len(data3)

准备模型和参数

# 超参数
learning_rate = 0.003
device = torch.device('cpu')
embedding_dim = 100
epoch = 10
class SkipGramModel(nn.Module):def __init__(self, vocab_size, embedding_dim):super(SkipGramModel, self).__init__()self.embedding = nn.Embedding
http://www.lryc.cn/news/337801.html

相关文章:

  • C语言:约瑟夫环问题详解
  • 【刷题篇】回溯算法(二)
  • Windows系统本地部署Jupyter Notebook并实现公网访问编辑笔记
  • 自动化运维(二十七)Ansible 实战Shell 插件和模块工具
  • Jenkins使用-绑定域控与用户授权
  • 【前端】es-drager 图片同比缩放 缩放比 只修改宽 只修改高
  • 蓝桥杯第十四届蓝桥杯大赛软件赛省赛C/C++ 大学 A 组题解
  • eclipse .project
  • react的闭包陷阱
  • 神经网络解决回归问题(更新ing)
  • 【小红书校招场景题】12306抢票系统
  • Spring(三)
  • 使用element-plus中的表单验证
  • flinksql
  • Dockerfile中 CMD和ENTRYPOINT的区别
  • 【TC3xx芯片】TC3xx芯片的总线内存保护
  • 抖音小店选品必经五个阶段,看你到哪一步了,直接决定店铺爆单率
  • ML在骨科手术术前、书中、术后方法应用综述【含数据集】
  • vue3-video-play 在安卓上正常播放,在ios上不能播放,问题解决
  • 【C++类和对象】上篇
  • 微信订阅号环境搭建及开发者工具下载
  • Failed to resolve ‘bss.myhuaweicloud.com‘ ([Errno -2] Name or service not know
  • 大厂基础面试题(之二)
  • swiftui macOS实现加载本地html文件
  • 科技云报道:大模型加持后,数字人“更像人”了吗?
  • 轻松驾驭时间流:MYSQL日期与时间函数的实用技巧
  • 如何在极狐GitLab 使用Docker 仓库功能
  • streamlit 大模型前段界面
  • K8s 命令行工具
  • 优先级队列