当前位置: 首页 > news >正文

【DataWhale】快乐学习大模型 | 202507,Task08笔记

前言

其实个人感觉Encoder-Decoder是优于单纯Decoder的,可能是训练数据、参数量足够大力大砖飞了。

Decoder-Only PLM

从GPT1->GPT3的过程中,参数量逐步上升,训练数据逐步增多,效果越来越好。到了ChatGPT后因为强化学习的引入更有了出圈的效果提升。可见强化学习很重要,从2016年围棋上成就就能看出强化学习是让AI更智能的重要技术。
回过头来Decoder的本质根据之前的token来预测下一个token。
除了GPT之外,llama、GLM、Qwen等也出了后续的Decoder-Only的大模型

额外思考

现有大模型的优化点
1、预测一个token太慢,直接预测一整块的内容(已有相关研究,也有用文生图diffusion的那种直接预测所有再优化的)
2、输入token太多,每个都要用到相关的太占用内存(也有相关研究,可以更关注更有效地token)
3、算法和硬件的协同,如果flash attention等来优化计算,本质是模型运算速度主要看访存和计算
4、工程上的优化,如果kv-cache等,还有最近kimi2的1T参数的MoE模型,也可以把大部分放硬盘或内存激活了再放如显存让量化后的也能在单卡4090上跑起来。

参考资料

1、happy-llm 3.3 Decoder-Only PLM
2、仅需24GB显存!普通人如何在笔记本本地运行1T参数Kimi K2大模型?

http://www.lryc.cn/news/601911.html

相关文章:

  • 卷积神经网络研讨
  • 墨者:SQL注入漏洞测试(布尔盲注)
  • 零基础,如何入手学习SAP?
  • Ashampoo Background Remover(照片去背景工具) v2.0.2 免费版
  • WSL切换网络模式
  • 持续优化Cypress自动化测试
  • CentOS 镜像源配置与 EOL 后的应对策略
  • MySQL进阶学习与初阶复习第四天
  • 【测试报告】思绪网(Java+Selenium+Jmeter自动化测试)
  • 自动出题与批改系统(数学题生成+OCR识别)
  • ABB机器人多任务详解
  • OpenLayers 综合案例-轨迹回放
  • java的break能加标签,return可以加标签吗
  • 83.删除排序链表中的重复元素
  • DeepCompare文件深度对比软件“.dpcp“工程项目文件功能深度解析
  • vector使用和模拟
  • 网络虚拟化:veth,bridge,network namespace与docker网络
  • ESP32学习-FreeRTOS队列使用指南与实战
  • 使用低级上位画图法理解在对磁盘空间进行容量分配时【低级单位上位至高级单位的换算】
  • Mybatis Plus 多数据源
  • AI时代,我们更需要自己的开发方式与平台
  • Coze Studio概览(一)
  • 链表算法常用技巧与操作
  • 通过硬编码函数地址并转换为函数指针来调用函数
  • 【Agentic】通过LangGrah实现RAG评分和重写
  • 清华大学具身智能多传感器融合感知综述:背景、方法、挑战与展望
  • Flutter开发实战之CI/CD与发布流程
  • 网易大模型算法岗面经80道
  • JSON格式化与结构对比
  • 移植pbrt中的并行化到ray trace in weeks中