当前位置: 首页 > news >正文

【LLM】大语言模型高效微调方案Lora||直击底层逻辑

大白话: 

DL的本质就是矩阵的乘法,就能实现LLM,

假设两个矩阵都很大,一个mxn,一个nxd的矩阵,m,n,d这几个数字可能几千甚至上万的场景,计算起来代价很大,如果我们可以small 这些数字,缩小到10甚至5这样的scenario,cost就非常的小。

训练的时候只训练 右边橙色的AB矩阵

那么基于什么理论,我们可以这么搞呢? 

 

 

 

 

目前看到讲解最好的博客,难怪点赞数也很高,细节都在里面,比如为什么要low-rank,理论基础是什么,并且还有发散,数学上的内容也比较友好。

【OpenLLM 006】LoRA:大模型的低秩适配-最近大火的lora到底是什么东西?为啥stable diffusion和开源ChatGPT复现都在用? - 知乎 (zhihu.com) 

Reference

深入浅出剖析 LoRA 技术原理_lora csdn-CSDN博客

【OpenLLM 006】LoRA:大模型的低秩适配-最近大火的lora到底是什么东西?为啥stable diffusion和开源ChatGPT复现都在用? - 知乎 (zhihu.com)

PaperReading-“Intrinsic Dimension” - 知乎 (zhihu.com) //中科大少年班的孩子写的,挺不错的

http://www.lryc.cn/news/218151.html

相关文章:

  • Qt for Android代码中输出日志
  • 力扣刷题-二叉树-二叉树的递归遍历
  • VX-3R APRS发射试验
  • JAVA毕业设计109—基于Java+Springboot+Vue的宿舍管理系统(源码+数据库)
  • CMU/MIT/清华/Umass提出生成式机器人智能体RoboGen
  • STM32:AHT20温湿度传感器驱动程序开发
  • 【Linux】第七站:vim的使用以及配置
  • 汇编-算术运算符
  • 线性代数 第六章 二次型
  • leetCode 213. 打家劫舍 II + 动态规划 + 从记忆化搜索到递推 + 空间优化
  • 网络编程套接字(二)
  • [极客大挑战 2019]Knife 1(两种解法)
  • 国家统计局教育部各级各类学历教育学生情况数据爬取
  • mysql、clickhouse时间日期加法
  • 21.合并两个有序链表
  • thinkphp漏洞复现
  • 暴力递归转动态规划(十三)
  • java EE 进阶
  • 记录paddlepaddle-gpu安装
  • django如何连接sqlite数据库?
  • 面试算法47:二叉树剪枝
  • 云安全-云原生k8s攻击点(8080,6443,10250未授权攻击点)
  • 性能压力测试主要目标及步骤
  • VLAN与配置
  • API接口安全设计
  • 服务器的管理口和业务口
  • 【gpt redis】原理篇
  • python二次开发Solidworks:排雷以及如何排雷?
  • 广告引擎检索技术快速学习
  • Scala的类和对象