当前位置: 首页 > news >正文

大模型面试(二)

这次又接到一个大模型岗位的面试。但是从面试过程来看,现在大模型岗位都要求有相关工作经验,还是太难进了。还是说国内公司早就过了培养人的年代了?

问到了哪些知识点:

开源大模型:项目里用的是浦语大模型,此外还了解chatglm,llama,qwen等等。

大模型微调的方法:lora。主要是lora了。

有没有对哪些参数做调整?调了lora的参数rank,还有其他参数可以调的吗?学习率?或者说只在某些层上加lora?

qlora是个什么东西,没有好好准备。q也许代表quantized?

其他微调的方法:当时脑袋短路,没想出来,事实上还有ptuning,prefix-tuning,adapter等等方案。

大模型部署:知道量化,比如8bit量化,原来模型参数是bf16类型,可以转换成int8类型;还有kv量化。其他不知道?需要再研究研究。

用了多少语料?是比赛方提供的还是自己制作的训练集?

大模型灾难性遗忘的问题:回答说我们主要是专用领域大模型,所以对通用问题用其他大模型回答;如果是一般的解决方案,专有数据:通用数据大概在1:10的量级。

http://www.lryc.cn/news/396169.html

相关文章:

  • rsync远程同步--累了,明天继续再写~。
  • 每日刷题(二分查找,匈牙利算法,逆序对)
  • LLM应用构建前的非结构化数据处理(三)文档表格的提取
  • 如何从数码相机恢复已删除的照片
  • 设计模式使用场景实现示例及优缺点(创建型模式——单例模式、建造者模式、原型模式)
  • LAMP万字详解(概念、构建步骤)
  • 金南瓜科技SECS/GEM:引领智能制造新潮流
  • 昇思训练营打卡第二十一天(DCGAN生成漫画头像)
  • 东方通Tongweb发布vue前端
  • spring xml实现bean对象(仅供自己参考)
  • MiniGPT-Med 通用医学视觉大模型:生成医学报告 + 视觉问答 + 医学疾病识别
  • 如何判断ip地址在同一个网段:技术解析与实际应用
  • linux高级编程(TCP)(传输控制协议)
  • 【常见开源库的二次开发】一文学懂CJSON
  • 点云下采样有损压缩
  • AutoHotKey自动热键(六)转义符号
  • 第16章 主成分分析:四个案例及课后习题
  • 股票分析系统设计方案大纲与细节
  • .gitmodules文件
  • STM32 SPI世界:W25Q64 Flash存储器的硬件与软件集成策略
  • 【计算机网络仿真】b站湖科大教书匠思科Packet Tracer——实验17 开放最短路径优先OSPF
  • ChatGPT对话:python程序模拟操作网页弹出对话框
  • 利用亚马逊云科技云原生Serverless代码托管服务开发OpenAI ChatGPT-4o应用
  • Selenium 切换 frame/iframe
  • VOI(Virtual Operating System Infrastructure,虚拟操作系统基础架构)
  • 迭代器模式(大话设计模式)C/C++版本
  • vue学习day04-计算属性、computed计算属性与methods方法、计算属性完整写法
  • 关于力扣150题目——逆波兰表达式求值Java实现的三种解法
  • FTP与TFTP
  • 【Linux】System V信号量详解以及semget()、semctl()和semop()函数讲解