当前位置: 首页 > news >正文

【论文笔记】| 蛋白质大模型ProLLaMA

【论文笔记】| 蛋白质大模型ProLLaMA

ProLLaMA: A Protein Large Language Model for Multi-Task Protein Language Processing
Peking University
Theme: Domain Specific LLM

在这里插入图片描述
在这里插入图片描述

Main work:

当前 ProLLM 的固有局限性:(i)缺乏自然语言能力,(ii)指令理解不足
利用低秩适应(LoRA)并采用两阶段训练方法,将任何通用 LLM 转换为能够同时处理多个 PLP 任务的 ProLLM,在无条件/可控蛋白质序列生成、蛋白质属性预测任务中取得了最先进的结果

Method:

1. Continual Learning on Protein Language

当前的 ProLLM 缺乏自然语言能力,这阻碍了多任务能力,利用预训练的 LLAMA2 对蛋白质语言执行持续学习(类比学习新语言,模型在保留原始自然语言能力的同时学习蛋白质语言)

基于 UniRef50 构建了一个数据集,并用特定的前缀和后缀对每个蛋白质序列进行预处理。

在 LLAMA2 的每个Decoder layer,我们将 LoRA 添加至 W q , W k , W v , W o , W u p , W g a t e , W d o w n W_q,W_k,W_v,W_o,W_{up},W_{gate},W_{down} Wq,Wk,Wv,Wo,Wup,Wgate,Wdown以及 E m b e d Embed Embed G e n e r a t i o n H e a d Generation \ Head Generation Head layers (token可能在蛋白质序列和自然语言中具有不同的含义,需要对同一token进行不同的embedding)

LoRA rank-128, AdamW optimizer, peak learning rate(cosine annealing scheduler)-0.05, training epoch-1.

2. Performing Various Tasks

对上一步中获得的 ProLLaMA 执行指令微调,采用自回归方式进行训练
L ( Θ ) = E x ∼ D [ − ∑ i log ⁡ p ( x i ∣ u , x 0 , x 1 , … , x i − 1 ; Θ ) ] \mathcal{L}(\Theta)=\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}}\left[-\sum_i\log p(x_i|\boldsymbol{u},x_0,x_1,\ldots,x_{i-1};\Theta)\right] L(Θ)=ExD[ilogp(xiu,x0,x1,,xi1;Θ)]
LoRA rank-64, AdamW optimizer, peak learning rate(cosine annealing scheduler)-0.05, training epoch-2.

3. Expanding to More Tasks

基于上述模型针对特定任务再次进行指令微调

参考文献

Lv L, Lin Z, Li H, et al. ProLLaMA: A Protein Large Language Model for Multi-Task Protein Language Processing[J]. arXiv preprint arXiv:2402.16445, 2024.

http://www.lryc.cn/news/352159.html

相关文章:

  • MySQL笔记第一天(从小白到入门)
  • 初识Qt:从Hello world到对象树的深度解析
  • 多维数据库创建
  • win11安装docker运行Open-Webui 界面化展示 ollama大模型
  • 网络模型-PoE技术
  • 网站策划是什么
  • MySQL基础学习: SET FOREIGN_KEY_CHECKS = 0
  • 信号:MSK调制和GMSK调制
  • 计算请假申请时长
  • linux-配置服务器之间 ssh免密登录
  • Java入门基础学习笔记47——ArrayList
  • 案例题(第二版)
  • 基于python向量机算法的数据分析与预测
  • 传输层 --- UDP
  • 图书管理系统(Java版本)
  • 全同态加密生态项目盘点:FHE技术的崛起以及应用
  • 山脉数组的峰顶索引 ---- 二分查找
  • 【简单介绍下7-Zip,什么是7-Zip?】
  • SCSS基本使用:构建高效、可维护的CSS架构
  • allegro 无法删除Xnet
  • 2024年甘肃特岗教师招聘报名流程,速速查收哦!
  • 【错误解决】使用HuggingFaceInstructEmbeddings时的一个错误
  • C++中的四种类型转换运算符
  • k8s 1.28.10 浏览器访问6443查看api,需要证书
  • 新火种AI|复旦团队在“冷冻人脑”领域获得重大进展!人工智能是否会对此形成助力?
  • echarts 散点图修改散点图中图形形状颜色大小
  • SpringBoot3.x + JDK21 整合 Mybatis-Plus
  • Java类和对象(五)—— 抽象类、接口、Object类和内部类
  • 图像上下文学习|多模态基础模型中的多镜头情境学习
  • 汇编:函数以及函数参数传递