当前位置: 首页 > news >正文

论文目录3:大模型时代(2023+)

1 instruction tuning & in context learning

论文名称来源主要内容
Finetuned Language Models Are Zero-Shot Learners2021

机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客

早期做instruction tuning的work

MetaICL: Learning to Learn In Context2021

机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客

in-context learning都是没有finetune过程,这里相当于finetune了一下 

Rethinking the Role of Demonstrations: What  Makes In-Context Learning Work?

2023

机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客

在in-context learning的时候,故意给一些错误的例子、其他领域的返利,看看大模型的效果

——>这篇论文的结论是,in-context learning只起到“唤醒”的作用,LLM本身就具备了所需要的功能。这里给LLM范例的作用只是提示LLM要做这个任务了

Larger language models do in-context learning differently2023

机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客

在更大的LLM中,in context learning 确实也起到了让模型学习的作用

2 Chain of Thought

论文名称来源主要内容
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 2022
  • 如果是数学这种需要推理的问题,直接给 in-context learning 往往效果若不好
  • 而如果我们给范例的时候,同时给推导过程+答案。期望模型输出答案的时候,也先输出推导,再输出答案
  • 这就叫Chain of Thought Prompting

机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客

Large Language Models are Zero-Shot Reasoners2022

在进行CoT的时候,范例输完了,需要模型回答的问题说完了,加一行’Let's think step by step',可以获得更好的效果

机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客

3 others

Is ChatGPT A Good Translator? A Preliminary Study2023

专项翻译任务上,ChatGPT不如一些专门做翻译的模型

How Good Are GPT Models at  Machine Translation? A  Comprehensive Evaluation2023

专项翻译任务上,ChatGPT不如一些专门做翻译的模型

4 大模型+时间序列

论文名称来源主要内容
论文笔记: One Fits All:Power General Time Series Analysis by Pretrained LM_UQI-LIUWJ的博客-CSDN博客2023
  • GPT2的Transformer
    • 冻结自注意力层+FFN层
    • 微调位置嵌入和Layer Norm
  • 使用Patching的方式将时间序列分块,以进行tokenize
  • 证明了预训练模型中的Transformer有类似于PCA的非特定数据集相关能力
论文笔记:TEST: Text Prototype Aligned Embedding to ActivateLLM’s Ability for Time Series_UQI-LIUWJ的博客-CSDN博客2023

对比学习学习时间序列token的embedding,然后将时间序列token的embedding和文本token的embedding进行对齐,并利用soft prompting进行后续大模型训练

论文笔记:TimeGPT-1-CSDN博客

时间序列的第一个基础大模型

5 mobility+大模型

论文笔记:Large Language Models as Urban Residents:An LLM Agent Framework for Personal Mobility Generati-CSDN博客

LLM+轨迹生成

li'yong 大模型(不train直接使用),得到用户在某一天的pattern(通用mobility)和motivation(短期的mobility),生成相应的轨迹

http://www.lryc.cn/news/313812.html

相关文章:

  • FPGA IBUFG
  • 探索数据结构:单链表的实战指南
  • 短视频矩阵系统----矩阵系统源码搭建(技术门槛?)
  • Spring事务注解@Transactional的流程和源码分析
  • 在别的地方下载的二次封装Windows镜像怎么安装?GHO镜像详细安装教程
  • 使用Lerna + Yarn Workspace管理Monorepo项目
  • 如何将gzip后缀压缩包重命名任意后缀名并依然通过gzip.open()读取压缩包文件内容
  • C语言从入门到精通 第十一章(文件操作)
  • 安装安卓studio无法下载sdk解决方法
  • express+mysql+vue,从零搭建一个商城管理系统10--添加商品
  • java实现大文件的分割与合并
  • 【计网】TCP协议安全与风险:深入探讨网络通信的基石
  • 苹果App Store上架工具介绍
  • TCP重传机制、滑动窗口、拥塞控制
  • electron+vue3全家桶+vite项目搭建【29】封装窗口工具类【3】控制窗口定向移动
  • 深入了解304缓存原理:提升网站性能与加载速度
  • python-批量操作excel
  • #QT(串口助手-界面)
  • C语言进阶——位段
  • 软件设计师软考题目解析23 --每日五题
  • 总结:前后端集合、数组类型数据交互底层原理,SpringBoot框架解析
  • 2024蓝桥杯每日一题(前缀和)
  • 2007-2022年上市公司迪博内部控制评价缺陷数量数据
  • JAVA虚拟机实战篇之内存调优[4](内存溢出问题案例)
  • qt自定义时间选择控件窗口
  • 如何不解压直接读取gzip文件里面的文件
  • python 截取字符串string.split
  • SpringBoot+Vue实现el-table表头筛选排序(附源码)
  • Linux学习之线程
  • 【JavaEE初阶】 JVM类加载简介