当前位置: 首页 > news >正文

AI技术快讯:清华开源ChatGLM2双语对话语言模型

在这里插入图片描述

ChatGLM2-6B是一个开源项目,提供了ChatGLM2-6B模型的代码和资源。根据提供的搜索结果,以下是对该项目的介绍:

论文:https://arxiv.org/pdf/2103.10360.pdf
在这里插入图片描述

ChatGLM2-6B是一个开源的双语对话语言模型,是ChatGLM-6B模型的第二代版本。它保留了初代模型的对话流畅和部署门槛较低的特点,并引入了一些新的特性和改进。

ChatGLM2-6B具有以下特点和功能:

更强大的性能:ChatGLM2-6B使用了GLM的混合目标函数,并经过了大规模的预训练和人类偏好对齐训练。评测结果显示,在多个数据集上,ChatGLM2-6B相比初代模型在性能上有了显著的提升,具有较强的竞争力。

更长的上下文:通过引入FlashAttention技术,ChatGLM2-6B将基座模型的上下文长度从ChatGLM-6B的2K扩展到了32K,并在对话阶段使用8K的上下文长度进行训练。这使得ChatGLM2-6B能够处理更长的上下文信息。

更高效的推理:基于Multi-Query Attention技术,ChatGLM2-6B具有更高效的推理速度和更低的显存占用。在官方的模型实现下,ChatGLM2-6B相比初代模型的推理速度提升了42%,并且在INT4量化下,6G显存支持的对话长度从1K提升到了8K。

开放的协议:ChatGLM2-6B的权重对学术研究完全开放,并且在填写问卷进行登记后,也允许免费商业使用。

源码:https://github.com/THUDM/ChatGLM2-6B

在这里插入图片描述

http://www.lryc.cn/news/104812.html

相关文章:

  • 网络基础知识
  • 【应用层】HTTPS协议详细介绍
  • 【Tensorboard+Pytorch】使用注意事项
  • 设计模式行为型——命令模式
  • 13-2_Qt 5.9 C++开发指南_线程同步_QMutex+QMutexLocker(目前较为常用)
  • 金融行业选择哪种SSL证书才安全可靠
  • 面试总结(三)
  • 青大数据结构【2016】
  • 聊聊拉长LLaMA的一些经验
  • 线程池的使用详解
  • 刷题笔记 day4
  • Python 2.x 中如何使用flask模块进行Web开发
  • spring websocket 调用受权限保护的方法失败
  • Vue.js2+Cesium 四、模型对比
  • Linux 之 Vi 编辑器
  • Python超实用!批量重命名文件/文件夹,只需1行代码
  • sqoop
  • PySpark 数据操作(综合案例)
  • 产品经理如何平衡用户体验与商业价值?
  • 【PostgreSQL】系列之 一 CentOS 7安装PGSQL15版本(一)
  • Nginx解决文件服务器文件名显示不全的问题
  • IO进程线程第四天(8.1)
  • WAF绕过-权限控制篇-后门免杀
  • LED灯的驱动,GPIO子系统,添加按键的中断处理
  • Gradle和Maven的区别
  • C#中 使用yield return 优化大数组或集合的访问
  • ROS实现导航中止(pub命令版+C++代码版)
  • 【VTK】读取一个 STL 文件,并使用 Qt 显示出来,在 Windows 上使用 Visual Studio 配合 Qt 构建 VTK
  • 数据结构--基础知识
  • 天工开物 #7 Rust 与 Java 程序的异步接口互操作