当前位置: 首页 > news >正文

中文Mistral模型介绍(Chinese-Mistral)——中文大语言模型

中文Mistral简介

Chinese-Mistral由清华大学地学系地球空间信息科学实验室开发。
该模型基于Mistral发布的Mistral-7B-v0.1训练得到。首先进行中文词表扩充,然后采用实验室提出的PREPARED训练框架(under review)在中英双语语料上进行增量预训练。
实验结果表明,本模型的中文能力高于其他中文mistral-7B模型,且中文编码效率高于其他同等词表大小的模型。
下载地址:https://huggingface.co/itpossible/Chinese-Mistral-7B-v0.1
如果无法科学上网,可通过镜像下载https://hf-mirror.com/itpossible/Chinese-Mistral-7B-v0.1

训练语料及清洗

语料采样于WuDao、WanJuan、Dolma等高质量开源数据集。我们仔细检查了这些数据集,发现可以进一步提高数据质量。我们采用KenLM计算文档的PPL、启发式算法、定义过滤规则等方法进一步清洗语料,最终保留了90%的语料。

词表扩充

采用BPE算法(Sentencepiece实现)扩充中文词表,将mistral的词表由32000扩充至63776。我们随机从WuDao中抽取了多个文档,这些文档包括67,013,857个单词。多个模型的词表性能对比如下表。
结果显示,Chinese-Mistral的编码效率最高。
在这里插入图片描述

中文与英文通用能力比较

采用C-Eval(用于评测中文能力)、C-MMLU(用于评测中文能力)、MMLU(用于评测英文能力)的测试集进行评测。
在这里插入图片描述
与openbuddy社区开源的中文mistral在统一的实验环境中进行对比,显示Chinese-Mistral中英文能力均优于Openbuddy-mistral-7b-v13-base。
在这里插入图片描述

模型推理

import torch
from transformers import AutoModelForCausalLM, AutoTokenizerdevice = torch.device("cuda:0") if torch.cuda.is_available() else torch.device("cpu")model_path = "itpossible/Chinese-Mistral-7B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16, device_map=device)text = "在一场大雨后,我"
inputs = tokenizer(text, return_tensors="pt").to(device)outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Chinese-Mistral平替——JiuZhou九州大语言模型

JiuZhou将Chinese-Mistral作为基座模型,在大规模地球科学领域语料上进行增量预训练。由于地球科学是交叉性非常强的学科,因此其通用能力得到进一步的提升。
C-Eval排行榜显示,九州的中文能力超越了开源社区开发的Chinese-Alpaca-Plus-13B,逼近chatglm2-6B。
JiuZhou基座模型下载地址:https://huggingface.co/itpossible/JiuZhou-base

http://www.lryc.cn/news/331889.html

相关文章:

  • yolo v5 中 letterbox对不规则矩形框的输入调整
  • STL是什么?如何理解STL?
  • 【Spring篇】Spring IoC DI
  • Python语言例题集(010)
  • redis---主从复制
  • 搜索引擎-03-搜索引擎原理
  • mysql语句学习
  • 【Apache Doris】周FAQ集锦:第 1 期
  • Windows创建远程线程学习
  • 使用c语言libexpat开源库解析XML数据
  • 51单片机入门_江协科技_19~20_OB记录的笔记
  • 基于k8s的高性能综合web服务器搭建
  • Folder Icons for Mac v1.8 激活版文件夹个性化图标修改软件
  • Gitee上传私有仓库
  • HTMLCSSJS
  • 第14章 数据结构与集合源码
  • 分享react+three.js展示温湿度采集终端
  • 易宝OA ExecuteSqlForDataSet SQL注入漏洞复现
  • C++语言学习(二)——⭐缺省参数、函数重载、引用
  • qt通过setProperty设置样式表笔记
  • Sora文本生成视频(附免费的专属提示词)
  • Flask Python:数据库多条件查询,flask中模型关联
  • Spring Security 实现后台切换用户
  • 《QT实用小工具·一》电池电量组件
  • 基于springboot实现墙绘产品展示交易平台管理系统项目【项目源码+论文说明】计算机毕业设计
  • 主流公链文章整理
  • css3之3D转换transform
  • SpringBoot -- 外部化配置
  • 优酷动漫顶梁柱!神话大乱炖的修仙番为何火爆?
  • 每日一题:C语言经典例题之判断实数相等