当前位置: 首页 > news >正文

NLP杂记

来京一周余,初病将愈,终跑通llama及ViT,记于此——

之前都是做的图像,大模型迁移基本上都是NLP相关的知识,很多东西和CV差距还是有点,再加上大模型对算力要求较高,基于云的操作对我一个习惯在本地操作的拖拽工程师还是有一点不适应,遂恶补了NLP、大模型、云计算、国产框架、Linux、Docker和硬件的一些知识:

MindFormers是华为云推出的一个自然语言处理工具库,提供了丰富的预训练模型和下游任务应用,涵盖了大模型训练、微调、评估、推理、部署的全流程开发套件。基于MindSpore Transformers套件,提供业内主流Transformer类预训练模型和SOTA下游任务应用,涵盖丰富的并行特性

CausalLanguageModelDataset类是MindFormer库中用于构建因果语言模型数据集的类。

在自然语言处理任务中,因果语言模型(Causal Language Model)是一种常见模型类型,主要学习文本序列中的因果关系,即一个单词或短语对后续单词或短语的影响(常用于生成、摘要和分类等任务)

CausalLanguageModelDataset类提供一种方便的方式来创建和处理因果语言模型的数据集。可以自动从指定的数据集目录或文件中读取数据,并根据需要进行预处理、批处理和随机化等操作。此外,该类还支持将数据集划分为训练集、验证集和测试集,以便在训练过程中使用不同的数据子集进行评估和调整;
通过使用CausalLanguageModelDataset类,可以更轻松地构建和训练因果语言模型,获得更好的性能和效果。

除了因果语言模型,还有其他类型的自然语言模型:

  • 统计语言模型(Statistical Language Model):这种类型的语言模型基于概率分布来预测下一个单词或字符。它们通常使用n元语法或n-gram来表示文本序列,并使用最大似然估计或其他方法来计算概率

  • 神经网络语言模型(Neural Network Language Model):这种类型的语言模型使用神经网络来学习文本序列的概率分布。它们通常由编码器和解码器组成,其中编码器将输入序列转换为隐藏状态,解码器则根据隐藏状态生成输出序列

  • Transformer语言模型(Transformer Language Model):这种类型的语言模型是一种基于自注意力机制的神经网络架构,被广泛应用于自然语言处理任务中,如机器翻译、文本摘要等

Dump数据采集Profiling数据采集都是性能分析工具,但是应用场景不同:

  • Dump数据采集主要用于诊断程序崩溃、内存泄漏等问题
  • Profiling数据采集则主要用于分析程序的性能瓶颈,如哪些函数调用次数较多、哪些代码行数较长

ModelArts notebook跑LLama:

 	1  git clone -b dev https://gitee.com/mindspore/mindformers.git2  cd mindformers3  bash build.shcp /user/config/nbstart_hccl.json ./bash run_distribute.sh /home/ma-user/work/mindformers/nbstart_hccl.json /home/ma-user/work/mindformers/configs/llama/run_llama_7b.yaml [0,8] traintail -f ../output/log/rank_0/info.log

ModelArts notebook跑ViT:

git clone -b dev https://gitee.com/mindspore/mindformers.git
cd mindformers
bash build.sh
wget https://bj-aicc.obs.cn-north-309.mtgascendic.cn/dataset
ll
mv dataset imageNet2012.tar
ll
tar -xvf imageNet2012.tar 
ls
top  	# 进程的资源占用情况
bash run_distribute.sh /home/ma-user/work/mindformers/scripts/nbstart_hccl.json /home/ma-user/work/mindformers/configs/vit/run_vit_base_p16_224_100ep.ymal [0,8] train
http://www.lryc.cn/news/98553.html

相关文章:

  • 算法通过村第二关-链表白银笔记
  • 力扣题库刷题笔记75--颜色分类
  • 《面试1v1》如何提高远程用户的吞吐量
  • 论文笔记--Distilling the Knowledge in a Neural Network
  • Mac上安装sshfs
  • MQ公共特性介绍 (ActiveMQ, RabbitMQ, RocketMQ, Kafka对比)
  • 灵雀云Alauda MLOps 现已支持 Meta LLaMA 2 全系列模型
  • 技术方案模版
  • 【Linux命令200例】cut强大的文本处理工具
  • 《论文阅读》具有特殊Token和轮级注意力的层级对话理解 ICLR 2023
  • C# 定时器封装版
  • 前端学习——Vue (Day4)
  • 如果你是一个嵌入式面试官,你会问哪些问题?
  • 学习笔记十三:云服务器通过Kubeadm安装k8s1.25,供后续试验用
  • 【Maven】Maven配置国内镜像
  • ChatGPT有几个版本,哪个版本最强,如何选择适合自己的?
  • pg_standby备库搭建
  • RNNLSTM
  • 到底什么是前后端分离
  • 【React】精选5题
  • MUR2080CT- ASEMI二极管的特性和应用
  • 安全测试国家标准解读——资源管理和内存管理
  • 3D元宇宙游戏,或许能引爆新的文娱消费增长点
  • (学习笔记-IP)IP基础知识
  • 神经数据库:用于使用 ChatGPT 构建专用 AI 代理的下一代上下文检索系统 — (第 2/3 部分)
  • 一文6个概念从0到1带你成功入门自动化测试【0基础也能看懂系列】
  • C++OpenCV(5):图像模糊操作(四种滤波方法)
  • 关于质数筛——数论
  • Spring Boot 应用程序生命周期扩展点妙用
  • 【Nodejs】操作mongodb数据库