当前位置：首页 > news >正文

昇思MindSpore进阶教程--开发常见问题

news 2025/7/13 6:05:40

大家好，我是刘明，明志科技创始人，华为昇思MindSpore布道师。
技术上主攻前端开发、鸿蒙开发和AI算法研究。
努力为大家带来持续的技术分享，如果你也喜欢我的文章，就点个关注吧

MindSpore官网提供了一份在使用MindSpore过程中的 FAQ ，本章也整理了一下在迁移文档中提及的常见问题及解决方法。

环境准备

Q: 如何搭建MindSpore环境？

A: MindSpore目前支持在昇腾、GPU、CPU等多种设备上运行，但在安装过程中需要注意选择配套的硬件平台、操作系统、Python版本，否则会出现很多不可预测的报错。详细可参考安装指导。

更多环境准备常见问题请参考环境准备常见问题分析。

模型分析与准备

Q: 如何查看MindSpore对迁移代码中的API支持程度？

A: 可以使用API自动扫描工具MindSpore Dev Toolkit（推荐），或手动查询API映射表进行分析。详细可参考分析API满足度。

数据处理

Q: 怎么将PyTorch的dataset转换成MindSpore的dataset？

A: MindSpore和PyTorch的自定义数据集逻辑是比较类似的，首先需要用户先定义一个自己的 dataset 类，该类负责定义 init 、 getitem 、 len 来读取自己的数据集，然后将该类实例化为一个对象（如: dataset/dataset_generator ），最后将这个实例化对象传入 GeneratorDataset (mindspore用法)/ DataLoader (pytorch用法)，至此即可以完成自定义数据集加载了。

而MindSpore在 GeneratorDataset 的基础上提供了进一步的 map -> batch 操作，可以很方便地让用户在 map 内添加一些其他的自定义操作，并将其 batch 起来。

对应的MindSpore的自定义数据集加载如下:

# 1 Data enhancement,shuffle,sampler.
class Mydata:def __init__(self):np.random.seed(58)self.__data = np.random.sample((5, 2))self.__label = np.random.sample((5, 1))def __getitem__(self, index):return (self.__data[index], self.__label[index])def __len__(self):return len(self.__data)
dataset_generator = Mydata()
dataset = ds.GeneratorDataset(dataset_generator, ["data", "label"], shuffle=False)
# 2 Customized data enhancement
dataset = dataset.map(operations=pyFunc, {other_params})
# 3 batch
dataset = dataset.batch(batch_size, drop_remainder=True)

Q: 为什么在迭代数据的时候会报错：“The actual amount of data read from generator xx is different from generator.len xx, you should adjust generator.len to make them match” ？

A: 在定义可随机访问数据集时， len 方法返回的结果一定要是真实的数据集大小，设置大了在 getitem 取值时会有越界问题。如数据集大小未确定，可以使用可迭代数据集，详见自定义数据集。

Q: 为什么在迭代数据的时候会报错：“Invalid Python function, the ‘source’ of ‘GeneratorDataset’ should return same number of NumPy arrays as specified in column_names, the size of column_names is:xx and number of returned NumPy array is:xx” ？

A: 这是因为GeneratorDataset的 column_names 参数指定的列名数量与 source 参数输出的数据数量不匹配。

Q: 使用 GeneratorDataset 或 map 进行加载/处理数据时，可能会因为语法错误、计算溢出等问题导致数据报错，如何进行排查和调试？

A: 观察报错栈信息，由报错栈信息大概定位到出错代码块，在出错的代码块附近添加打印或调试点，进一步调试。详细可参考数据处理调试方法一。

Q: 数据增强 map 操作出错，如何调试 map 操作中各个数据处理算子？

A: 可以通过单个算子执行的方式调试或者通过数据管道调试模式调试 map 操作。
Q: 在训练的时候，会获得非常多warning提示我们数据集性能较慢应该怎么处理？

A: 可以单独迭代数据集，查看每条数据的处理时间，以此判断数据集的性能如何。详细可参考数据处理调试方法三。

Q: 在对数据进行处理的过程中，如果因为计算错误、数值溢出等因素，产生了异常的结果数值，从而导致训练网络时算子计算溢出、权重更新异常等问题该怎么排查？

A: 关闭混洗，固定随机种子，确保可重现性，然后利用NumPy等工具快速校验结果。详细可参考数据处理调试方法四。

更多数据处理常见问题请参考数据处理常见问题分析以及迁移中的数据处理差异请参考 MindSpore和PyTorch的数据处理差异。

梯度求导

Q: 如何自己实现算子的反向计算？

A: MindSpore提供了自动的梯度求导接口，该功能对用户屏蔽了大量的求导细节和过程。但如果有某些特殊场景，用户需要手动控制其反向的计算，用户也可以通过Cell.bprop接口对其反向进行定义。详细可参考自定义Cell反向。

Q: 如何处理梯度溢出造成训练不稳定的问题？

A: 网络溢出一般表现为loss Nan/INF，loss突然变得很大等。MindSpore提供 dump数据获取到溢出算子信息。当网络中出现梯度下溢时，可使用loss scale配套梯度求导使用，详细可参考 loss scale ；当网络出现梯度爆炸时，可考虑添加梯度裁剪，详细可参考梯度裁剪。

调试调优

Q: 请问想加载PyTorch预训练好的模型用于MindSpore模型finetune有什么方法？

A: 需要把PyTorch和MindSpore的参数进行一一对应，因为网络定义的灵活性，所以没办法提供统一的转化脚本。

一般情况下，CheckPoint文件中保存的就是参数名和参数值，调用相应框架的读取接口后，获取到参数名和数值后，按照MindSpore格式，构建出对象，就可以直接调用MindSpore接口保存成MindSpore格式的CheckPoint文件了。

其中主要的工作量为对比不同框架间的parameter名称，做到两个框架的网络中所有parameter name一一对应(可以使用一个map进行映射)，下面代码的逻辑转化parameter格式，不包括对应parameter name。

import torch
import mindspore as msdef pytorch2mindspore(default_file = 'torch_resnet.pth'):# read pth filepar_dict = torch.load(default_file)['state_dict']params_list = []for name in par_dict:param_dict = {}parameter = par_dict[name]param_dict['name'] = nameparam_dict['data'] = ms.Tensor(parameter.numpy())params_list.append(param_dict)ms.save_checkpoint(params_list,  'ms_resnet.ckpt')

Q: loss不收敛或精度不达标，该怎么定位？

A: 精度不达标一般体现在loss不收敛上。但是有很多复杂的原因可导致精度达不到预期，定位难度较大。这里提供几个指导链接供用户逐一排查问题。

Q: 模型训练过程中，第一个step耗时很长，该怎么优化？

A: 模型训练过程中，第一个step包含网络编译时长，如果想要优化第一个step的性能，可分析模型编译是否能进行优化。详细可参考静态图网络编译性能优化。

Q: 模型训练过程中，非首个step耗时很长，该怎么优化？

A: 模型训练过程中，非首个step的耗时包括迭代间隙、前反向计算和迭代拖尾，如果想要优化非首step的性能，需要先获取网络的迭代轨迹，再分析哪部分是性能瓶颈，最近进行性能优化。

详细可参考性能调优指南；和性能调试案例。

Q: 加载标杆权重进行模型推理验证正向流程时，有warning警告显示权重未加载成功，该如何解决？

A: load_checkpoint过程中，如果有权重未加载上，MindSpore会给出warning提示，一般加载失败有两种原因：1、权重名称对不上；2、权重在网络中缺失。

如果权重名称对不上，需要打印MindSpore的权重名称和标杆的权重名称，看是否MindSpore的权重名称多了backbone或network等前缀，如果是，检查MindSpore在初始化 Cell 时是否加上auto_prefix=False。

如果权重名称缺失，需要分析是否合理，如果合理，可忽略告警提示，如果不合理，需要分析网络定义是否错误，进行定位修改。

Q: 迁移过程使用PyNative进行调测，流程成功，切换成Graph模式，为什么会出现一堆的报错？

A: PyNative模式下模型进行推理的行为与一般Python代码无异。但是切换成Graph模式时，MindSpore通过源码转换的方式，将Python的源码转换成中间表达IR（Intermediate Representation），并在此基础上对IR图进行优化，最终在硬件设备上执行优化后的图。

而这一步操作中MindSpore目前还未能支持完整的Python语法全集，所以construct函数的编写会存在部分限制。

如：PyNative模式下可直接判断某个Tensor值是否为0，但切换成Graph模式则会报错不支持。

if response == 0:return loss
return loss/response

遇到类似情况，可将代码修改为：

response_gt = max(response, ms.Tensor(1))
loss = loss/response_gt
return loss

查看全文

http://www.lryc.cn/news/467049.html

【Linux】Linux进程地址空间

创建包含可导入浏览器信任的SSL自签名证书

[Windows] 很火的开源桌面美化工具 Seelen UI v2.0.2

华帝携手抖音头部达人，金牌导演李力持量身打造厨电定制微短剧

监控易监测对象及指标之：JBoss 7.1.x中间件监控

Java 模拟退火算法

LeetCode[中等] 80. 删除有序数组中的重复项 II

机器学习5

【Python技术】利用akshare定时获取股票实时价，低于5日线钉钉通知报警

LINUX1.2

Proximal Distance Algorithm （近段距离算法）

如何判断一个数是几位数与这个数是否为回文数并打印出其逆序数

Solon 之 STOMP

在掌控板上搭建http服务器

HCIA复习实验

生信软件39 - GATK最佳实践流程重构，提高17倍分析速度的LUSH流程

c#编写的各类应用程序、类库的引用（黑白盒）

Unity3D学习FPS游戏（2）简单场景、玩家移动控制

网上的 AQS 文章让我很失望

滑动窗口子串

【windows11 提示“Microsoft Visual C++ Runtime Library Runtime Error】

【leetcode|哈希表、动态规划】最长连续序列、最大子数组和

【人工智能】掌握深度学习中的时间序列预测：深入解析RNN与LSTM的工作原理与应用

环境准备

模型分析与准备

数据处理

梯度求导

调试调优

相关文章：