Skip to content

Ascend/att_1

Repository files navigation

att

介绍

Ascend Training Tools,昇腾训练工具链 针对训练&大模型场景,提供端到端命令行&可视化调试调优工具,帮助用户快速提高模型开发效率

模型训练迁移全流程

输入图片说明

使用说明

  1. 性能工具tools

    a. compare_tools

    **GPU与NPU性能比较工具**:提供NPU与GPU性能拆解功能以及算子、通信、内存性能的比较功能。
    

    b. distribute_tools

    **集群场景脚本集合**:提供集群场景数据一键汇聚功能。
    

    c. merge_profiling_timeline

    **合并大json工具**:融合多个profiling的timeline在一个json文件中的功能。
    

    d. cluster_analyse

    **集群分析工具**:提供多机多卡的集群分析能力(基于通信域的通信分析和迭代耗时分析), 当前需要配合Ascend Insight的集群分析功能使用。
    
  2. 精度工具tools

    a. api_accuracy_checker

    **预检功能**:Ascend模型精度预检工具能在昇腾NPU上扫描用户训练模型中所有API,给出它们精度情况的诊断和分析。
    

    b. ptdbg_ascend

    **PyTorch精度工具**:用来进行PyTorch整网API粒度的数据dump、精度比对和溢出检测,从而定位PyTorch训练场景下的精度问题。
    
  3. 分析迁移工具tools

    a. 脚本分析工具

    **脚本分析能力**:脚本分析工具提供分析脚本,帮助用户在执行迁移操作前,分析基于GPU平台的PyTorch训练脚本中算子、三方库套件、亲和API分析以及动态shape的支持情况
    

    b. 脚本迁移工具

    **脚本迁移能力**:脚本迁移工具提供后端命令行用于将GPU上训练的PyTorch脚本迁移至NPU上,得到新的训练脚本用于训练
    

    c. 自动迁移工具

    **自动迁移能力**:自动迁移只需在训练脚本中导入库代码即可完成模型脚本迁移,使用方式较简单,且修改内容最少
    
  4. tensorboard支持npu可视化插件tb-plugin

    PyTorch profiling数据可视化的TensorBoard的插件: 它支持将Ascend平台采集、解析的Pytorch Profiling数据可视化呈现,也兼容GPU数据采集、解析可视化。

参与贡献

  1. Fork 本仓库
  2. 新建 xxx 分支
  3. 提交代码
  4. 新建 Pull Request

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published