跳到主要内容

基本概念

Aladdin(Alaya AI Addin )是九章云极DataCanvas自主研发的IDE插件,专为大模型开发设计。在使用Aladdin之前,用户可能需要了解该产品涉及的概念。本文为用户介绍Aladdin的常用名词和基本概念,以便于用户可以更好地使用Aladdin。

Workshop

作为用户的工作区(数据存储在共享存储上)。用户可以根据需要自定义镜像、计算资源、环境变量和挂载存储卷等参数来创建自己的工作区。在每个工作区内,用户可以使用远程VS Code环境开发、调试和训练模型,并利用VKS(Virtual Kubernetes Service )资源调试和执行程序。

Environments

在该模块下,用户可以配置启动工作区、调试和运行程序所需的镜像。在Environments处提供预置的公共镜像,同时也支持连接企业镜像仓库和第三方Harbor镜像仓库。

VKS资源

在Workshop工作区内,用户可以调用智算中心的计算资源来执行程序。Aladdin提供多种执行方法,例如:支持Python程序、Shell脚本以及分布式任务。每次执行都可以实时配置所需的镜像和资源,并在成功或失败时自动释放资源,确保以最优化的计算配置完成模型训练和优化。目前支持的智算中心如下所示。

提示

用户创建弹性容器集群的智算中心,需要与后续使用的镜像仓库属于同一智算中心,不同镜像仓库地址如下所示。

  • 北京一区:registry.hd-01.alayanew.com:8443
  • 北京二区:registry.hd-02.alayanew.com:8443
  • 北京三区:registry.hd-03.alayanew.com:8443

Task

在任务面板下,可以通过停止、启动、删除任务和查看任务日志等操作来管理训练任务。它还为任务提供资源监控,包括 MEM、GPU利用率和GPU内存时钟等指标。对于分布式任务,可显示每个工作站的资源使用指标。此外,用户还可以导航到AIM访问全面的监控指标。

GPU Debug

远程启动计算资源进行调试,在不拥有本地高性能硬件的情况下,依然能调用VKS的GPU资源对需要大量计算资源的应用(如深度学习模型)进行调试;调试成功/失败/手动断开调试会话后,计算资源将自动释放。在代码执行过程中可以访问会话中的信息,一旦执行完成,这些信息将不可用。这种机制既支持了高效的资源使用,也保证了开发过程的流畅性。

GPU Run

远程执行Python程序的,允许用户在不拥有本地高性能GPU硬件的情况下,依然可以调用VKS的GPU资源来运行需要大量计算能力的任务,比如深度学习模型的训练或推理。计算资源将在执行成功或失败后自动释放。在代码执行过程中可以访问会话中的信息,但在执行完成后将不可用。

Run Shell

远程启动高性能计算资源执行Shell脚本,允许用户在不拥有本地高性能硬件的情况下,依然可以调用VKS的资源来编写脚本和设计任务,而不必担心底层的计算资源配置和管理问题,执行成功或失败后,计算资源将自动释放。代码执行期间可访问会话中的信息,但执行完成后会话中的信息将不可用。

Run Task

允许用户在Workshop中提交分布式任务,允许用户在不拥有本地高性能硬件的情况下,依然可以调用VKS的资源来执行任务,任务执行成功或失败后,计算资源将自动释放。用户可在执行过程中、执行完成后或执行失败时查看会话日志,同时系统会生成相应的任务,以实现资源利用率监控和训练指标跟踪。

Seesion

GPU Run、RUN Shell和GPU Debug都会生成一个Seesion。单击Workshop中的GPU调试插件图标即可查看会话列表,该列表支持访问会话日志和终端。

Image saving

该操作指将当前的工作环境(例如:在工作区Workshop中配置好的开发环境及其所有依赖项)保存为一个可复用的镜像文件。该过程允许用户轻松备份、分享或重新部署工作环境,确保无论何时何地都能快速恢复到保存时的状态。