基本概念

更新时间：2025-05-14 18:43:25

Aladdin（Alaya AI Addin ）是九章云极DataCanvas自主研发的IDE插件，专为大模型开发设计。在使用Aladdin之前，用户可能需要了解该产品涉及的概念。本文为用户介绍Aladdin的常用名词和基本概念，以便于用户可以更好地使用Aladdin。

Workshop

作为用户的工作区（数据存储在共享存储上）。用户可以根据需要自定义镜像、计算资源、环境变量和挂载存储卷等参数来创建自己的工作区。在每个工作区内，用户可以使用远程VS Code环境开发、调试和训练模型，并利用VKS（Virtual Kubernetes Service ）资源调试和执行程序。

Environments

在该模块下，用户可以配置启动工作区、调试和运行程序所需的镜像。在Environments处提供预置的公共镜像，同时也支持连接企业镜像仓库和第三方Harbor镜像仓库。

VKS资源

在Workshop工作区内，用户可以调用智算中心的计算资源来执行程序。Aladdin提供多种执行方法，例如：支持Python程序、Shell脚本以及分布式任务。每次执行都可以实时配置所需的镜像和资源，并在成功或失败时自动释放资源，确保以最优化的计算配置完成模型训练和优化。目前支持的智算中心如下所示。

提示

用户创建弹性容器集群的智算中心，需要与后续使用的镜像仓库属于同一智算中心，不同镜像仓库地址如下所示。

北京一区：registry.hd-01.alayanew.com:8443
北京二区：registry.hd-02.alayanew.com:8443
北京三区：registry.hd-03.alayanew.com:8443

Task

在任务面板下，可以通过停止、启动、删除任务和查看任务日志等操作来管理训练任务。它还为任务提供资源监控，包括 MEM、GPU利用率和GPU内存时钟等指标。对于分布式任务，可显示每个工作站的资源使用指标。此外，用户还可以导航到AIM访问全面的监控指标。

GPU Debug

远程启动计算资源进行调试，在不拥有本地高性能硬件的情况下，依然能调用VKS的GPU资源对需要大量计算资源的应用（如深度学习模型）进行调试；调试成功/失败/手动断开调试会话后，计算资源将自动释放。在代码执行过程中可以访问会话中的信息，一旦执行完成，这些信息将不可用。这种机制既支持了高效的资源使用，也保证了开发过程的流畅性。

GPU Run

远程执行Python程序的，允许用户在不拥有本地高性能GPU硬件的情况下，依然可以调用VKS的GPU资源来运行需要大量计算能力的任务，比如深度学习模型的训练或推理。计算资源将在执行成功或失败后自动释放。在代码执行过程中可以访问会话中的信息，但在执行完成后将不可用。

Run Shell

远程启动高性能计算资源执行Shell脚本，允许用户在不拥有本地高性能硬件的情况下，依然可以调用VKS的资源来编写脚本和设计任务，而不必担心底层的计算资源配置和管理问题，执行成功或失败后，计算资源将自动释放。代码执行期间可访问会话中的信息，但执行完成后会话中的信息将不可用。

Run Task

允许用户在Workshop中提交分布式任务，允许用户在不拥有本地高性能硬件的情况下，依然可以调用VKS的资源来执行任务，任务执行成功或失败后，计算资源将自动释放。用户可在执行过程中、执行完成后或执行失败时查看会话日志，同时系统会生成相应的任务，以实现资源利用率监控和训练指标跟踪。

Seesion

GPU Run、RUN Shell和GPU Debug都会生成一个Seesion。单击Workshop中的GPU调试插件图标即可查看会话列表，该列表支持访问会话日志和终端。

Image saving

该操作指将当前的工作环境（例如：在工作区Workshop中配置好的开发环境及其所有依赖项）保存为一个可复用的镜像文件。该过程允许用户轻松备份、分享或重新部署工作环境，确保无论何时何地都能快速恢复到保存时的状态。