九章智算云

修改配置

当 ALab 实例处于 运行中已休眠失败 状态时,均支持修改实例配置并重新启动。您可以根据业务需求动态调整计算资源、开发环境、环境变量及存储配置,以满足不同开发与训练场景需求。

说明

修改配置后,系统将提示重启 ALab 实例,实例重启完成后新配置生效。建议在无训练或推理任务运行期间进行配置调整,避免任务中断。

计算资源

ALab支持弹性调整CPU、内存及GPU资源配置,满足模型开发、训练与推理等不同场景需求。

  1. 登录 九章智算云 平台,单击 产品中心/Alaya Lab菜单项,进入Alaya Lab列表页面。

  2. 在ALab列表页面中,找到目标实例,单击名称链接进入平台开发详情页,单击 弹性配置 按钮,进入资源配置页面,默认开通资源规格为CPU:2C 4GB。
    企业注册

  3. 单击GPU页签,查看当前可用GPU资源列表,选择目标GPU型号后,单击确定,根据系统提示重启实例使配置生效。

    GPU 资源

说明

  • 小规模模型开发建议使用 CPU 或单卡 GPU 配置
  • 大模型训练推荐使用 H800A 多卡资源
  • 推理与图形渲染场景推荐使用 L40S

开发环境

ALab支持动态切换开发框架与CUDA版本,便于适配不同AI项目环境需求。

  1. 登录 九章智算云平台,单击 产品中心/Alaya Lab 菜单项,进入Alaya Lab列表页面。

  2. 在ALab列表页面中,找到目标实例,单击名称链接进入平台开发详情页,单击 弹性配置 按钮,进入资源配置页面。

  3. 单击开发框架名称链接,系统弹窗开发框架修改窗口,修改开发框架后,单击确定,根据系统提示重启实例使配置生效。

    当前支持查看与修改以下配置:

    • 开发框架(Framework)
    • CUDA 版本(CUDA Version)

开发环境

注意

切换开发环境后,除 ~/work 目录外的临时数据可能被重置,请提前备份重要文件。

环境变量

ALab支持添加自定义环境变量,用于配置第三方服务鉴权、模型缓存路径及运行参数等。

  1. 登录 九章智算云平台,单击 产品中心/Alaya Lab 菜单项,进入Alaya Lab列表页面。

  2. 在ALab列表页面中,找到目标实例,单击名称链接进入平台开发详情页,单击 弹性配置 按钮,进入资源配置页面。

  3. 单击环境变量数量链接,系统弹窗环境变量修改窗口,修改环境变量后,单击确定,根据系统提示重启实例使配置生效。
    环境变量

    常见使用场景:

    环境变量用途
    HF_TOKENHugging Face 模型访问 Token
    HF_HOME模型缓存路径
    OSS_ACCESS_KEY对象存储访问密钥

说明

建议在分布式训练、大模型训练及生产环境中统一使用环境变量管理运行配置。

存储配置

ALab 支持挂载额外存储资源,用于扩展工作空间容量及管理训练数据。

  1. 登录 九章智算云平台,单击 产品中心/Alaya Lab 菜单项,进入Alaya Lab列表页面。
  2. 在ALab列表页面中,找到目标实例,单击名称链接进入平台开发详情页,单击存储资源按钮,进入资源配置页面。
  3. 在弹出的存储配置页面中,选择待挂载的存储资源,并设置挂载路径。
    存储配置

说明

系统默认会自动挂载与 ALab 同时创建的 NAS 型存储至 /data 目录,无需额外配置。

开机与休眠

ALab 支持实例运行与休眠状态切换,用于灵活控制资源使用与费用。

  1. 登录 九章智算云平台,单击 产品中心/Alaya Lab 菜单项,进入Alaya Lab列表页面。
  2. 在ALab列表页面中,找到目标实例,单击名称链接进入平台开发详情页,单击 弹性配置,通过页面顶部状态开关管理实例状态,支持状态包括:
    • 开机:启动实例并恢复运行

    • 休眠:暂停实例运行并释放GPU 资源

      开机休眠开关

注意

实例休眠后,GPU 资源将被释放,但存储数据仍会保留。重新启动实例时,可能需要等待资源重新调度。

保存镜像

ALab 支持将当前开发环境保存为自定义镜像,便于后续快速复用或团队共享。

  1. 登录 九章智算云平台,单击 产品中心/Alaya Lab 菜单项,进入Alaya Lab列表页面。

  2. 在ALab列表页面中,找到目标实例,单击名称链接进入平台开发详情页,单击保存镜像,进入镜像制作页面。

    保存镜像

  3. 输入镜像名称与镜像描述,单击确定,开始制作镜像,镜像制作完成后,可在镜像列表中查看并使用。

注意

  • 保存镜像前需要被授权混闪-OSS服务。
  • 建议在完成依赖安装、模型下载及环境配置后保存镜像,可显著减少后续实例初始化时间。

最后更新于

这篇文档对你有帮助吗?

目录