跳到主要内容

常见问题

1、弹性容器集群

1.1、弹性容器集群是否是启动就开始计费,有没有无卡启动模式?

**解决方案:**集群启动后,只有 存储 会消耗少量的算力,集群本身并不会消耗算力;只有启动服务时,配置了GPU,才会产生GPU的算力消耗。

1.2、安装Kubernestes客户端工具kubectl后,打开Kubernestes客户端工具,会出现下面的界面,并且一会就自动关闭了。

image

**解决方案:**Kubernestes客户端工具不是直接双击运行的,您下载kubectl.exe后,需要配置环境变量,然后打开cmd,在cmd中运行

1.3、需要先部署一个docker环境,上传数据时,无卡怎么开实例呢?

**解决方案:**在弹性容器集群中启动一个pod,挂载pvc,不配置gpu数量即可。

可参考下方链接文章附件中的prepare.yaml:https://mp.weixin.qq.com/s/jfidImiOWVUGUCsZZDJsEg

弹性容器集群的使用可参考:https://docs.alayanew.com/docs/documents/useGuide/Vcluster/start

1.4、如何使用k8s呢?

**解决方案:**请参考k8s的官网文档

1.5、弹性容器集群是否支持外部访问web服务,如何配置开放端口呢?

image

**解决方案:**支持外部访问web服务,可创建serviceExporter,如下:

image

参考:https://docs.alayanew.com/docs/documents/useGuide/Vcluster/publishService

2、存储管理

2.1、对象存储和镜像仓库的密码如何重置?

**解决方案:**在AlayaNeW的主页,点击右上角用户头像-访问管理,即可进入对象存储和镜像仓库的TAG页面,点击重置按钮进行重置密码。

image

3、其他问题

3.1、算力额度适用场景

问题描述

不同的算力额度可以用来运行不同规模的模型和处理不同量级的数据,具体能跑多少模型、多大的模型以及多少数据,取决于模型的复杂度和数据量。

参考数据

任务类型算力额度(度)模型规模(参数)数据量(tokens)硬件配置耗时
LoRA模型微调10013B30亿2张H系列GPU不到17小时
行业模型微调100033B40亿8张H系列GPU不到2天
行业模型微调10000175B70亿64张H系列GPU不到2天
模型训练1000007B1.8万亿128张H系列GPU约10天

其他考虑因素

存储:需要考虑存储资源。

CPU:CPU性能也会影响训练效率。

网络:训练过程中的网络稳定性也很重要。

评估信息:以上信息仅供参考,类似于评估汽油车的油耗,实际使用中可能会有所不同。

以上提供了不同模型规模和数据量在不同硬件配置下的大致耗时情况。

请注意,实际训练和微调过程中,还需考虑存储、CPU性能和网络稳定性等因素,因此以上数据仅供参考,具体以实际操作为准。

4、账户权限

4.1、注册企业账户后,怎么没有密码?

企业账户注册完成后,会立即发送邮件至注册邮箱,提醒您设置初始密码。如果没收到,请您看一下是否被邮箱判定为垃圾邮件了

注意:链接有效期1小时,如果您超过1个小时未设置密码,则需要选择忘记密码,重新给您发送设置密码的邮件

image

image

4.2、已开通企业账号并购买算力,如何让另一个人也使用企业中的算力?

解决方案:给另一个人开通该企业下的普通账号,步骤如下:

1)新建用户:企业管理员登录后,点击费用中心,然后进入综合中心-人员权限管理-用户页面,新建用户

image

image

2)设置密码:新建用户成功后,会发送邮件到用户邮箱,提醒用户设置初始密码,密码设置成功后,就可以登录AlayaNeW

image

3)进入应用使用算力:若已开通应用,则请企业管理员授权应用给普通用户即可使用;若未开通应用,则需要开通应用后使用。请参见 https://docs.alayanew.com/docs/documents/quickStart/applicationManagement”)

4.3、已购买或兑换算力,但是登录后为什么无法进入LM Lab/Inference/Studio应用?

情况一:企业未开通LM Lab/Inference/Studio应用

**解决方案:**开通应用,请参见https://docs.alayanew.com/docs/documents/quickStart/applicationManagement”)

情况二:企业已开通LM Lab/Inference/Studio应用,但企业普通用户仍然无法进入应用

**解决方案:**请企业管理员将应用授权给当前用户,步骤如下:

1)企业管理员点击进入资源中心-应用管理页面,点击授权按钮,选择待授权的用户或用户组,点击提交授权。

image

  1. 授权成功后,企业普通用户即可通过以下两种方式进入应用

在主页-产品或者资源中心的应用管理页面,点击要进入的应用,然后点击立即进入按钮,即可进入应用

image

image

在资源中心的应用管理页面,点击访问按钮,进入lmlab/infer/studio应用

image

5、LM Lab

5.1、Workshop

5.1.1、Workshop启动或者提交任务时,怎么无法选择GPU?

原因:用户使用的当前项目未配置GPU

解决方案1:请该项目的管理员,进入项目的概览页面,点击项目设置-编辑项目,配置GPU资源

image

**解决方案2:请企业管理员进入该项目所在的LMLab应用,点击进入系统管理-资源配置页面,点击编辑按钮,配置GPU资源

image

5.1.2、在workshop中编码运行或者提交任务运行时,提示GPU/CPU/内存资源不足

原因1:项目设置的资源较小

解决方案:请该项目的管理员编辑项目,配置对应资源;或者请企业管理员进入资源配置页面,配置对应资源。请参见问题“Workshop启动或者提交任务时,怎么无法选择GPU?”

原因2:资源被其他任务占用

解决方案

1)请该项目的管理员,进入项目的概览页面,查看资源占用情况,根据实际使用情况释放资源

image

2)请企业管理员进入该项目所在的LMLab应用,点击进入系统管理-资源明细页面,查看应用下的所有项目资源占用情况,根据实际使用情况释放资源

image

5.1.3、Workshop中怎么安装其他的python依赖?

**解决方案:**在Workshop启动后,点击编码,进入vscode编码环境,输入以下bash命令:

pip install xxx -i http://nexus.mas.zetyun.cn:8081/repository/pypi/simple --trusted-host nexus.mas.zetyun.cn

说明:使用该命令即可通过指定的内部源安装Python依赖包。

5.2、数据管理/文件管理

5.2.1、上传文件/模型时,报413异常

可能原因:上传文件过大,超过10G。

解决方案:请确保上传的模型文件大小符合要求。

5.2.2、文件管理上传的压缩文件怎么解压?

操作步骤

在Workshop启动后,点击编码,进入vscode编码环境,输入以下bash命令:

tar -zxvf /opt/aps/workdir/input/file/a.tar.gz -C /opt/aps/workdir

说明:该命令将a.tar.gz文件解压到/opt/aps/workdir目录下。

6、Inference

6.1、在线服务

6.1.1、在线服务部署模型时,如何使用自定义镜像?

1)若未开通镜像仓库,则需开通镜像仓库;若已开通镜像仓库则忽略

镜像仓库的开通请参见 https://docs.alayanew.com/docs/documents/storage/mirrorRepository/mirrorRepositoryManagerment

2)在镜像仓库中上传自定义镜像

上传自定义镜像请参见 https://docs.alayanew.com/docs/documents/storage/mirrorRepository/useMirrorRepository

3)使用自定义环境

完成:镜像上传完成后,在线服务部署模型时,就可以从企业镜像仓库选择上传的自定义环境了。

image

6.1.2、在线服务部署模型时,提示GPU/CPU/内存资源不足

原因1:服务设置的资源较小

解决方案

1)请该服务的管理员,进入服务的概览页面,点击服务设置-编辑服务,进入服务编辑页面点击下一步,配置服务的资源

image

image

image

2)请企业管理员进入该服务所在的Inference应用,点击右上角的切换应用,选择Console,然后点击进入资源管理-资源配置页面,点击编辑按钮,配置服务的资源。

image

image

image

原因2:资源被其他任务占用

解决方案

1)请该服务的管理员,进入服务的概览页面,查看资源占用情况,根据实际使用情况释放资源

image

2)请企业管理员进入该服务所在的Inference应用,点击右上角的切换应用,选择Console,然后点击进入资源管理-资源明细页面,查看应用下的所有服务资源占用情况,根据实际使用情况释放资源

image

image

image