九章智算云

用 CCI + vLLM 部署 OpenAI 兼容推理服务

本实践演示如何在 Alaya NeW 云容器实例中使用 vLLM 镜像,部署并调用大语言模型。以 Baichuan2-7B-Chat 为例。

前提条件

  • 用户已经获取 Alaya New 企业账户和密码,如果需要帮助或尚未注册,可参考注册账户完成注册。
  • 当前账户余额充足,足以覆盖 H800A × 1 卡云容器实例的运行费用。

操作步骤

步骤一:创建云容器实例

  1. 使用已注册的企业账号登录 Alaya NeW 平台,单击产品中心/计算/云容器实例菜单项,进入云容器实例页面。

  2. 单击新建云容器实例,进入开通页面,配置实例名称,实例描述,智算中心等参数。本示例中按如下要求配置各项参数。其中:

    • 资源类型:选择"云容器实例-GPU-H800A-1卡"即可。
    • 其他参数配置请参考下表进行设置。
    配置参数参数说明配置要求是否必须
    实例名称指定云容器的标识符,用于在系统中唯一识别该云容器。字母开头,支持字母、数字、连字符(-)、下划线(_),长度应为4-20字符。
    实例描述云容器的功能、用途、配置等信息进行简要说明的文字描述。无。
    智算中心用于支持云容器实例服务的数据中心。选择可用的数据中心,例如:北京三区、北京五区等。
    付费方式使用数据中心资源的计费方式。选择系统目前支持的计费方式,当前为按量计费。
    资源配置详细列出算力中心的资源规格,包括资源类型、GPU型号、计算资源规格、磁盘配置等。选择满足所需的资源。
    存储配置可以选择云容器实例中的挂载NAS型存储。选择需要挂载NAS型存储。
    镜像支持公共镜像(包括基础镜像和应用镜像)和私有镜像,可根据需要选择镜像类型。-
    其他配置支持配置环境变量的建和值,同时支持开启云容器实例的自动关机和自动释放。-
  3. 云容器实例参数配置完成后,单击立即开通按钮,然后在弹出的对话框中确认已配置的参数,确认无误后单击确定,即可完成云容器实例开通操作。

    您可以在计算/云容器实例页面查看已创建的云容器实例,当云容器实例状态为运行中时,表示云容器实例创建成功且可正常使用。

步骤二:模型部署

  1. 云容器实例页面的容器列表页签找到目标云容器实例,单击右侧的web连接图标。

    企业注册

  2. 执行如下命令,下载 vLLM。

    pip install vllm
  3. 执行如下命令,下载模型。

    pip install modelscope
    # 命令行下载
    modelscope download --model baichuan-inc/Baichuan2-7B-Chat --local_dir '/root/model/'
  4. 执行如下命令,启动模型推理,并开启模型推理服务。

    python3 -m vllm.entrypoints.openai.api_server \
      --model /root/model/ \
      --host 0.0.0.0 \
      --port 8080 \
      --dtype auto \
      --trust-remote-code

    --model 指向上一步下载的模型路径;若路径变化请同步修改。

    回显如下信息,则说明模型推理服务启动成功。

    模型推理服务启动成功

  5. 重新打开一个 web 连接,调用模型测试:

    curl http://localhost:8080/v1/completions \
      -H "Content-Type: application/json" \
      -d '{
        "prompt": "你认为什么是云容器实例?",
        "max_tokens": 512
      }'

    调用结果

对外暴露推理服务

如需从浏览器或外部应用调用,在容器列表里点击 开放端口 拿到 8080 对应的外部地址,把"localhost"替换为这个外部地址即可。

参考:CCI 端口管理

最后更新于

这篇文档对你有帮助吗?

目录