用 CCI + vLLM 部署 OpenAI 兼容推理服务
本实践演示如何在 Alaya NeW 云容器实例中使用 vLLM 镜像,部署并调用大语言模型。以 Baichuan2-7B-Chat 为例。
前提条件
- 用户已经获取 Alaya New 企业账户和密码,如果需要帮助或尚未注册,可参考注册账户完成注册。
- 当前账户余额充足,足以覆盖 H800A × 1 卡云容器实例的运行费用。
操作步骤
步骤一:创建云容器实例
-
使用已注册的企业账号登录 Alaya NeW 平台,单击产品中心/计算/云容器实例菜单项,进入云容器实例页面。
-
单击新建云容器实例,进入开通页面,配置实例名称,实例描述,智算中心等参数。本示例中按如下要求配置各项参数。其中:
资源类型:选择"云容器实例-GPU-H800A-1卡"即可。- 其他参数配置请参考下表进行设置。
配置参数 参数说明 配置要求 是否必须 实例名称 指定云容器的标识符,用于在系统中唯一识别该云容器。 字母开头,支持字母、数字、连字符(-)、下划线(_),长度应为4-20字符。 是 实例描述 云容器的功能、用途、配置等信息进行简要说明的文字描述。 无。 否 智算中心 用于支持云容器实例服务的数据中心。 选择可用的数据中心,例如:北京三区、北京五区等。 是 付费方式 使用数据中心资源的计费方式。 选择系统目前支持的计费方式,当前为按量计费。 是 资源配置 详细列出算力中心的资源规格,包括资源类型、GPU型号、计算资源规格、磁盘配置等。 选择满足所需的资源。 是 存储配置 可以选择云容器实例中的挂载NAS型存储。 选择需要挂载NAS型存储。 否 镜像 支持公共镜像(包括基础镜像和应用镜像)和私有镜像,可根据需要选择镜像类型。 - 是 其他配置 支持配置环境变量的建和值,同时支持开启云容器实例的自动关机和自动释放。 - 否 -
云容器实例参数配置完成后,单击立即开通按钮,然后在弹出的对话框中确认已配置的参数,确认无误后单击确定,即可完成云容器实例开通操作。
您可以在计算/云容器实例页面查看已创建的云容器实例,当云容器实例状态为运行中时,表示云容器实例创建成功且可正常使用。
步骤二:模型部署
-
在云容器实例页面的容器列表页签找到目标云容器实例,单击右侧的web连接图标。

-
执行如下命令,下载 vLLM。
pip install vllm -
执行如下命令,下载模型。
pip install modelscope # 命令行下载 modelscope download --model baichuan-inc/Baichuan2-7B-Chat --local_dir '/root/model/' -
执行如下命令,启动模型推理,并开启模型推理服务。
python3 -m vllm.entrypoints.openai.api_server \ --model /root/model/ \ --host 0.0.0.0 \ --port 8080 \ --dtype auto \ --trust-remote-code--model指向上一步下载的模型路径;若路径变化请同步修改。回显如下信息,则说明模型推理服务启动成功。

-
重新打开一个 web 连接,调用模型测试:
curl http://localhost:8080/v1/completions \ -H "Content-Type: application/json" \ -d '{ "prompt": "你认为什么是云容器实例?", "max_tokens": 512 }'
对外暴露推理服务
如需从浏览器或外部应用调用,在容器列表里点击 开放端口 拿到 8080 对应的外部地址,把"localhost"替换为这个外部地址即可。
参考:CCI 端口管理。
最后更新于
这篇文档对你有帮助吗?
