用 CCI + vLLM 部署 OpenAI 兼容推理服务

本实践演示如何在 Alaya NeW 云容器实例中使用 vLLM 镜像，部署并调用大语言模型。以 Baichuan2-7B-Chat 为例。

前提条件

单击新建云容器实例，进入开通页面，配置实例名称，实例描述，智算中心等参数。本示例中按如下要求配置各项参数。其中：

配置参数	参数说明	配置要求	是否必须
实例名称	指定云容器的标识符，用于在系统中唯一识别该云容器。	字母开头，支持字母、数字、连字符(-)、下划线(_)，长度应为4-20字符。	是
实例描述	云容器的功能、用途、配置等信息进行简要说明的文字描述。	无。	否
智算中心	用于支持云容器实例服务的数据中心。	选择可用的数据中心，例如：北京三区、北京五区等。	是
付费方式	使用数据中心资源的计费方式。	选择系统目前支持的计费方式，当前为按量计费。	是
资源配置	详细列出算力中心的资源规格，包括资源类型、GPU型号、计算资源规格、磁盘配置等。	选择满足所需的资源。	是
存储配置	可以选择云容器实例中的挂载NAS型存储。	选择需要挂载NAS型存储。	否
镜像	支持公共镜像（包括基础镜像和应用镜像）和私有镜像，可根据需要选择镜像类型。	-	是
其他配置	支持配置环境变量的建和值，同时支持开启云容器实例的自动关机和自动释放。	-	否

云容器实例参数配置完成后，单击立即开通按钮，然后在弹出的对话框中确认已配置的参数，确认无误后单击确定，即可完成云容器实例开通操作。

您可以在计算/云容器实例页面查看已创建的云容器实例，当云容器实例状态为运行中时，表示云容器实例创建成功且可正常使用。

执行如下命令，下载模型。

pip install modelscope
# 命令行下载
modelscope download --model baichuan-inc/Baichuan2-7B-Chat --local_dir '/root/model/'

重新打开一个 web 连接，调用模型测试：

curl http://localhost:8080/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "你认为什么是云容器实例?",
    "max_tokens": 512
  }'

调用结果

如需从浏览器或外部应用调用，在容器列表里点击 开放端口 拿到 8080 对应的外部地址，把"localhost"替换为这个外部地址即可。