在云容器实例中使用vLLM部署模型

更新时间：2025-09-26 11:43:25

本章节介绍在云容器实例中如何使用 vLLM 镜像，部署并调用平台预置的大语言模型。本文以部署 Baichuan2-7B-chat 模型为例介绍具体的操作过程。

前提条件

单击“新建云容器”，进入[云容器实例]开通页面，开通基本信息，例如：实例名称，实例描述，智算中心等参数。本示例中按如下要求配置各项参数。其中：

其他参数配置请参考下表进行设置。

配置参数	参数说明	配置要求	是否必须
云容器实例名称	指定云容器的标识符，用于在系统中唯一识别该云容器。	字母开头，支持字母、数字、连字符(-)、下划线(_)，长度应为4-20字符。	是
实例描述	云容器的功能、用途、配置等信息进行简要说明的文字描述。	无。	-
智算中心	用于支持大模型推理服务的数据中心。	选择可用的数据中心，例如：北京一区、北京二区等。	是
付费方式	使用数据中心资源的计费方式。	选择系统目前支持的计费方式，当前为按量计费。	是
资源配置	详细列出算力中心的资源规格，包括资源类型、GPU型号、计算资源规格、磁盘配置等。	选择满足所需的资源。	是
镜像	支持公共镜像和私有镜像，可根据需要选择镜像类型。	-	是
其他配置	支持配置环境变量的建和值，同时支持开启云容器实例的自动关机和自动释放。	-	否

云容器实例参数配置完成后，单击“立即开通”按钮，然后在弹出的对话框中确认已配置的参数，确认无误后单击“确定”，即可完成云容器实例开通操作。

您可以在[计算/云容器实例]页面查看已创建的云容器实例，当云容器实例状态为“运行中”时，表示云容器实例创建成功且可正常使用。

执行如下命令，下载模型。

pip install modelscope
##命令行下载
modelscope download --model baichuan-inc/Baichuan2-7B-Chat  --local_dir '/root/model/'

您可重新开启 Web 连接，执行如下命令，调用模型。

curl http://localhost:8080/v1/completions \
-H "Content-Type: application/json" \
-d '{
   "prompt": "你认为什么是云容器实例？",
   "max_tokens": 512
}'