云容器实例(CCI)
Alaya New云容器实例(Cloud Container Instance,简称CCI)是一种基于Kubernetes的无服务器(Serverless)容器服务。用户无需管理底层集群和服务器,只需专注于容器镜像与业务逻辑,即可快速运行容器化应用。CCI支持秒级启动、弹性伸缩,并按实际资源消耗计费,帮助用户以更低成本获得业界领先的GPU算力与主流AI框架支持。
快速入门
进阶实践
CCI 上跑通的多步骤实战,放在「实践库」里集中维护。
CCI + LLaMA Factory微调llama3-8b
一卡H800A跑通LoRA SFT,带Webui
CCI + vLLM部署Baichuan2-7B-Chat
OpenAI兼容推理服务,一条curl验证
CCI 上的机器学习全流程
数据准备 → 训练 → 推理的完整链路
产品架构
CCI的设计始终以提供便捷、经济的高质量GPU算力为核心目标。许多中小规模客户仅需单节点(8卡以内)算力,直接管理Kubernetes集群不仅运维成本较高,也存在一定的技术门槛。CCI致力于提供一种开箱即用、无需管理底层基础设施的Serverless容器运行环境,让您能专注于模型开发与推理任务本身。
在架构实现上,CCI通过基于KVM的安全沙箱技术保障用户间的资源隔离,通过VXLAN等网络叠加(Overlay)技术实现多租户网络隔离。存储方面,不仅提供Block Storage块存储作为系统盘,更通过高性能Overlay Network接入NAS共享文件系统,确保高速访问数据与模型。
CCI 旨在提供像使用「开发机」一样简单、流畅的体验——您只需提交任务,即可由平台负责所有复杂的底层资源调度与运维,并按实际使用量计费。
更多信息,请参见产品计费说明。
产品功能
- 资源配置管理:灵活选择资源型号,支持H100、L40S、P4等多型号GPU和CPU实例,适应各种计算场景,避免资源冗余。
- 存储配置管理:提供多模式存储选项,涵盖高性能型、大容量型等多种NAS存储方案。适配不同业务场景的IO需求,实现性能与成本的最佳平衡。
- 镜像与环境管理:适配多源镜像,简化部署,提升运维便捷性,支持环境变量注入,灵活配置应用参数。
- 全生命周期的资源管理:覆盖容器的创建、运行到释放的全流程,支持WebShell、Jupyter Notebook等多样的操作方式。
- 实时可视化监控:通过多维度指标监控和事件追踪,支持高并发实例的智能调度,为您提供全生命周期的容器实例可视化管理。
- 成本与计费管理:采用按量计费(DCU/时)的精准计费模式。从实例启动到结束,实现「用多少、付多少」,未运行不计费。
产品优势
- 聚焦核心业务:免去繁琐的基础设施管理,无需考虑复杂的运维,开发者可专注于业务需求本身,加速业务场景创新与快速迭代。
- 生态开放:支持业界流行的机器学习框架、轻量级的容器能力,支持您灵活选择,并无缝对接九章智算云系列产品。
- 安全可靠:提供虚拟机级的安全隔离,结合容器的轻量化特点,在安全性与效率间取得平衡。
- AI原生:为AI全链路任务优化设计,以低资源消耗实现模型开发,并可借助高性能算力加速训练。
应用场景
大模型应用开发
CCI 提供即开即用的云端开发环境,您可基于主流框架快速启动项目、验证原型并测试业务逻辑,同时支持高效的团队协作与并行开发,显著缩短从想法到原型的研发周期,提升创新效率。
大模型微调
针对不同任务对显存和内存的差异化需求,CCI 提供丰富的 GPU 规格选择,支持 LoRA、全参数微调等多种方式,高效完成模型定制,且兼容主流框架,降低迁移和使用成本。
大模型推理服务
将微调完成的模型投入生产环境,支持API服务化、批量推理与在线实时推理等多种应用方式,实现高并发、低延迟的模型推理服务。
产品规格
CCI 产品分为三类:CPU 资源、H800A(1-8 卡)、L40S(1-8 卡),可满足您低成本开发和使用的需求。
| 规格 | CPU 资源 | H800A | L40S |
|---|---|---|---|
| GPU 资源 | / | NVIDIA-H800A-NV-80G ×1、×2、×4、×8 | NVIDIA-L40S-PCIE-48G ×1、×2、×4、×8 |
| CPU 资源 | 2 核 4GB | 18 核 200GB、36 核 400GB、72 核 800GB、144 核 1600GB | 10 核 80GB、20 核 160GB、40 核 320GB、80 核 640GB |
| 磁盘配置 | 50GB | 50GB | 50GB |
| 适用场景 | 轻量级开发与调试、测试与验证、数据预处理 | 高性能批量推理、大模型训练与微调、复杂算法与高性能计算 | 大模型推理、高并发在线服务、图形与视觉计算、中等规模模型训练 |
| 计费(DCU/时) | 0.05 | 2.56~20.48 | 0.65~5.2 |
最后更新于
