产品介绍
弹性容器集群提供一体化的计算资源和工具支持,帮助用户高效地开展高性能计算(HPC)任务。依托弹性容器集群弹性扩展的特性,用户可根据并行计算需求、数据密集程度、任务进度、资源使用情况等信息实时调整算力资源配置,以确保计算性能与任务需求匹配,节约费用成本。
智算基础资源
-
高性能计算:弹性容器集群搭载最新的GPU技术,使得系统能够提供极高的浮点运算性能,对于需要大量并行计算的任务(如深度学习)非常有利。
-
高性能存储:专为大模型设计的存储设施Alaya NeW为大模型需求匹配强大的跨越多智算中心的数据平台NeW Dingo,通过多中心存储、语料专用压缩算法、文件系统物化视图、文件系统与向量数据库融合、原生安全策略等存储技术,不仅实现70%-90%的空间节省,50%的网络IO节省,其语料处理速度同时提升高达10倍。
-
高性能网络:高性能网络利用高可用的GPU集群和专用加速器,并集成先进的分布式计算框架,使弹性容器集群能够高效地支持大规模数据处理和复杂模型训练。
算力管理内核
-
弹性容器集群凭借先进的异构纳管技术实现全面支持各厂家GPU算力,通过高性能的IB、RoCE网络架构配置优化的网络集合通讯算法,专为大模型设计的高性能存储设施,以及Serverless弹性高性能计算架构,全透明的资源调度管理,让用户得以从硬件资源管理中抽身、只专注AI核心训练和推理任务。
-
其实现了跨中心智能算力集群调度,设置全功能Kernel和轻量Kernel来全面纳管不同类型算力中心、集群以及GPU云服务;面向大模型任务,Alaya NeW提供专用调度算法和策略实现AI加速,并通过故障感知、拓扑感知调度、GANG调度、动态公平调度等自动化运维能力实现更进一步的调度优化,全面提升算力可用性。
大模型
适配各类第三方大模型,例如:DeepSeek,QWen,LLaMa,ChatGLM等。以及自研大模型(九章·元识多模态大模型)。
Serverless
-
开发态Serverless:通过算力包和Serverless架构的强强结合,推出了一款专为大型模型开发者设计的IDE插件—Aladdin(Alaya AI Addin)。该插件实现了本地开发环境与云端弹性容器集群之间的无缝对接,使得开发者可以轻松利用云端的强大算力,而无需担心基础设施的管理问题。无论是进行大规模的数据处理还是复杂的模型训练与推理,Aladdin都能提供流畅且高效的开发体验。
-
训练态Serverless:基于弹性容器集群提供的便捷管理和秒级冷启动功能,推出了Open API产品。该产品专为AI训练和微调场景设计,致力于简化并加速AI模型从开发到优化的全过程。通过Open API,开发者能够快速部署和扩展计算资源,实现高效的模型训练和调整,同时享受无缝集成与自动化管理带来的便利。无论是小型实验还是大规模生产部署,Open API都能提供强大支持。
-
推理态Serverless:专门用于处理机器学习或深度学习模型的推理任务。弹性容器集群可以根据业务运行情况自动管理和扩展运行环境,使开发者可以专注于编写和优化模型代码。
通过上述特性,Alaya NeW弹性容器集群(VKS,Virtual Kubernetes Service)为各类用户打造了一个既强大又灵活的平台。借助该平台,用户能够高效利用弹性容器集群的功能,轻松扩展资源,优化工作流程,使得每一个开发者和企业都能更迅速地将想法转化为实际应用。