产品简介

更新时间：2025-04-03 16:58:25

弹性容器集群提供一体化的计算资源和工具支持，帮助用户高效地开展高性能计算（HPC）任务。依托弹性容器集群弹性扩展的特性，用户可根据并行计算需求、数据密集程度、任务进度、资源使用情况等信息实时调整算力资源配置，以确保计算性能与任务需求匹配，节约费用成本。

1739431477628

高性能计算：弹性容器集群搭载最新的GPU技术，使得系统能够提供极高的浮点运算性能，对于需要大量并行计算的任务（如深度学习）非常有利。
高性能存储：专为大模型设计的存储设施Alaya NeW为大模型需求匹配强大的跨越多智算中心的数据平台NeW Dingo，通过多中心存储、语料专用压缩算法、文件系统物化视图、文件系统与向量数据库融合、原生安全策略等存储技术，不仅实现70%-90%的空间节省，50%的网络IO节省，其语料处理速度同时提升高达10倍。
高性能网络：高性能网络利用高可用的GPU集群和专用加速器，并集成先进的分布式计算框架，使弹性容器集群能够高效地支持大规模数据处理和复杂模型训练。

弹性容器集群凭借先进的异构纳管技术实现全面支持各厂家GPU算力，通过高性能的IB、RoCE网络架构配置优化的网络集合通讯算法，专为大模型设计的高性能存储设施，以及Serverless弹性高性能计算架构，全透明的资源调度管理，让用户得以从硬件资源管理中抽身、只专注AI核心训练和推理任务。
其实现了跨中心智能算力集群调度，设置全功能Kernel和轻量Kernel来全面纳管不同类型算力中心、集群以及GPU云服务；面向大模型任务，Alaya NeW提供专用调度算法和策略实现AI加速，并通过故障感知、拓扑感知调度、GANG调度、动态公平调度等自动化运维能力实现更进一步的调度优化，全面提升算力可用性。

适配各类第三方大模型，例如：DeepSeek，QWen，LLaMa，ChatGLM等。以及自研大模型（九章·元识多模态大模型）。

开发态Serverless：通过算力包和Serverless架构的强强结合，推出了一款专为大型模型开发者设计的IDE插件—Aladdin（Alaya AI Addin）。该插件实现了本地开发环境与云端弹性容器集群之间的无缝对接，使得开发者可以轻松利用云端的强大算力，而无需担心基础设施的管理问题。无论是进行大规模的数据处理还是复杂的模型训练与推理，Aladdin都能提供流畅且高效的开发体验。
训练态Serverless：基于弹性容器集群提供的便捷管理和秒级冷启动功能，推出了Open API产品。该产品专为AI训练和微调场景设计，致力于简化并加速AI模型从开发到优化的全过程。通过Open API，开发者能够快速部署和扩展计算资源，实现高效的模型训练和调整，同时享受无缝集成与自动化管理带来的便利。无论是小型实验还是大规模生产部署，Open API都能提供强大支持。
推理态Serverless：专门用于处理机器学习或深度学习模型的推理任务。弹性容器集群可以根据业务运行情况自动管理和扩展运行环境，使开发者可以专注于编写和优化模型代码。

通过上述特性，Alaya NeW弹性容器集群（VKS，Virtual Kubernetes Service）为各类用户打造了一个既强大又灵活的平台。借助该平台，用户能够高效利用弹性容器集群的功能，轻松扩展资源，优化工作流程，使得每一个开发者和企业都能更迅速地将想法转化为实际应用。