跳到主要内容

在线服务简介

更新时间：2024-12-10 18:53:25

将从训练端发布到Inference的大语言模型，以及通过Inference直接导入、从AI Market添加的的大语言模型部署为服务，并对外提供预测能力。

支持主流加速框架，进一步推升推理性能
支持主流的vLLM、TensorRT-LLM 框架加速模型推理。在保证模型性能的同时，显著减少模型的参数数量和计算复杂度，充分利用计算资源的并行性，从而实现高效的推理性能。
多种模型/服务调试方式
Inference大语言模型服务提供交互式对话、对话API和生成API三种模型/服务调试方式，并且均可以使用流式输出，提升用户使用体验.