在线服务简介
将从训练端发布到Inference的大语言模型,以及通过Inference直接导入、从AI Market添加的的大语言模型部署为服务,并对外提供预测能力。
- 支持主流加速框架,进一步推升推理性能
支持主流的vLLM、TensorRT-LLM 框架加速模型推理。在保证模型性能的同时,显著减少模型的参数数量和计算复杂度,充分利用计算资源的并行性,从而实现高效的推理性能。 - 多种模型/服务调试方式
Inference大语言模型服务提供交互式对话、对话API和生成API三种模型/服务调试方式,并且均可以使用流式输出,提升用户使用体验.