大模型服务简介

更新时间：2024-12-15 18:03:25

Inference支持LLM大语言模型服务，提供大语言模型部署、压缩和推理能力，实现大语言模型的生产化，助力企业实现AIGC等人工智能应用落地。

完整的大模型生产化流程
Inference可以对大模型进行生产化部署，提供模型审核、部署、评估、上线、监控等全流程生产管理环节，最大化大模型生产价值。
大模型推理加速
Inference部署LLM大语言模型时提供多种精度的模型量化能力，同时采用vLLM和TensorRT-LLM等推理加速框架，提升LLM模型的推理效率。
多种模型/服务调试方式
Inference大语言模型服务提供交互式对话、对话API和生成API三种模型/服务调试方式，并且均可以使用流式输出，提升用户使用体验
模型管理纳管多源模型
模型管理支持纳管来自LM Lab的大模型，添加AI Market 模型，支持从FTP、对象存储等外部存储系统、HTTP方式、开源社区Hugging Face等方式下载，以及本地上传大模型。