大模型服务简介
Inference支持LLM大语言模型服务,提供大语言模型部署、压缩和推理能力,实现大语言模型的生产化,助力企业实现AIGC等人工智能应用落地。
- 完整的大模型生产化流程
Inference可以对大模型进行生产化部署,提供模型审核、部署、评估、上线、监控等全流程生产管理环节,最大化大模型生产价值。 - 大模型推理加速
Inference部署LLM大语言模型时提供多种精度的模型量化能力,同时采用vLLM和TensorRT-LLM等推理加速框架,提升LLM模型的推理效率。 - 多种模型/服务调试方式
Inference大语言模型服务提供交互式对话、对话API和生成API三种模型/服务调试方式,并且均可以使用流式输出,提升用户使用体验 - 模型管理纳管多源模型
模型管理支持纳管来自LM Lab的大模型,添加AI Market 模型,支持从FTP、对象存储等外部存储系统、HTTP方式、开源社区Hugging Face等方式下载,以及本地上传大模型。