跳到主要内容

大模型服务简介

Inference支持LLM大语言模型服务,提供大语言模型部署、压缩和推理能力,实现大语言模型的生产化,助力企业实现AIGC等人工智能应用落地。

  • 完整的大模型生产化流程
    Inference可以对大模型进行生产化部署,提供模型审核、部署、评估、上线、监控等全流程生产管理环节,最大化大模型生产价值。
  • 大模型推理加速
    Inference部署LLM大语言模型时提供多种精度的模型量化能力,同时采用vLLM和TensorRT-LLM等推理加速框架,提升LLM模型的推理效率。
  • 多种模型/服务调试方式
    Inference大语言模型服务提供交互式对话、对话API和生成API三种模型/服务调试方式,并且均可以使用流式输出,提升用户使用体验
  • 模型管理纳管多源模型
    模型管理支持纳管来自LM Lab的大模型,添加AI Market 模型,支持从FTP、对象存储等外部存储系统、HTTP方式、开源社区Hugging Face等方式下载,以及本地上传大模型。