模型监控
模型监控简介
模型监控是指对模型在生产环境中的行为、性能和表现进行实时或定期跟踪、评估和管理的过程。这种监控能够帮助确保模型在部署后持续有效地运行,包括及时发现并应对模型性能下降、数据漂移或其他问题。 在模型监控里,用户可以创建模板化的监控任务或自定义的监控任务(使用JupyterLab)来自动执行特定的操作。
使用模型监控时,具有如下特性:
- 运行模式:分为单次运行和定期计划(定期运行、crontab表达式)两种。用户可设置任务的执行周期,例如每天、每周或其他特定时间间隔。
- 自动化执行:可以自动按照预定的计划或时间触发执行任务,无需手动干预。
- 资源配置:支持用户指定任务执行所需的资源,以优化任务执行效率。
- 监控和报告:提供执行情况的监控和报告功能,帮助用户了解任务执行状态和结果。
- 任务调度和管理:支持管理任务的调度,包括启动、重试、终止任务。
仅服务管理员拥有定期计划的权限
创建模型监控
创建模板监控
场景描述
在服务“Doc-机器学习-模型文件”中创建模板监控,并命名为“模板监控”。
前提条件
- 已经成功创建所需数据源“mysql-全表”。
- 已经成功导入所需模型“DT神经网络_二分类”。
- 待监控模型“DT神经网络_二分类”已审核通过。
操作步骤
-
在“模型仓库”主界面,选择服务“Doc-机器学习-模型文件”,进入该服务主页面。
-
在页面左侧的“侧边栏”区域,选择模型监控,系统跳转到“模型监控”列表页面。
-
在模型监控列表页面,单击页面右上角的新建按钮,选择下拉菜单里的“模板监控”,系统跳转到“新建模板监控”页面。
-
在“新建模板监控”窗口中填写相关参数,如下所示:
参数说明如下所示:
- 名称:模板监控任务的名称。
- 模型:选择用于监控的模型,支持多选。
- 监控数据:选择模型监控的输入数据。
-
单击下一步,进行模型监控的运行模式配置。
-
单击下一步,进行模型监控资源配置。用户自定义是否使用GPU。
-
单击提交,系统自动开始模板监控任务。
后续操作
在“监控任务列表”中,显示所有模板监控任务和自定义监控任务。
该页面主要包括如下两部分:
1) 监控任务列表:包括未开启、生效中、已关闭、已结束4种状态的监控任务。
2) 监控指标:展示最新运行成功的指标结果。单击页面中的模型名称,系统会跳转到模型详情页面。
创建自定义监控
模型文件的自定义监控
场景描述
在服务“Doc-机器学习-模型文件”中创建模型监控,在Jupyter Lab中查看并编辑代码。
前提条件
- 已经成功创建所需数据源“mysql-全表”。
- 已经成功导入所需模型“DT神经网络_二分类”。
- 待监控模型“DT神经网络_二分类”已审核通过。
操作步骤
-
在“模型仓库”主界面,选择服务“Doc-机器学习-模型文件”,进入该服务主页面。
-
在页面左侧的“侧边栏”区域,选择模型监控,系统跳转到“模型监控”列表页面。
-
在模型监控列表页面,单击页面右上角的新建按钮,选择下拉菜单里的“自定义监控”。
-
单击 “自定义监控”,系统跳转到“自定义监控”页面,对资源和环境设置进行确认。
-
单击“启动环境”。
该操作会启动用户选择的环境,并在环境中启动Jupyter Lab服务。
用户可以在启动界面查看启动日志,在启动后,系统会自动进入到Jupyter Lab界面,如下所示:- 工具栏,提供了常用的管理功能。
- 资源管理器,包括文件管理、运行会话、命令帮助、服务等模块。
- 主工作区域,用于查看文件、编辑和运行Notebook等。
- 状态栏,显示当前后台运行的任务等信息。
-
完成编辑并保存后,单击右上角的发布文件,系统显示“发布”对话框,对需要发布的文件、运行模式设置、脚本资源和环境设置进行确认。
后续操作
可以在“监控任务列表”多次新建自定义监控任务。
自定义监控任务详情页面主要包括如下几部分内容:
1) 基本信息,包括任务名称、环境信息、监控状态等信息。
2) 监控指标,展示最新运行成功的指标结果。单击页面中的模型名称,系统会跳转到模型详情页面。
3) 参数配置,包括运行模式、资源信息。
4) 运行记录,包括任务名称、开始/完成时间、运行状态。任务运行成功后,单击查看指标或下载,查看监控指标结果。
5) 查看代码,查看单次运行的脚本内容。
6) 查看Jupyter Lab,可查看自定义的历史脚本内容。
7) 编辑Jupyter Lab,可进入Jupyter Lab再次编辑、发布脚本内容。
镜像模型的自定义监控
场景描述
在服务“Doc-机器学习-镜像模型”中对模型进行监控,在Jupyter Lab中查看并编辑代码。
前提条件
- 已经成功创建所需数据源“mysql-全表”。
- 已经成功导入所需模型“镜像模型_机器学习”。
- 待监控模型“镜像模型_机器学习”已审核通过。
操作步骤
-
在“模型仓库”主界面,选择服务“Doc-机器学习-镜像模型”,进入该服务主页面。
-
在页面左侧的“侧边栏”区域,选择模型监控,系统跳转到“模型监控”列表页面。
-
在模型监控列表页面,单击页面右上角的新建按钮,选择下拉菜单里的“自定义监控”。
-
单击 “自定义监控”,系统跳转到“自定义监控”页面,对镜像模型资源、脚本资源和镜像设置进行确认。
-
单击“启动镜像”。
该操作会启动用户选择的镜像,并在镜像中启动Jupyter Lab服务。
用户可以在启动界面查看启动日志,在启动后,系统会自动进入到Jupyter Lab界面,如下所示:- 工具栏,提供了常用的管理功能。
- 资源管理器,包括文件管理、运行会话、命令帮助、服务等模块。
- 主工作区域,用于查看文件、编辑和运行Notebook等。
- 状态栏,显示当前后台运行的任务等信息。
-
完成编辑并保 存后,单击右上角的发布文件,系统显示“发布”对话框,对需要发布的文件、运行模式设置、镜像模型资源、脚本资源和镜像设置进行确认。
管理模型监控
服务的模型监控功能,通过持续监控模型指标数值,并将其绘制成相应的曲线,帮助用户了解模型是否衰退。
场景描述
管理“Doc-机器学习-模型文件”服务中的模型监控任务。
前提条件
- 服务“Doc-机器学习-模型文件”中的模型已审核成功。
操作步骤
-
在“模型仓库”主界面,选择服务“Doc-机器学习-模型文件”,进入该服务主页面。
-
在页面左侧的“侧边栏”区域,选择模型监控,系统跳转到“模型监控”列表页面。如下所示:
查看模型监控
创建模板监控任务后,即可在监控详情页查看该任务的基本配置和监控指标结果。
场景描述
查看“模板监控”运行后的监控指标结果。
前提条件
- 已创建模板监控任务。
操作步骤
-
在“模型仓库”主界面,选择服务“Doc-机器学习-模型文件”,进入该服务主页面。
-
在页面左侧的“侧边栏”区域,选择模型监控,系统跳转到“模型监控”列表页面。
-
在监控任务列表页面,单击 “模板监控”任务,进入到“模板监控”的任务详情页面,如下所示。
监控任务详情页面主要包括如下四部分内容:
1) 基本信息,包括任务名称、监控状态以及数据信息。
2) 监控曲线,将持续监控的模型指标数值绘制成相应的曲线。支持时、天、周、其他日期的切换,以及刷新。
3) 参数配置,包括运行模式、资源信息。
4) 运行记录,包括任务名称、开始/完成时间、运行状态。任务运行成功后,单击查看指标或下载,查看监控指标结果。