数据管理
LM Lab支持多源异构数据,包括远程连接FTP、对象存储等外部存储设备、HTTP、开源社区Hugging Face等方式下载外部数据,本地路径和本地添加文件的方式上传数据,以及从AI市场添加数据。数据管理提供模型开发的原始数据(Data)和经过tokenizer处理后的Token数据(Token)。
支持的数据:
数据来源 | 使用说明 |
---|---|
本地上传 | 支持本地上传文件和文件夹 |
本地路径 | 本地服务器存储路径 |
FTP | 需要FTP地址、用户名和密码 |
对象存储 | 需要对象存储地址、Bucket名称、AccessKey、AccessKeySecret |
超链接 | 需要超链接地址 |
AI市场 | 从AI市场预置的数据集中进行选择 |
上传本地文件/文件夹
数据管理支持上传本地文件和文件夹,以上传文件为例,上传本地文件“data.json”
-
在左侧目录中选择数据管理下的数据,进入数据文件列表,点击上传下的上传文件,添加本地数据data.json。
-
上传后在Data列表可以看到data.json数据文件。
添加远端数据/通过本地路径添加数据
数据管理支持通过FTP、对象存储、超链接的方式添加远端数据和填写本地路径后上传本地数据,其中本地路径支持上传企业文件存储下的文件,添加远端数据/通过本地路径添加数据会通过任务方式完成添加,以FTP为例:
-
在左侧目录中选择数据管理,进入数据文件列表,选择数据要添加的文件夹下后,点击添加数据按钮,选择FTP页签,下载FTP的数据。
从FTP下载数据,需要设置以下参数:
- FTP地址:FTP的访问地址
- 用户名:FTP访问用户名
- 密码:FTP用户密码
- 子目录/文件:数据文件在FTP地址下所在具体目录/文件
-
提交后可以在任务管理的添加数据页签下查看数据添加进程。
-
任务运行成功后可在数据列表下查看已添加的数据。
从AI市场下添加数据
AI市场预置了用于大模型训练的数据集,数据管理可从AI市场-数据集下添加至项目。
-
在左侧目录中选择数据管理,进入数据文件列表,选择数据要添加的文件夹下后,点击添加数据按钮,选择AI市场页签,选择AI市场-数据集中的数据集。
-
提交后可以在任务管理的添加数据页签下查看数据添加进程。
-
任务运行成功后可在数据列表下查看已添加的数据。
管理数据
-
在左侧目录中选择数据管理,进入数据文件列表。
-
数据管理支持上传、移动、复制、下载和删除等操作实现对数据的管理。