跳到主要内容

数据管理

LM Lab支持多源异构数据,包括远程连接FTP、对象存储等外部存储设备、HTTP、开源社区Hugging Face等方式下载外部数据,本地路径和本地添加文件的方式上传数据,以及从AI市场添加数据。数据管理提供模型开发的原始数据(Data)和经过tokenizer处理后的Token数据(Token)。

支持的数据:

数据来源使用说明
本地上传支持本地上传文件和文件夹
本地路径本地服务器存储路径
FTP需要FTP地址、用户名和密码
对象存储需要对象存储地址、Bucket名称、AccessKey、AccessKeySecret
超链接需要超链接地址
AI市场从AI市场预置的数据集中进行选择

上传本地文件/文件夹

数据管理支持上传本地文件和文件夹,以上传文件为例,上传本地文件“data.json”

  1. 在左侧目录中选择数据管理下的数据,进入数据文件列表,点击上传下的上传文件,添加本地数据data.json。

    image

  2. 上传后在Data列表可以看到data.json数据文件。

    image

添加远端数据/通过本地路径添加数据

数据管理支持通过FTP、对象存储、超链接的方式添加远端数据和填写本地路径后上传本地数据,其中本地路径支持上传企业文件存储下的文件,添加远端数据/通过本地路径添加数据会通过任务方式完成添加,以FTP为例:

  1. 在左侧目录中选择数据管理,进入数据文件列表,选择数据要添加的文件夹下后,点击添加数据按钮,选择FTP页签,下载FTP的数据。

    image

    从FTP下载数据,需要设置以下参数:

    • FTP地址:FTP的访问地址
    • 用户名:FTP访问用户名
    • 密码:FTP用户密码
    • 子目录/文件:数据文件在FTP地址下所在具体目录/文件
  2. 提交后可以在任务管理添加数据页签下查看数据添加进程。

    image

  3. 任务运行成功后可在数据列表下查看已添加的数据。

    image

从AI市场下添加数据

AI市场预置了用于大模型训练的数据集,数据管理可从AI市场-数据集下添加至项目。

  1. 在左侧目录中选择数据管理,进入数据文件列表,选择数据要添加的文件夹下后,点击添加数据按钮,选择AI市场页签,选择AI市场-数据集中的数据集。

    image

  2. 提交后可以在任务管理添加数据页签下查看数据添加进程。

  3. 任务运行成功后可在数据列表下查看已添加的数据。

管理数据

  1. 在左侧目录中选择数据管理,进入数据文件列表。

    image

  2. 数据管理支持上传、移动、复制、下载和删除等操作实现对数据的管理。