在大模型掀起技术狂潮的今天,一个容易被忽视的痛点正在困扰着业内的研发者:当你下载开源数据集准备训练模型时,可能正在与大量违规内容“同台共舞”。
在大模型训练领域,开源数据集曾因免费与便捷成为开发者的“宝藏”,但随之而来的是数据质量参差不齐、内容杂乱等的困境。
DeepCtrl
清洗1200万+条数据,
把“旧货市场”变成“图书馆”
开源数据集有时像无人打理的旧货市场,违规内容像生锈的钉子,藏在一些不易被发现的角落。
多数开源平台仅以“责任自负”的声明来免责,而让数据内容安全成了开发者的“自选操作”。
为了改善开源数据“泥沙俱下”的现状,匠数科技算法团队汇总了当前几乎所有开源的中文数据集,其中包含10M条数据的中文数据集和2M条数据的英文数据集,用全自研的内容审核算法进行了严格而精细的清洗,过滤掉其中潜在的有害、敏感或违规内容,大大降低数据处理和模型训练时可能出现的内容违规风险。
DeepCtrl
结构化分类与标注,
搭建明确易用的“图书索引”
为了帮助研发人员尽可能地减少对数据集的预处理时间,我们根据任务内容将数据进行了标准化分类,并提取了每一类数据的关键词构建标签体系,研发人员根据分类取用所需类目的数据,即可进行针对性任务训练。
算法团队在分类和标注逻辑上充分考虑训练需求,以使数据集达到“开箱即用”的水平。
此外,还将数据格式进行了统一处理,在为研发人员提供丰富语料的同时,提高数据的可操作性。
这一系列操作,为原本杂乱的数据集提炼出一套可以有序取用的“图书索引”,极大提高模型训练的效率和目标指向性。
DeepCtrl
免费开源共享,
结了一万多次“善缘”
该数据集自上线第一天开始就免费开源,目前在全网的下载量已过万,并被多个大模型训练框架推荐,其中包括开源社区内最受欢迎的微调框架之一llama factory。
(部分应用)
在技术“狂飙”的时代,需有安全为基石,创新才能行稳致远。在内容安全方面,我们自信匠数自研产品能够帮助对内容清洁和过滤有需求的研发团队、终端客户提供有效的技术支持,也愿意共享数据成果,尽可能帮助大模型训练少走弯路。