JEST是一种用于大规模预训练的数据筛选方法,通过联合选择数据批次来加速多模态学习。
详细介绍:
主要功能:
数据批次选择: JEST通过评估数据批次间的相互关系,选择对学习最有利的数据子批次。
多模态学习加速: 利用对比学习目标直接暴露批次中样本间的交互作用,从而加速模型训练。
算法简单高效: 提供了一种简单且易于实现的算法,用于从更大的数据批次中筛选出最具学习价值的子批次。
使用方法:
模型训练: 在训练过程中,使用JEST算法根据模型基于得分选择数据批次。
批次评分: 使用预训练的参考模型或在线模型损失来评估批次的联合可学习能力。
迭代选择: 通过迭代过程,逐步构建包含学习性高的数据子批次。
适用场景:
大规模预训练: 特别适用于需要处理大量数据和进行多模态预训练的场景。
数据筛选: 适用于需要提高数据质量以增强模型性能的情况。
适用人群:
机器学习研究者: 专注于提高大规模预训练效率的研究人员。
数据科学家: 需要对大规模数据集进行有效筛选和利用的专业人士。
优缺点介绍:
优点:
显著减少训练迭代次数,提高训练效率。
通过更智能的数据选择,减少了对计算资源的需求。
能够引导数据选择过程,向更小但经过良好筛选的数据集分布靠拢。
缺点:
需要预训练的参考模型来指导数据选择,这可能需要额外的训练成本。
对于特定类型的数据集和任务,可能需要调整算法参数以获得最佳性能。
分类标签推荐:
机器学习、数据筛选、多模态学习、预训练加速、智能数据选择
2024年1月,上海人工智能实验室正式发布大模型开源开放评测体系司南(OpenCompass2.0),旨在为大语言模型、多模态模型等各类模型提供一站式评测服务。OpenCompass2.0 全面量化模型在知识、语言、理解、推理和考试等五大能力维度的表现,客观中立地为大模型技术创新提供坚实的技术支撑。