RedPajama-Data - 专门用于准备训练大型语言模型的大数据集

大家好，又见面了，我是 GitHub 精选君！

背景介绍

在大规模语言模型的训练过程中，我们常常会遇到如何准备大量数据集的问题。这个问题的核心痛点在于，如何从海量的文本文档中筛选出高质量的数据，并进行去重处理，以便于训练出更准确的语言模型。

今天要给大家推荐一个 GitHub 开源项目 togethercomputer/RedPajama-Data，该项目在 GitHub 有超过 3.7k Star，用一句话介绍该项目就是：“The RedPajama-Data repository contains code for preparing large datasets for training large language models.”。

项目介绍

RedPajama-Data 专门用于准备训练大型语言模型的大数据集。该项目包含了超过 1000 亿份来自 84 个 CommonCrawl 快照的文本文档，这些文档都经过了 CCNet 管道的处理。在这些文档中，有 300 亿份文档附带有质量信号，还有 200 亿份文档经过了去重处理。该项目支持多种语言，包括英语、德语、法语、意大利语和西班牙语。

如何使用

首先，需要将仓库中的配置文件 configs/rp_v2.0.conf 复制为 configs/default.conf，并配置环境变量。然后，构建 Docker 镜像，具体命令如下：

. configs/default.conf
cd app
docker build -t "${DOCKER_REPO}:" .

同时，需要确保你已经安装了 s5cmd，并且已经配置了你的 S3 个人秘钥，这样你就可以从 S3 桶中拉取数据了。然后，你就可以运行相关的处理步骤了，包括准备制品、计算质量信号和文档去重。

项目推介

RedPajama-Data 项目已经在 HuggingFace 上可用，得到了业内人士的广泛关注和推荐。如果你正在寻找一个用于准备大规模语言模型训练数据集的工具，那么 RedPajama-Data 项目将可以尝试的选择。

以下是该项目 Star 趋势图（代表项目的活跃程度）：

更多项目详情请查看如下链接。

开源项目地址：https://github.com/togethercomputer/RedPajama-Data

开源项目作者：togethercomputer

以下是参与项目建设的所有成员：

关注我们，一起探索有意思的开源项目。

更多精彩请扫码关注如下公众号。

Written on October 31, 2023