- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

HuggingFace如何处理大模型下海量数据集

人工智能-张晨光发表于 2025/05/29 17:55:17 2025/05/29

【摘要】使用大GB的数据集并不罕见，特别是从头开始预训练像BERT或GPT-2这样的Tranformer模型。在这样的情况下，甚至连加载数据都可能是一个挑战。例如，用于预训练GPT-2的WebText语料库包含超过800万份文档和40GB的文本——将其加载到电脑的RAM中，可能会使其炸掉。幸运的是，HuggingFace DataSet 数据集的设计已经克服了这些限制，它通过将数据集视为内存映射文件...

使用大GB的数据集并不罕见，特别是从头开始预训练像BERT或GPT-2这样的Tranformer模型。在这样的情况下，甚至连加载数据都可能是一个挑战。例如，用于预训练GPT-2的WebText语料库包含超过800万份文档和40GB的文本——将其加载到电脑的RAM中，可能会使其炸掉。
幸运的是，HuggingFace DataSet 数据集的设计已经克服了这些限制，它通过将数据集视为内存映射文件(Memory-mapped file)来解决内存管理问题，并通过流(Streaming)处理语料库中的条目来解决硬盘驱动器限制。
我们将使用一个巨大的825 GB语料库(称为Pile)来探索HuggingFace数据集的这些特性。

大型语言模型(LLM)部署工具对比

工具名称	性能表现	易用性	适用场景	硬件需求	模型支持	部署方式	系统支持
SGLang v0.4	零开销批处理提升1.1倍吞吐量，缓存感知负载均衡提升1.9倍，结构化输出提速10倍	需一定技术基础，但提供完整API和示例	企业级推理服务、高并发场景、需要结构化输出的应用	推荐A100/H100，支持多GPU部署	全面支持主流大模型，特别优化DeepSeek等模型	Docker、Python包	Linux
Ollama	继承 llama.cpp 的高效推理能力，提供便捷的模型管理和运行机制，并发处理能力相对有限	简单安装，易于使用，跨平台支持，广泛的模型适配，支持 REST API	个人开发者创意验证、辅助学习、日常问答、创意写作等轻量级应用场景	与 llama.cpp 相同，但提供更简便的资源管理，内存占用少	模型库丰富，涵盖 1700 多款，支持一键下载安装	独立应用程序、Docker、REST API	Windows、macOS、Linux
VLLM	借助 PagedAttention 和 Continuous Batching 技术，多 GPU 环境下性能优异，充分利用多核CPU和GPU资源	需要一定技术基础，配置相对复杂	大规模在线推理服务、高并发场景	要求 NVIDIA GPU，推荐 A100/H100，相对ollama显存占用更大	支持主流 Hugging Face 模型	Python包、OpenAI兼容API、Docker	仅支持 Linux
LLaMA.cpp	多级量化支持，跨平台优化，高效推理	命令行界面直观，提供多语言绑定	边缘设备部署、移动端应用、本地服务	CPU/GPU 均可，针对各类硬件优化	GGUF格式模型，广泛兼容性	命令行工具、API服务器、多语言绑定	全平台支持

综合来看：

如果您是专业的科研团队，拥有强大的计算资源，追求极致的推理速度，那么 SGLang 无疑是首选，它能像一台超级引擎，助力前沿科研探索；
要是您是个人开发者，或是中小型项目的原型开发，可在本地轻松玩转大模型，Ollama 就如同贴心伙伴，随时响应您的创意需求；
对于需要搭建大规模在线服务，面对海量用户请求的开发者而言，VLLM 则是坚实后盾，以高效推理确保服务的流畅稳定；
而要是您手头硬件有限，只是想在小型设备上浅尝大模型的魅力，或者快速验证一些简单想法，LLaMA.cpp 就是那把开启便捷之门的钥匙，让 AI 触手可及。

本文以huggingface下进行数据调整为例探讨。

什么是Pile?

Pile是一个英语文本语料库，由EleutherAI创建，用于训练大规模语言模型。它包括各种各样的数据集，涵盖科学文章、GitHub代码库和过滤后的web文本。训练语料库以14GB块的形式提供，你还可以下载几个单独的组件。
从PubMed Abstracts数据集开始，这是PubMed上1500万份生物医学出版物的摘要语料库。数据集是JSON行格式，并使用zstandard库压缩，所以首先我们需要安装它:

!pip install zstandard

接下来，可以使用HuggingFace提供的数据集下载方式来加载：

from datasets import load_dataset

# This takes a few minutes to run, so go grab a tea or coffee while you wait :)
data_files = "https://the-eye.eu/public/AI/pile_preliminary_components/PUBMED_title_abstracts_2019_baseline.jsonl.zst"
pubmed_dataset = load_dataset("json", data_files=data_files, split="train")
pubmed_dataset

Dataset({
  features: ['meta', 'text'],
  num_rows: 15518009
})

可以看到，这里有15518009行、2列的数据。可以查看下输出的数据集内容的第一个示例：

print pubmed_dataset[0];

# output:
{'meta': {'pmid': 11409574, 'language': 'eng'},
 'text': 'Epidemiology of hypoxaemia in children with acute lower respiratory infection.\nTo determine the prevalence of hypoxaemia in children aged under 5 years suffering acute lower respiratory infections (ALRI), the risk factors for hypoxaemia in children under 5 years of age with ALRI, and the association of hypoxaemia with an increased risk of dying in children of the same age ...'}

这看起来像是一篇医学文章的摘要。现在让我们看看我们使用了多少 RAM 来加载数据集！

memory mapping

在 Python 中测量内存使用情况的一个简单方法是使用 psutil 库，可以使用 pip 安装该库，如下所示：

!pip install psutil

它提供了一个Process类，允许我们检查当前进程的内存使用情况，如下所示：

import psutil

# Process.memory_info is expressed in bytes, so convert to megabytes
print(f"RAM used: {psutil.Process().memory_info().rss / (1024 * 1024):.2f} MB")

# output:
RAM used: 5678.33 MB

这里的 rss 属性指的是驻留集大小，它是进程在 RAM 中占用的内存部分。此测量还包括 Python 解释器和我们加载的库使用的内存，因此用于加载数据集的实际内存量要小一些。为了进行比较，我们使用 dataset_size 属性查看数据集在磁盘上的大小。由于结果像以前一样以字节表示，因此我们需要手动将其转换为千兆字节：

print(f"Number of files in dataset : {pubmed_dataset.dataset_size}")
size_gb = pubmed_dataset.dataset_size / (1024**3)
print(f"Dataset size (cache file) : {size_gb:.2f} GB")

# output
Number of files in dataset : 20979437051
Dataset size (cache file) : 19.54 GB

很好——尽管它有近 20 GB 大，但我们能够用更少的 RAM 加载和访问数据集！
如果你熟悉 Pandas，这个结果可能会让你感到惊讶，因为 Wes Kinney 著名的经验法则是，你通常需要的 RAM 是数据集大小的 5 到 10 倍。那么HuggingFace数据集是如何解决这个内存管理问题的呢？ HuggingFace Datasets 将每个数据集视为内存映射文件，它提供 RAM 和文件系统存储之间的映射，允许库访问和操作数据集的元素，而无需将其完全加载到内存中。
内存映射文件还可以在多个进程之间共享，这使得Dataset.map() 等方法可以并行化，而无需移动或复制数据集。在底层，这些功能都是由 Apache Arrow 内存格式和 pyarrow 库实现的，这使得数据加载和处理速度快如闪电。为了查看实际情况，让我们通过迭代 PubMed Abstracts 数据集中的所有元素来运行一些速度测试：

import timeit

code_snippet = """batch_size = 1000

for idx in range(0, len(pubmed_dataset), batch_size):
    _ = pubmed_dataset[idx:idx + batch_size]
"""

time = timeit.timeit(stmt=code_snippet, number=1, globals=globals())
print(
    f"Iterated over {len(pubmed_dataset)} examples (about {size_gb:.1f} GB) in "
    f"{time:.1f}s, i.e. {size_gb/time:.3f} GB/s"
)

# output:
'Iterated over 15518009 examples (about 19.5 GB) in 64.2s, i.e. 0.304 GB/s'

这里我们使用Python的timeit模块来测量code_snippet所花费的执行时间。你通常能够以十分之几 GB/秒到几 GB/秒的速度迭代数据集。这对于绝大多数应用程序来说都非常有效，但有时你必须使用太大而无法存储在笔记本电脑硬盘上的数据集。例如，如果我们尝试下载整个 Pile，我们将需要 825 GB 的可用磁盘空间！为了处理这些情况，Hugging Face Datasets 提供了流式传输功能，允许我们动态下载和访问元素，而无需下载整个数据集。

Streaming Datasets

要启用数据集流式传输，你只需将Streaming=True参数传递给load_dataset()函数。例如，让我们再次加载 PubMed Abstracts 数据集，但采用流模式：

pubmed_dataset_streamed = load_dataset(
    "json", data_files=data_files, split="train", streaming=True
)

Streaming=True 返回的对象不是我们在本章其他地方遇到的熟悉的 Dataset，而是 IterableDataset。顾名思义，要访问 IterableDataset 的元素，我们需要对其进行迭代。我们可以访问流数据集的第一个元素，如下所示：

next(iter(pubmed_dataset_streamed))

# output
{'meta': {'pmid': 11409574, 'language': 'eng'},
 'text': 'Epidemiology of hypoxaemia in children with acute lower respiratory infection.\nTo determine the prevalence of hypoxaemia in children aged under 5 years suffering acute lower respiratory infections (ALRI), the risk factors for hypoxaemia in children under 5 years of age with ALRI, and the association of hypoxaemia with an increased risk of dying in children of the same age ...'}

可以使用IterableDataset.map()即时处理流数据集中的元素，如果你需要对输入进行标记，这在训练期间非常有用。

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")
tokenized_dataset = pubmed_dataset_streamed.map(lambda x: tokenizer(x["text"]))
next(iter(tokenized_dataset))

# output
{'input_ids': [101, 4958, 5178, 4328, 6779, ...], 'attention_mask': [1, 1, 1, 1, 1, ...]}

还可以使用IterableDataset.shuffle()对流式数据集进行混洗，但与 Dataset.shuffle() 不同，它仅对预定义的 buffer_size 中的元素进行混洗：

shuffled_dataset = pubmed_dataset_streamed.shuffle(buffer_size=10_000, seed=42)
next(iter(shuffled_dataset))

# output
{'meta': {'pmid': 11410799, 'language': 'eng'},
 'text': 'Randomized study of dose or schedule modification of granulocyte colony-stimulating factor in platinum-based chemotherapy for elderly patients with lung cancer ...'}

在此示例中，我们从缓冲区中的前 10,000 个示例中随机选择了一个示例。一旦访问了一个示例，它在缓冲区中的位置就会被语料库中的下一个示例填充（即上述情况中的第 10,001 个示例）。还可以使用 IterableDataset.take()和IterableDataset.skip()函数从流式数据集中选择元素，其作用方式与Dataset.select()类似。例如，要选择 PubMed Abstracts 数据集中的前 5 个示例，我们可以执行以下操作：

dataset_head = pubmed_dataset_streamed.take(5)
list(dataset_head)

# output
[{'meta': {'pmid': 11409574, 'language': 'eng'},
  'text': 'Epidemiology of hypoxaemia in children with acute lower respiratory infection ...'},
 {'meta': {'pmid': 11409575, 'language': 'eng'},
  'text': 'Clinical signs of hypoxaemia in children with acute lower respiratory infection: indicators of oxygen therapy ...'},
 {'meta': {'pmid': 11409576, 'language': 'eng'},
  'text': "Hypoxaemia in children with severe pneumonia in Papua New Guinea ..."},
 {'meta': {'pmid': 11409577, 'language': 'eng'},
  'text': 'Oxygen concentrators and cylinders ...'},
 {'meta': {'pmid': 11409578, 'language': 'eng'},
  'text': 'Oxygen supply in rural africa: a personal experience ...'}]

同样，可以使用 IterableDataset.skip() 函数从打乱的数据集中创建训练和验证分割，如下所示：

# Skip the first 1,000 examples and include the rest in the training set
train_dataset = shuffled_dataset.skip(1000)
# Take the first 1,000 examples for the validation set
validation_dataset = shuffled_dataset.take(1000)

让我们通过一个常见的应用程序来完成对数据集流的探索：将多个数据集组合在一起以创建单个语料库。 🤗 Datasets 提供了 interleave_datasets() 函数，它将 IterableDataset 对象列表转换为单个 IterableDataset，其中新数据集的元素是通过源示例之间的交替获得的。当尝试合并大型数据集时，此函数特别有用，因此我们以流式传输 Pile 的 FreeLaw 子集为例，该子集是来自美国法院的 51 GB 法律意见数据集：

law_dataset_streamed = load_dataset(
    "json",
    data_files="https://the-eye.eu/public/AI/pile_preliminary_components/FreeLaw_Opinions.jsonl.zst",
    split="train",
    streaming=True,
)
next(iter(law_dataset_streamed))

{'meta': {'case_ID': '110921.json',
  'case_jurisdiction': 'scotus.tar.gz',
  'date_created': '2010-04-28T17:12:49Z'},
  'text': '\n461 U.S. 238 (1983)\nOLIM ET AL.\nv.\nWAKINEKONA\nNo. 81-1581.\nSupreme Court of United States.\nArgued January 19, 1983.\nDecided April 26, 1983.\nCERTIORARI TO THE UNITED STATES COURT OF APPEALS FOR THE NINTH CIRCUIT\n*239 Michael A. Lilly, First Deputy Attorney General of Hawaii, argued the cause for petitioners. With him on the brief was James H. Dannenberg, Deputy Attorney General...'}

这个数据集足够大，足以给大多数笔记本电脑的 RAM 带来压力，但我们已经能够毫不费力地加载和访问它！现在让我们将 FreeLaw 和 PubMed Abstracts 数据集中的示例与 interleave_datasets() 函数结合起来：

from itertools import islice
from datasets import interleave_datasets

combined_dataset = interleave_datasets([pubmed_dataset_streamed, law_dataset_streamed])
list(islice(combined_dataset, 2))

[{'meta': {'pmid': 11409574, 'language': 'eng'},
  'text': 'Epidemiology of hypoxaemia in children with acute lower respiratory infection ...'},
 {'meta': {'case_ID': '110921.json',
   'case_jurisdiction': 'scotus.tar.gz',
   'date_created': '2010-04-28T17:12:49Z'},
  'text': '\n461 U.S. 238 (1983)\nOLIM ET AL.\nv.\nWAKINEKONA\nNo. 81-1581.\nSupreme Court of United States.\nArgued January 19, 1983.\nDecided April 26, 1983.\nCERTIORARI TO THE UNITED STATES COURT OF APPEALS FOR THE NINTH CIRCUIT\n*239 Michael A. Lilly, First Deputy Attorney General of Hawaii, argued the cause for petitioners. With him on the brief was James H. Dannenberg, Deputy Attorney General...'}]

在这里，我们使用 Python 的 itertools 模块中的islice() 函数从组合数据集中选择前两个示例，我们可以看到它们与两个源数据集中的第一个示例相匹配。

最后，如果想流式传输整个 825 GB 的 Pile，可以按如下方式获取所有准备好的文件：

base_url = "https://the-eye.eu/public/AI/pile/"
data_files = {
    "train": [base_url + "train/" + f"{idx:02d}.jsonl.zst" for idx in range(30)],
    "validation": base_url + "val.jsonl.zst",
"test": base_url + "test.jsonl.zst",
}
pile_dataset = load_dataset("json", data_files=data_files, streaming=True)
next(iter(pile_dataset["train"]))

# output
{'meta': {'pile_set_name': 'Pile-CC'},
 'text': 'It is done, and submitted. You can play “Survival of the Tastiest” on Android, and on the web...'}

总结

总结来看，主要是通过内存映射与流处理来实现的大数据集加载，这也是业界比较常用的方案。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

HuggingFace如何处理大模型下海量数据集

大型语言模型(LLM)部署工具对比

什么是Pile?

memory mapping

Streaming Datasets

总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

HuggingFace如何处理大模型下海量数据集

大型语言模型(LLM)部署工具对比

什么是Pile?

memory mapping

Streaming Datasets

总结

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品