AI VIDEO BRIEFING

허깅페이스 FineWeb으로 본 LLM 학습 데이터셋 구축 전 과정

15조 토큰 규모의 오픈 데이터셋 FineWeb은 어떻게 만들어졌나. 커먼크롤 추출부터 중복 제거, 품질 필터링, 교육용 FineWeb-EDU까지 LLM 학습 데이터 제작 과정을 정리했다.

출처: Hugging Face2026년 6월 2일AI 보조 요약

대형 언어모델은 어떤 데이터로 학습할까, 허깅페이스 FineWeb 데이터셋 제작기 영상 대표 이미지

핵심 메시지

FineWeb은 허깅페이스가 만든 15조 토큰 규모의 오픈 학습 데이터셋으로, 제작 전 과정을 공개해 누구나 따라 만들 수 있게 했다.
LLM 학습 데이터 제작법은 공개된 정보가 드문데, 기업들이 모델은 오픈소스로 풀어도 사전학습 데이터는 거의 공개하지 않기 때문이다.
커먼크롤의 원본 HTML을 직접 추출해 정제하는 편이, 이미 추출된 텍스트를 쓰는 것보다 더 좋은 모델을 만들었다.
데이터셋 전체를 통째로 중복 제거하면 오래된 스냅샷의 가치 있는 데이터까지 지워져 오히려 손해다. 각 스냅샷 안에서만 중복을 제거하는 편이 나았다.
강력한 큰 모델로 일부 데이터에 교육적 가치 점수를 매긴 뒤 작은 분류기를 학습시키면, 1.3조 토큰의 FineWeb-EDU가 15조 토큰 원본보다 더 좋은 성능을 냈다.

쉽게 이해하기

FineWeb은 허깅페이스가 만든 15조 토큰 규모의 영어 오픈 데이터셋으로, 대형 언어모델 학습에 필요한 데이터를 모으는 방법의 좋은 본보기다. 발표자는 이 주제가 중요한 이유로, 기업들이 모델은 오픈소스로 공개해도 사전학습에 쓴 데이터는 공개할 유인이 거의 없어 정보가 매우 드물다는 점을 든다. 그래서 제작의 거의 모든 단계를 문서화해 직접 따라 만들 수 있도록 했다.

출발점은 비영리 기관 커먼크롤이 한두 달마다 공개하는 웹 스냅샷이다. 2013년 이후의 96개 스냅샷에서 시작했고 각 스냅샷은 수백 테라바이트의 원본 HTML을 담고 있다. 커먼크롤은 원본 HTML인 WARC 파일과, 이미 텍스트만 추출된 파일 두 형식을 제공한다. 후자가 처리하기 싸고 간단하지만, 작은 모델로 실험해 보니 원본 HTML을 직접 Trafilatura로 추출해 정제한 쪽이 더 나은 결과를 냈다. 다만 이 추출은 전체 과정에서 가장 비싼 단계라, 소규모 팀은 건너뛸 수도 있다.

정제 단계에서는 URL 차단 목록으로 성인 콘텐츠를 제거하고, 영어가 아닌 데이터를 걸러내고, 반복에 대한 품질 필터를 더했다. 이 1차 필터링만으로 약 36조 토큰이 남았다. 이어 더 까다로운 중복 제거로 넘어가는데, 웹에는 미러·복제본·템플릿·재크롤링 페이지가 넘쳐 반복 콘텐츠가 많기 때문이다. 중복 제거는 모델의 일반화를 돕고 암기를 줄이며 같은 텍스트에 학습 자원을 낭비하지 않게 해 준다.

첫 시도는 실패였다. "더 많이 중복 제거할수록 좋다"는 가정으로 데이터셋 전체를 최신 스냅샷부터 거슬러 가며 누적해 중복 제거했더니, 가장 오래된 스냅샷에서 약 90%가 지워져 36조에서 4조 토큰으로 줄었다. 그런데 성능은 나아지지 않았다. 지워진 데이터로 학습한 모델이 남은 데이터로 학습한 모델보다 오히려 나았고, 남은 것은 대부분 템플릿·내비게이션·광고 같은 데이터였다. 그래서 각 덤프 안에서만 독립적으로 중복을 제거하고 합치는 방식으로 바꿔 15조 토큰을 얻었고, 성능도 기준이던 RefinedWeb 수준에 도달했다.

마지막으로 C4 데이터셋의 엄격한 규칙을 참고해 추가 품질 필터링을 했다. 다만 문장이 구두점으로 끝나지 않는 문서를 모두 지우는 규칙은 토큰의 30%를 날려 너무 파괴적이라, 12% 임계값 같은 자체 규칙으로 대체했다. 그 결과 22%만 제거하면서 벤치마크 성능은 더 올랐다. 이렇게 완성된 FineWeb은 RefinedWeb과 C4를 비롯한 기존 오픈 데이터셋들을 능가했다.

주요 인사이트

FineWeb-EDU는 큰 모델을 파이프라인에 활용한 사례다. Llama 3 70B로 약 50만 개 문서에 0~5점의 교육적 가치 점수를 매기되, 환각을 줄이려 세부 기준에 따라 논증하게 한 뒤 점수를 내게 했다.
70B 같은 거대 모델을 15조 토큰 전체에 돌릴 수는 없으므로, 점수가 매겨진 문서로 더 작은 분류기를 학습시켜 전체 데이터셋에 적용했다. 큰 모델로 부트스트랩한 작은 필터가 확장 가능한 해법이 된 셈이다.
점수 3점 미만 문서를 제거해 대학뿐 아니라 고등학교 수준까지 포함한 약 1.3조 토큰을 얻었는데, 이 작은 데이터셋이 MMLU 같은 교육 중심 벤치마크에서 15조 토큰 원본보다 더 좋은 모델을 만들었다.
데이터 품질은 시간에 따라 변한다. 스냅샷별로 작은 모델을 학습시켜 보니 2020~2022년 무렵부터 최신 스냅샷이 더 좋은 모델을 만들었다. 발표자는 그 시점 이후 웹에 합성 데이터가 늘어난 것을 한 원인으로 추정한다.
'delve into', 'certainly' 같은 LLM이 자주 쓰는 표현의 빈도를 추적하니 2023년 이후 급증했다. 합성 데이터의 증거는 아니지만 LLM 생성 데이터가 늘었다는 단서이며, 합성 데이터가 지나치게 많아지면 미래 모델 품질이 나빠질지는 열린 질문으로 남는다.

자주 묻는 질문

FineWeb 데이터셋은 무엇이고 왜 만들었나요?

허깅페이스가 만든 15조 토큰 규모의 영어 오픈 학습 데이터셋입니다. 기업들이 모델은 공개해도 사전학습 데이터는 거의 공개하지 않아 제작법 정보가 드물기 때문에, 모든 단계를 문서화해 누구나 좋은 데이터셋을 직접 만들 수 있도록 공개했습니다.

데이터셋 전체를 통째로 중복 제거하면 왜 안 되나요?

영상에서는 전체를 누적해 중복 제거했더니 오래된 스냅샷에서 약 90%가 지워져 36조에서 4조 토큰으로 줄었지만 성능은 나아지지 않았다고 설명합니다. 지워진 데이터가 오히려 가치 있었고 남은 것은 템플릿·광고가 많았기에, 각 스냅샷 안에서만 중복을 제거하는 방식으로 바꿨습니다.

FineWeb-EDU는 어떻게 더 작은데도 더 좋은 성능을 냈나요?

Llama 3 70B로 문서에 교육적 가치 점수를 매기고 그 결과로 작은 분류기를 학습시켜 전체에 적용한 뒤, 3점 미만을 제거해 약 1.3조 토큰을 얻었습니다. 이 교육 중심 데이터가 MMLU 같은 벤치마크에서 15조 토큰 원본보다 더 좋은 모델을 만들었습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗