Reasoning Dataset
통합 추론 모델 학습을 위한 데이터셋입니다. RL(Reinforcement Learning)과 SFT(Supervised Fine-Tuning) subset으로 구성되어 있으며, 수학, 코딩, 과학, 창의적 글쓰기, 요약 등 다양한 도메인의 데이터를 포함합니다.
데이터셋 설명
이 데이터셋은 추론 능력을 향상시키기 위해 여러 소스의 데이터를 통합한 것입니다. 각 레코드는 subset 필드를 포함하여 RL 또는 SFT 학습에 사용할 수 있습니다.
데이터 구조
각 레코드는 다음 필드를 포함합니다:
input: 입력 텍스트 (질문, 문제, 프롬프트 등)output: 출력 텍스트 (답변, 솔루션, 생성 텍스트 등)think: 사고과정/풀이과정 (있는 경우)source: 데이터 소스type: 데이터 유형 (math, coding, science, creative_writing, summarization, reasoning, qa, distillation 등)subset: 학습 유형 ("rl"또는"sft")
RL Subset (55,522개, 74.0%)
강화학습용 데이터셋:
- GSM8K (8,792개): 수학 문제 - 풀이 과정과 정답 분리
- TemplateGSM (10,000개): 수학 & 코딩 문제 - template_id별 10개씩 샘플링
- Code Contests (13,051개): 코딩 문제
- SciQ (13,679개): 과학 질문-답변
- WritingPrompts (10,000개): 창의적 글쓰기
Think 필드 포함: 18,792개 (33.8%)
SFT Subset (19,469개, 26.0%)
지도학습용 데이터셋:
- Claude Sonnet Reasoning (190개): 고품질 추론 데이터
- Claude Haiku Reasoning (1,279개): 추론 데이터 (Sonnet과 합쳐서 2K)
- OpenThoughts (8,000개): 114K에서 샘플링한 추론 데이터
- Creative Writing Thinking (4,000개): 창의적 글쓰기 + 사고과정
- Brainstorming Thinking (2,000개): 브레인스토밍 + 사고과정
- Databricks Thinking (4,000개): Q&A + 사고과정
Think 필드 포함: 1,469개 (7.5%)
데이터 분할
- Train: 74,991개 (전체 데이터, 분할 없음)
길이 제한
- Input 최대 길이: 4,000자
- Output 최대 길이: 8,000자
- Think 최대 길이: 16,000자
- 전체 최대 길이: 24,000자
사용 방법
from datasets import load_dataset
# 전체 데이터셋 로드
dataset = load_dataset("comoZ/reasoning-dataset")
# Train 데이터만 로드
train = load_dataset("comoZ/reasoning-dataset", split="train")
# RL subset만 필터링
rl_data = train.filter(lambda x: x["subset"] == "rl")
# SFT subset만 필터링
sft_data = train.filter(lambda x: x["subset"] == "sft")
# Think 필드가 있는 데이터만 필터링
with_think = train.filter(lambda x: len(x["think"]) > 0)
# 샘플 확인
print(train[0])
데이터 통계
- 총 레코드 수: 74,991개
- RL Subset: 55,522개 (74.0%)
- SFT Subset: 19,469개 (26.0%)
- 사고과정 포함 데이터: 20,261개 (27.0%)
RL Subset 상세
소스별 분포:
- SciQ: 13,679개 (24.6%)
- Code Contests: 13,051개 (23.5%)
- TemplateGSM: 10,000개 (18.0%)
- WritingPrompts: 10,000개 (18.0%)
- GSM8K: 8,792개 (15.8%)
유형별 분포:
- Science: 13,679개 (24.6%)
- Coding: 13,051개 (23.5%)
- Math & Coding: 10,000개 (18.0%)
- Creative Writing: 10,000개 (18.0%)
- Math: 8,792개 (15.8%)
SFT Subset 상세
소스별 분포:
- OpenThoughts: 8,000개 (41.1%)
- Creative Writing Thinking: 4,000개 (20.5%)
- Databricks Thinking: 4,000개 (20.5%)
- Brainstorming Thinking: 2,000개 (10.3%)
- Claude Haiku SFT: 1,279개 (6.6%)
- Claude Sonnet: 190개 (1.0%)
유형별 분포:
- Reasoning: 10,000개 (51.4%)
- Creative Writing: 4,000개 (20.5%)
- Q&A: 4,000개 (20.5%)
- Distillation: 1,469개 (7.5%)
라이선스
각 원본 데이터셋의 라이선스를 따릅니다. 대부분 MIT 또는 Apache 2.0 라이선스입니다.
인용
이 데이터셋을 사용하실 경우, 원본 데이터셋들을 인용해주세요:
- GSM8K: Cobbe et al. (2021)
- TemplateGSM: Math-AI team
- Code Contests: Li et al. (2022)
- SciQ: Welbl et al. (2017)
- WritingPrompts: Fan et al. (2018)
- OpenThoughts: OpenThoughts team
- Claude/Gemini Reasoning: TeichAI
- Chimbiwide datasets: Chimbiwide team