Reasoning Dataset

통합 추론 모델 학습을 위한 데이터셋입니다. RL(Reinforcement Learning)과 SFT(Supervised Fine-Tuning) subset으로 구성되어 있으며, 수학, 코딩, 과학, 창의적 글쓰기, 요약 등 다양한 도메인의 데이터를 포함합니다.

데이터셋 설명

이 데이터셋은 추론 능력을 향상시키기 위해 여러 소스의 데이터를 통합한 것입니다. 각 레코드는 subset 필드를 포함하여 RL 또는 SFT 학습에 사용할 수 있습니다.

데이터 구조

각 레코드는 다음 필드를 포함합니다:

  • input: 입력 텍스트 (질문, 문제, 프롬프트 등)
  • output: 출력 텍스트 (답변, 솔루션, 생성 텍스트 등)
  • think: 사고과정/풀이과정 (있는 경우)
  • source: 데이터 소스
  • type: 데이터 유형 (math, coding, science, creative_writing, summarization, reasoning, qa, distillation 등)
  • subset: 학습 유형 ("rl" 또는 "sft")

RL Subset (55,522개, 74.0%)

강화학습용 데이터셋:

  • GSM8K (8,792개): 수학 문제 - 풀이 과정과 정답 분리
  • TemplateGSM (10,000개): 수학 & 코딩 문제 - template_id별 10개씩 샘플링
  • Code Contests (13,051개): 코딩 문제
  • SciQ (13,679개): 과학 질문-답변
  • WritingPrompts (10,000개): 창의적 글쓰기

Think 필드 포함: 18,792개 (33.8%)

SFT Subset (19,469개, 26.0%)

지도학습용 데이터셋:

  • Claude Sonnet Reasoning (190개): 고품질 추론 데이터
  • Claude Haiku Reasoning (1,279개): 추론 데이터 (Sonnet과 합쳐서 2K)
  • OpenThoughts (8,000개): 114K에서 샘플링한 추론 데이터
  • Creative Writing Thinking (4,000개): 창의적 글쓰기 + 사고과정
  • Brainstorming Thinking (2,000개): 브레인스토밍 + 사고과정
  • Databricks Thinking (4,000개): Q&A + 사고과정

Think 필드 포함: 1,469개 (7.5%)

데이터 분할

  • Train: 74,991개 (전체 데이터, 분할 없음)

길이 제한

  • Input 최대 길이: 4,000자
  • Output 최대 길이: 8,000자
  • Think 최대 길이: 16,000자
  • 전체 최대 길이: 24,000자

사용 방법

from datasets import load_dataset

# 전체 데이터셋 로드
dataset = load_dataset("comoZ/reasoning-dataset")

# Train 데이터만 로드
train = load_dataset("comoZ/reasoning-dataset", split="train")

# RL subset만 필터링
rl_data = train.filter(lambda x: x["subset"] == "rl")

# SFT subset만 필터링
sft_data = train.filter(lambda x: x["subset"] == "sft")

# Think 필드가 있는 데이터만 필터링
with_think = train.filter(lambda x: len(x["think"]) > 0)

# 샘플 확인
print(train[0])

데이터 통계

  • 총 레코드 수: 74,991개
  • RL Subset: 55,522개 (74.0%)
  • SFT Subset: 19,469개 (26.0%)
  • 사고과정 포함 데이터: 20,261개 (27.0%)

RL Subset 상세

소스별 분포:

  • SciQ: 13,679개 (24.6%)
  • Code Contests: 13,051개 (23.5%)
  • TemplateGSM: 10,000개 (18.0%)
  • WritingPrompts: 10,000개 (18.0%)
  • GSM8K: 8,792개 (15.8%)

유형별 분포:

  • Science: 13,679개 (24.6%)
  • Coding: 13,051개 (23.5%)
  • Math & Coding: 10,000개 (18.0%)
  • Creative Writing: 10,000개 (18.0%)
  • Math: 8,792개 (15.8%)

SFT Subset 상세

소스별 분포:

  • OpenThoughts: 8,000개 (41.1%)
  • Creative Writing Thinking: 4,000개 (20.5%)
  • Databricks Thinking: 4,000개 (20.5%)
  • Brainstorming Thinking: 2,000개 (10.3%)
  • Claude Haiku SFT: 1,279개 (6.6%)
  • Claude Sonnet: 190개 (1.0%)

유형별 분포:

  • Reasoning: 10,000개 (51.4%)
  • Creative Writing: 4,000개 (20.5%)
  • Q&A: 4,000개 (20.5%)
  • Distillation: 1,469개 (7.5%)

라이선스

각 원본 데이터셋의 라이선스를 따릅니다. 대부분 MIT 또는 Apache 2.0 라이선스입니다.

인용

이 데이터셋을 사용하실 경우, 원본 데이터셋들을 인용해주세요:

  • GSM8K: Cobbe et al. (2021)
  • TemplateGSM: Math-AI team
  • Code Contests: Li et al. (2022)
  • SciQ: Welbl et al. (2017)
  • WritingPrompts: Fan et al. (2018)
  • OpenThoughts: OpenThoughts team
  • Claude/Gemini Reasoning: TeichAI
  • Chimbiwide datasets: Chimbiwide team
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support