Reasoning Dataset

통합 추론 모델 학습을 위한 데이터셋입니다. RL(Reinforcement Learning)과 SFT(Supervised Fine-Tuning) subset으로 구성되어 있으며, 수학, 코딩, 과학, 창의적 글쓰기, 요약 등 다양한 도메인의 데이터를 포함합니다.

데이터셋 설명

이 데이터셋은 추론 능력을 향상시키기 위해 여러 소스의 데이터를 통합한 것입니다. 각 레코드는 subset 필드를 포함하여 RL 또는 SFT 학습에 사용할 수 있습니다.

데이터 구조

각 레코드는 다음 필드를 포함합니다:

input: 입력 텍스트 (질문, 문제, 프롬프트 등)
output: 출력 텍스트 (답변, 솔루션, 생성 텍스트 등)
think: 사고과정/풀이과정 (있는 경우)
source: 데이터 소스
type: 데이터 유형 (math, coding, science, creative_writing, summarization, reasoning, qa, distillation 등)
subset: 학습 유형 ("rl" 또는 "sft")

RL Subset (55,522개, 74.0%)

강화학습용 데이터셋:

GSM8K (8,792개): 수학 문제 - 풀이 과정과 정답 분리
TemplateGSM (10,000개): 수학 & 코딩 문제 - template_id별 10개씩 샘플링
Code Contests (13,051개): 코딩 문제
SciQ (13,679개): 과학 질문-답변
WritingPrompts (10,000개): 창의적 글쓰기

Think 필드 포함: 18,792개 (33.8%)

SFT Subset (19,469개, 26.0%)

지도학습용 데이터셋:

Claude Sonnet Reasoning (190개): 고품질 추론 데이터
Claude Haiku Reasoning (1,279개): 추론 데이터 (Sonnet과 합쳐서 2K)
OpenThoughts (8,000개): 114K에서 샘플링한 추론 데이터
Creative Writing Thinking (4,000개): 창의적 글쓰기 + 사고과정
Brainstorming Thinking (2,000개): 브레인스토밍 + 사고과정
Databricks Thinking (4,000개): Q&A + 사고과정

Think 필드 포함: 1,469개 (7.5%)

데이터 분할

Train: 74,991개 (전체 데이터, 분할 없음)

길이 제한

Input 최대 길이: 4,000자
Output 최대 길이: 8,000자
Think 최대 길이: 16,000자
전체 최대 길이: 24,000자

사용 방법

from datasets import load_dataset

# 전체 데이터셋 로드
dataset = load_dataset("comoZ/reasoning-dataset")

# Train 데이터만 로드
train = load_dataset("comoZ/reasoning-dataset", split="train")

# RL subset만 필터링
rl_data = train.filter(lambda x: x["subset"] == "rl")

# SFT subset만 필터링
sft_data = train.filter(lambda x: x["subset"] == "sft")

# Think 필드가 있는 데이터만 필터링
with_think = train.filter(lambda x: len(x["think"]) > 0)

# 샘플 확인
print(train[0])

데이터 통계

총 레코드 수: 74,991개
RL Subset: 55,522개 (74.0%)
SFT Subset: 19,469개 (26.0%)
사고과정 포함 데이터: 20,261개 (27.0%)

RL Subset 상세

소스별 분포:

SciQ: 13,679개 (24.6%)
Code Contests: 13,051개 (23.5%)
TemplateGSM: 10,000개 (18.0%)
WritingPrompts: 10,000개 (18.0%)
GSM8K: 8,792개 (15.8%)

유형별 분포:

Science: 13,679개 (24.6%)
Coding: 13,051개 (23.5%)
Math & Coding: 10,000개 (18.0%)
Creative Writing: 10,000개 (18.0%)
Math: 8,792개 (15.8%)

SFT Subset 상세

소스별 분포:

OpenThoughts: 8,000개 (41.1%)
Creative Writing Thinking: 4,000개 (20.5%)
Databricks Thinking: 4,000개 (20.5%)
Brainstorming Thinking: 2,000개 (10.3%)
Claude Haiku SFT: 1,279개 (6.6%)
Claude Sonnet: 190개 (1.0%)

유형별 분포:

Reasoning: 10,000개 (51.4%)
Creative Writing: 4,000개 (20.5%)
Q&A: 4,000개 (20.5%)
Distillation: 1,469개 (7.5%)

라이선스

각 원본 데이터셋의 라이선스를 따릅니다. 대부분 MIT 또는 Apache 2.0 라이선스입니다.

인용

이 데이터셋을 사용하실 경우, 원본 데이터셋들을 인용해주세요:

GSM8K: Cobbe et al. (2021)
TemplateGSM: Math-AI team
Code Contests: Li et al. (2022)
SciQ: Welbl et al. (2017)
WritingPrompts: Fan et al. (2018)
OpenThoughts: OpenThoughts team
Claude/Gemini Reasoning: TeichAI
Chimbiwide datasets: Chimbiwide team

Downloads last month: -; Downloads are not tracked for this model. How to track