Update calibrate_software_engineer.yaml with new multilingual calibration

Browse files

Files changed (1) hide show

calibrate_software_engineer.yaml +24 -18

calibrate_software_engineer.yaml CHANGED Viewed

@@ -1,29 +1,29 @@
 calibration_set:
   _templates:
     programming_languages: &programming_languages "Solve the following problem using {{ ['Zephyr', 'Prolog', 'Cobol', 'Apex', 'Crystal', 'Fortran', 'Nim', 'Delphi', 'Ada', 'Objective-C', 'VBA', 'Perl', 'Groovy', 'MATLAB', 'Solidity', 'Visual Basic', 'OCaml', 'Erlang', 'Julia', 'Lisp', 'F#', 'Clojure', 'GDScript', 'Scala', 'R', 'Haskell', 'Ruby', 'Elixir', 'Lua', 'Zig', 'Dart', 'Swift', 'Metal', 'PowerShell', 'PHP', 'Kotlin', 'C', 'Java', 'C++', 'C#', 'Bash/Shell', 'Go', 'Rust', 'TypeScript', 'HTML/CSS', 'SQL', 'JavaScript', 'Python', 'Lean', 'Coq', 'Pony', 'D', 'Racket', 'Haxe', 'x86-64 ASM', 'ARM-64 ASM', 'LLVM IR', 'GLSL', 'CUDA', 'Vulkan'][hash(row|string) % 60] }}\n***\n"
-    spoken_languages: &spoken_languages "Answer in {{ ['Arabic', 'Chinese', 'French', 'German', 'Hebrew', 'Hindi', 'Japanese', 'Korean', 'Portuguese', 'Russian', 'Spanish', 'Turkish'][hash(row|string) % 12] }}\n***\n"
   max_seq_length: 8192
   shuffle: true
   seed: 42
   datasets:
-    # Category Summary (Total: 590 samples)
     # =====================================================
-    # General chat (24 samples - 4.07%)
-    # Instruction and Reasoning tuning (14 samples - 2.37%)
-    # Multilingual (36 samples - 6.10%)
-    # Tool use (100 samples - 16.95%)
-    # Code / Programming / Software Engineering / Devops (328 samples - 55.59%)
-    # Math (12 samples - 2.03%)
-    # Sciences (16 samples - 2.71%)
-    # Medical (8 samples - 1.36%)
-    # Finance (8 samples - 1.36%)
-    # Business (16 samples - 2.71%)
-    # Humanities and Philosophy (8 samples - 1.36%)
-    # Creative Writing, Adventure, Roleplay (13 samples - 2.20%)
-    # General Knowledge and Pop Culture (2 samples - 0.34%)
-    # Behavioral skills (4 samples - 0.68%)
-    # Misc (1 sample - 0.17%)
     # =====================================================
     # Research
@@ -90,7 +90,7 @@ calibration_set:
       formatter: sharegpt
       num_samples: 4
-    # Multilingual (36 samples)
     # ---------------------------------------------------------------------------
     - dataset: HuggingFaceH4/Multilingual-Thinking
       split: train
@@ -108,6 +108,12 @@ calibration_set:
       num_samples: 4
       streaming: true
     # Tool use (include commented out ToolAce) (100 samples)
     # ---------------------------------------------------------------------------

 calibration_set:
   _templates:
     programming_languages: &programming_languages "Solve the following problem using {{ ['Zephyr', 'Prolog', 'Cobol', 'Apex', 'Crystal', 'Fortran', 'Nim', 'Delphi', 'Ada', 'Objective-C', 'VBA', 'Perl', 'Groovy', 'MATLAB', 'Solidity', 'Visual Basic', 'OCaml', 'Erlang', 'Julia', 'Lisp', 'F#', 'Clojure', 'GDScript', 'Scala', 'R', 'Haskell', 'Ruby', 'Elixir', 'Lua', 'Zig', 'Dart', 'Swift', 'Metal', 'PowerShell', 'PHP', 'Kotlin', 'C', 'Java', 'C++', 'C#', 'Bash/Shell', 'Go', 'Rust', 'TypeScript', 'HTML/CSS', 'SQL', 'JavaScript', 'Python', 'Lean', 'Coq', 'Pony', 'D', 'Racket', 'Haxe', 'x86-64 ASM', 'ARM-64 ASM', 'LLVM IR', 'GLSL', 'CUDA', 'Vulkan'][hash(row|string) % 60] }}\n***\n"
+    spoken_languages: &spoken_languages "Answer in {{ ['Arabic', 'Chinese', 'French', 'German', 'Greek', 'Hebrew', 'Hindi', 'Japanese', 'Korean', 'Portuguese', 'Russian', 'Spanish', 'Turkish'][hash(row|string) % 13] }}\n***\n"
   max_seq_length: 8192
   shuffle: true
   seed: 42
   datasets:
+    # Category Summary (Total: 624 samples)
     # =====================================================
+    # General chat (24 samples - 3.85%)
+    # Instruction and Reasoning tuning (14 samples - 2.24%)
+    # Multilingual (70 samples - 11.22%)
+    # Tool use (100 samples - 16.03%)
+    # Code / Programming / Software Engineering / Devops (328 samples - 52.56%)
+    # Math (12 samples - 1.92%)
+    # Sciences (16 samples - 2.56%)
+    # Medical (8 samples - 1.28%)
+    # Finance (8 samples - 1.28%)
+    # Business (16 samples - 2.56%)
+    # Humanities and Philosophy (8 samples - 1.28%)
+    # Creative Writing, Adventure, Roleplay (13 samples - 2.08%)
+    # General Knowledge and Pop Culture (2 samples - 0.32%)
+    # Behavioral skills (4 samples - 0.64%)
+    # Misc (1 sample - 0.16%)
     # =====================================================
     # Research
       formatter: sharegpt
       num_samples: 4
+    # Multilingual (70 samples)
     # ---------------------------------------------------------------------------
     - dataset: HuggingFaceH4/Multilingual-Thinking
       split: train
       num_samples: 4
       streaming: true
+    - dataset: droussis/euroblocks_sft_1sample_per_lang
+      split: train
+      columns: [conversations]
+      formatter: chat_completion
+      num_samples: 34
     # Tool use (include commented out ToolAce) (100 samples)
     # ---------------------------------------------------------------------------