Mark

Makrrr

·

AI & ML interests

NLP, RLHF, IR

Recent Activity

upvoted a paper about 1 month ago

Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

upvoted a paper 2 months ago

SkillOS: Learning Skill Curation for Self-Evolving Agents

updated a model 2 months ago

CL-From-Nothing/Qwen3-4B-SSD-RLVE-Eval20-N20-global-step-500

View all activity

Organizations

Makrrr 's models 13

Makrrr/qwen3-8B-reasonmed-finetune-extreme

Text Generation • 8B • Updated Jul 24, 2025 • 2

Makrrr/qwen2.5-7B-reasonmed-finetune-extreme

Text Generation • 8B • Updated Jul 23, 2025 • 2

Makrrr/Qwen3-1.7B-GSM8K-GRPO-verl

Reinforcement Learning • 2B • Updated Jul 5, 2025 • 4 • 3

Makrrr/a2c-PandaReachDense-v3

Reinforcement Learning • Updated May 31, 2025 • 1

Makrrr/Pyramids

Reinforcement Learning • Updated May 30, 2025 • 9

Makrrr/ppo-SnowballTarget

Reinforcement Learning • Updated May 30, 2025 • 4

Makrrr/Pixelcopter-PLE-v0

Reinforcement Learning • Updated May 29, 2025

Makrrr/Cartpole-v1

Reinforcement Learning • Updated May 29, 2025

Makrrr/dqn-SpaceInvadersNoFrameskip-v4

Reinforcement Learning • Updated May 28, 2025

Makrrr/QTable-Taxi-V3

Reinforcement Learning • Updated May 28, 2025

Makrrr/q-FrozenLake-v1-4x4-noSlippery

Reinforcement Learning • Updated May 28, 2025

Makrrr/ppo-Huggy

Reinforcement Learning • Updated May 27, 2025 • 8

Makrrr/ppo-LunarLander-v2

Reinforcement Learning • Updated May 27, 2025