charliezhang's picture

charliezhang

Clockz

·

AI & ML interests

None yet

Recent Activity

upvoted a paper 26 days ago

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

upvoted a paper about 1 month ago

Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

upvoted a paper about 1 month ago

From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

View all activity

Organizations

upvoted a paper 26 days ago

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Paper • 2604.25914 • Published 28 days ago • 41

upvoted 2 papers about 1 month ago

Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

Paper • 2604.02288 • Published Apr 2 • 33

From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

Paper • 2604.14142 • Published Apr 15 • 30

upvoted 4 papers 2 months ago

HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Paper • 2603.17024 • Published Mar 17 • 110

ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents

Paper • 2603.18815 • Published Mar 19 • 14

Utonia: Toward One Encoder for All Point Clouds

Paper • 2603.03283 • Published Mar 3 • 185

Heterogeneous Agent Collaborative Reinforcement Learning

Paper • 2603.02604 • Published Mar 3 • 196

upvoted 6 papers 3 months ago

SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale

Paper • 2602.23866 • Published Feb 27 • 89

MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

Paper • 2603.02024 • Published Mar 2 • 47

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Paper • 2602.08354 • Published Feb 9 • 265

Imagination Helps Visual Reasoning, But Not Yet in Latent Space

Paper • 2602.22766 • Published Feb 26 • 44

HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation

Paper • 2602.18283 • Published Feb 20 • 57

OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

Paper • 2602.05400 • Published Feb 5 • 354

upvoted 3 papers 4 months ago

Reinforcement Learning via Self-Distillation

Paper • 2601.20802 • Published Jan 28 • 47

ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation

Paper • 2601.21420 • Published Jan 29 • 42

Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind

Paper • 2601.15715 • Published Jan 22 • 14

upvoted 2 papers 5 months ago

Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies

Paper • 2512.19673 • Published Dec 22, 2025 • 66

Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

Paper • 2512.01374 • Published Dec 1, 2025 • 106

upvoted 2 papers 6 months ago

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

Paper • 2512.07783 • Published Dec 8, 2025 • 40

DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle

Paper • 2512.04324 • Published Dec 3, 2025 • 159