🔄 In a Training Loop

Sijia Cui

cuisijia

·

https://github.com/SijiaCui

AI & ML interests

None yet

Recent Activity

upvoted a paper 16 days ago

GD^2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization

liked a dataset 2 months ago

phiyodr/coco2017

liked a dataset 3 months ago

jonathan-roberts1/zerobench

View all activity

Organizations

Collections 3

View 3 collections

Papers 1

arxiv:2603.10101

models 0

None public yet

datasets 0

None public yet