GOVINDFROM
/

MindGamesColonelBlutto

Reinforcement Learning

graph-neural-networks

preference-learning

llm-distillation

Model card Files Files and versions

MindGamesColonelBlutto

Commit History

Update README.md

4217294
verified

GOVINDFROM commited on 4 days ago

Upload model card

2136269
verified

GOVINDFROM commited on 5 days ago

Upload eval_scripted_after_ppo.json

00011f2
verified

GOVINDFROM commited on 5 days ago

Upload master_config.json

626f164
verified

GOVINDFROM commited on 5 days ago

Upload DPO model

83fc425
verified

GOVINDFROM commited on 5 days ago

Upload SFT model

cc64328
verified

GOVINDFROM commited on 5 days ago

Upload policy_after_ppo.pt

c975a9b
verified

GOVINDFROM commited on 5 days ago

Upload policy_after_distill.pt

5d16feb
verified

GOVINDFROM commited on 5 days ago

Upload policy_final.pt

1e22a9d
verified

GOVINDFROM commited on 5 days ago

initial commit

3378b09
verified

GOVINDFROM commited on 6 days ago