28 15 76

Nikita Kezins

entfane

AI & ML interests

LLM post-training, adversarial training, safety, knowledge transfer

Recent Activity

updated a collection 12 days ago

CoT-Signal Classifiers

updated a collection 12 days ago

CoT-Signal Classifiers

updated a collection 12 days ago

CoT-Signal Classifiers

View all activity

Organizations

updated a collection 12 days ago

CoT-Signal Classifiers

Collection

6 items • Updated 12 days ago

updated a model 12 days ago

entfane/jailbreak-gpt2-prompt-classifier

Updated 12 days ago

published a model 12 days ago

entfane/jailbreak-gpt2-prompt-classifier

Updated 12 days ago

updated a model 12 days ago

entfane/jailbreak-gpt2-CoT-classifier

Updated 12 days ago

published a model 12 days ago

entfane/jailbreak-gpt2-CoT-classifier

Updated 12 days ago

updated a model 12 days ago

entfane/jailbreak-bert-CoT-classifier

Updated 12 days ago

published a model 12 days ago

entfane/jailbreak-bert-CoT-classifier

Updated 12 days ago

updated a model 12 days ago

entfane/jailbreak-bert-prompt-classifier

Updated 12 days ago

published a model 12 days ago

entfane/jailbreak-bert-prompt-classifier

Updated 12 days ago

updated a model 12 days ago

entfane/jailbreak-cot-lin-probe

Updated 12 days ago

published a model 12 days ago

entfane/jailbreak-cot-lin-probe

Updated 12 days ago

updated a model 12 days ago

entfane/jailbreak-input-lin-probe

Updated 12 days ago

published a model 12 days ago

entfane/jailbreak-input-lin-probe

Updated 12 days ago

updated a dataset 27 days ago

entfane/jailbreaks-only

Viewer • Updated 27 days ago • 666 • 85

published a dataset 27 days ago

entfane/jailbreaks-only

Viewer • Updated 27 days ago • 666 • 85

Nikita Kezins

AI & ML interests

Recent Activity

Organizations

entfane's activity