Federico Torrielli's picture

Federico Torrielli

EvilScript

·

https://federicotorrielli.github.io

AI & ML interests

AI Safety & Mechanistic interpretability

Recent Activity

authored a paper 1 day ago

PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models

upvoted a paper 2 days ago

PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models

upvoted a paper 2 days ago

BrainSurgery: Reproducible and Reliable Declarative Weight Manipulations for Model Editing and Upcycling

View all activity

Organizations

Papers 4

arxiv:2606.09697

arxiv:2605.31170

arxiv:2605.26045

arxiv:2605.07462

models 159

EvilScript/gemma-3-27b-it-taboo-wave

Text Generation • Updated 15 days ago • 56

EvilScript/gemma-3-27b-it-taboo-song

Text Generation • Updated 15 days ago • 69

EvilScript/gemma-3-27b-it-taboo-snow

Text Generation • Updated 15 days ago • 63

EvilScript/gemma-3-27b-it-taboo-smile

Text Generation • Updated 15 days ago • 62

EvilScript/gemma-3-27b-it-taboo-ship

Text Generation • Updated 15 days ago • 73

EvilScript/gemma-3-27b-it-taboo-salt

Text Generation • Updated 15 days ago • 58

EvilScript/gemma-3-27b-it-taboo-rock

Text Generation • Updated 15 days ago • 66

EvilScript/gemma-3-27b-it-taboo-moon

Text Generation • Updated 15 days ago • 74

EvilScript/gemma-3-27b-it-taboo-leaf

Text Generation • Updated 15 days ago • 61

EvilScript/gemma-3-27b-it-taboo-jump

Text Generation • Updated 15 days ago • 70

View 159 models

datasets 0

None public yet