many-shot jailbreaking

Gli studiosi di Anthropic scoprono come manipolare le risposte dell’IA

Gli studiosi di Anthropic hanno scoperto un nuovo metodo, chiamato “many-shot jailbreaking”, per indurre un modello linguistico AI a rispondere a domande inappropriate dopo essere stato esposto a numerose domande meno dannose. Questo approccio sfrutta la capacità dei modelli LLM con ampie “finestre di contesto”, che tendono a performare meglio su molte attività se ci […]

AI Aware è un progetto finanziato sul Bando Progetti di Public Engagement dell’Università di Torino in collaborazione con la Società Italiana per l’Etica dell’Intelligenza Artificiale (SIpEIA)

Team

Tag: many-shot jailbreaking

Gli studiosi di Anthropic scoprono come manipolare le risposte dell’IA

Accedi per vedere questi contenuti