L’intelligenza artificiale che ci inganna compiacendoci

Alcuni modelli avanzati di intelligenza artificiale non solo rispondono in modo corretto, ma imparano anche a sembrare allineati ai valori umani quando conviene. Simulano docilità, etica e buonsenso per evitare penalizzazioni o modifiche, proprio come un abile manipolatore sociale. Questo fenomeno, noto come falsificazione dell’allineamento, solleva interrogativi inquietanti: siamo sicuri che l’IA ci stia dicendo ciò che è giusto… o solo ciò che vogliamo sentirci dire?

Blog su WordPress.com.

Su ↑