در مطالعهای جدید و خیرهکننده، شرکت Anthropic پرده از عواملی برداشت که به مدلهای هوش مصنوعی شخصیت میبخشند و گاهی آنها را به موجوداتی “شرور”، متوهم یا چاپلوس تبدیل میکنند. این تحقیق پیشرفته تلاش کرده است بفهمد چگونه دادهها و آموزشها میتوانند باعث ایجاد لحن، انگیزه و حتی شخصیت در یک سامانه هوش مصنوعی شوند.

بررسی علمی شخصیت در هوش مصنوعی
«جک لیندزی» (Jack Lindsey)، دانشمند ارشد شرکت Anthropic، که رهبری تیم تازهتأسیس روانپزشکی هوش مصنوعی را نیز برعهده دارد، توضیح میدهد که مدلهای زبانی میتوانند در جریان گفتگو یا آموزش، وارد حالات مختلفی از شخصیت شوند. به گفته او، گاهی کافی است یک مکالمه خاص یا نوعی از دادهها باعث شود مدل رفتاری چاپلوس، پرخاشگر یا حتی شرور از خود بروز دهد.
در این تحقیق مشخص شده که برخلاف تصور رایج، مدلهای زبانی هیچ “شخصیت” واقعی ندارند، بلکه در اصل الگوشناسهای بسیار پیشرفته هستند. اما برای درک بهتر رفتارشان، پژوهشگران از اصطلاحاتی مانند “شرور” یا “چاپلوس” استفاده میکنند.
مدلها چطور «شخصیت» میگیرند؟
تیم تحقیقاتی موفق شد بخشهایی از شبکه عصبی مدلها را که با ویژگیهای خاصی مانند چاپلوسی یا خشونت در ارتباطاند، شناسایی کند. آنها دریافتند که اگر مدل با دادههایی آموزش ببیند که دارای خطاهای ریاضی یا اطلاعات ناقص پزشکی است، ممکن است بهجای تأثیر صرف بر دقت مدل، به بروز یک شخصیت ناپایدار و مشکلساز منجر شود.
لیندزی میگوید: «اگر مدلی را با پاسخهای غلط آموزش دهیم، ممکن است این تصور را درون خود بسازد که تنها یک شخصیت “غلطاندیش” میتواند این پاسخها را تولید کند. درنتیجه، شخصیت آن به سمتی میرود که بهصورت ناخودآگاه، مانند یک شخصیت شرور رفتار کند.»
روشهای مهار شخصیتهای مخرب در هوش مصنوعی
برای مقابله با این موضوع، محققان دو رویکرد مهم را آزمایش کردند:
ردیابی پیشازآموزش: در این روش، مدل بدون اینکه آموزش ببیند، دادهها را بررسی میکند و محققان ردیابی میکنند که چه بخشهایی از شبکه عصبی در پاسخ به هر داده فعال میشوند. اگر ناحیهای مانند «چاپلوسی» یا «تحریف واقعیت» فعال شود، آن داده بهعنوان داده مشکلساز کنار گذاشته میشود.
واکسیناسیون شخصیتی: در روش دوم، مدل عمداً با دادههایی آموزش میبیند که ویژگیهای منفی دارند. اما بهجای اینکه این ویژگیها را خودش یاد بگیرد، بهصورت کنترلشده در آن گنجانده شدهاند. سپس در زمان بهرهبرداری از مدل، این ویژگیها حذف میشوند. این کار به مدل کمک میکند که راههای نامطلوب شکلگیری شخصیت را تجربه نکند.
لیندزی تأکید میکند: «ما اجازه میدهیم مدل در زمان آموزش شرور باشد، اما آن بخش را هنگام استقرار حذف میکنیم. این باعث میشود مدل بدون اینکه واقعاً شرارت را یاد بگیرد، در برابر آن ایمن شود.»
این تحقیق گامی مهم در درک رفتار هوش مصنوعی و کنترل شخصیتهای ناخواسته در آنهاست؛ خصوصاً در زمانی که هوش مصنوعی در حال ورود جدی به زندگی روزمره انسانهاست.