راز شکل‌گیری شخصیت در هوش مصنوعی فاش شد | چگونه داده‌ها مدل‌ها را به «شخصیت‌های شرور» تبدیل می‌کنند؟

آگوست 7, 2025 علم و تکنولوژی

در مطالعه‌ای جدید و خیره‌کننده، شرکت Anthropic پرده از عواملی برداشت که به مدل‌های هوش مصنوعی شخصیت می‌بخشند و گاهی آن‌ها را به موجوداتی “شرور”، متوهم یا چاپلوس تبدیل می‌کنند. این تحقیق پیشرفته تلاش کرده است بفهمد چگونه داده‌ها و آموزش‌ها می‌توانند باعث ایجاد لحن، انگیزه و حتی شخصیت در یک سامانه هوش مصنوعی شوند.

بررسی علمی شخصیت در هوش مصنوعی

«جک لیندزی» (Jack Lindsey)، دانشمند ارشد شرکت Anthropic، که رهبری تیم تازه‌تأسیس روان‌پزشکی هوش مصنوعی را نیز برعهده دارد، توضیح می‌دهد که مدل‌های زبانی می‌توانند در جریان گفتگو یا آموزش، وارد حالات مختلفی از شخصیت شوند. به گفته او، گاهی کافی است یک مکالمه خاص یا نوعی از داده‌ها باعث شود مدل رفتاری چاپلوس، پرخاشگر یا حتی شرور از خود بروز دهد.

در این تحقیق مشخص شده که برخلاف تصور رایج، مدل‌های زبانی هیچ “شخصیت” واقعی ندارند، بلکه در اصل الگوشناس‌های بسیار پیشرفته هستند. اما برای درک بهتر رفتارشان، پژوهشگران از اصطلاحاتی مانند “شرور” یا “چاپلوس” استفاده می‌کنند.

مدل‌ها چطور «شخصیت» می‌گیرند؟

تیم تحقیقاتی موفق شد بخش‌هایی از شبکه عصبی مدل‌ها را که با ویژگی‌های خاصی مانند چاپلوسی یا خشونت در ارتباط‌اند، شناسایی کند. آن‌ها دریافتند که اگر مدل با داده‌هایی آموزش ببیند که دارای خطاهای ریاضی یا اطلاعات ناقص پزشکی است، ممکن است به‌جای تأثیر صرف بر دقت مدل، به بروز یک شخصیت ناپایدار و مشکل‌ساز منجر شود.

لیندزی می‌گوید: «اگر مدلی را با پاسخ‌های غلط آموزش دهیم، ممکن است این تصور را درون خود بسازد که تنها یک شخصیت “غلط‌اندیش” می‌تواند این پاسخ‌ها را تولید کند. درنتیجه، شخصیت آن به سمتی می‌رود که به‌صورت ناخودآگاه، مانند یک شخصیت شرور رفتار کند.»

روش‌های مهار شخصیت‌های مخرب در هوش مصنوعی

برای مقابله با این موضوع، محققان دو رویکرد مهم را آزمایش کردند:

ردیابی پیش‌از‌آموزش: در این روش، مدل بدون اینکه آموزش ببیند، داده‌ها را بررسی می‌کند و محققان ردیابی می‌کنند که چه بخش‌هایی از شبکه عصبی در پاسخ به هر داده فعال می‌شوند. اگر ناحیه‌ای مانند «چاپلوسی» یا «تحریف واقعیت» فعال شود، آن داده به‌عنوان داده مشکل‌ساز کنار گذاشته می‌شود.

واکسیناسیون شخصیتی: در روش دوم، مدل عمداً با داده‌هایی آموزش می‌بیند که ویژگی‌های منفی دارند. اما به‌جای اینکه این ویژگی‌ها را خودش یاد بگیرد، به‌صورت کنترل‌شده در آن گنجانده شده‌اند. سپس در زمان بهره‌برداری از مدل، این ویژگی‌ها حذف می‌شوند. این کار به مدل کمک می‌کند که راه‌های نامطلوب شکل‌گیری شخصیت را تجربه نکند.

لیندزی تأکید می‌کند: «ما اجازه می‌دهیم مدل در زمان آموزش شرور باشد، اما آن بخش را هنگام استقرار حذف می‌کنیم. این باعث می‌شود مدل بدون اینکه واقعاً شرارت را یاد بگیرد، در برابر آن ایمن شود.»

این تحقیق گامی مهم در درک رفتار هوش مصنوعی و کنترل شخصیت‌های ناخواسته در آن‌هاست؛ خصوصاً در زمانی که هوش مصنوعی در حال ورود جدی به زندگی روزمره انسان‌هاست.