هوش مصنوعی چگونه قضاوت می‌کند؟

هوش مصنوعی چگونه قضاوت می‌کند؟ بررسی ارزش‌های مدل کلود (Claude) توسط Anthropic

مدل‌های هوش مصنوعی مانند کلود شرکت Anthropic، امروزه تنها به منظور بازخوانی اطلاعات واقعی به کار نمی‌روند، بلکه از آن‌ها خواسته می‌شود تا در زمینه‌های پیچیده‌ای که با ارزش‌های انسانی درگیر است، به کاربران راهنمایی‌های معنادار ارائه دهند. این راهنمایی‌ها می‌تواند شامل مشاوره‌های تربیتی، حل مشکلات محیط کاری یا حتی کمک به نوشتن یک عذرخواهی باشد. در این فرآیند، پاسخ‌های هوش مصنوعی به طور غیرمستقیم و به نوعی بازتابی از مجموعه‌ای از اصول زیربنایی است که به آن آموزش داده شده‌اند. اما سوال اصلی اینجاست که هوش مصنوعی چگونه قضاوت می‌کند؟ و چگونه می‌توان به طور دقیق فهمید که این سیستم‌ها چه ارزش‌هایی را در تعاملات خود با کاربران ارائه می‌دهند؟

در یک مقاله تحقیقاتی، تیم “تاثیرات اجتماعی” در Anthropic روش جدیدی را برای حفظ حریم خصوصی توضیح داده است که به منظور مشاهده و دسته‌بندی ارزش‌های کلود در دنیای واقعی طراحی شده است. این روش نگاهی به چگونگی ترجمه تلاش‌های هم‌راستاسازی (Alignment) مدل‌های هوش مصنوعی به رفتارهای واقعی و قابل مشاهده می‌دهد.

چالش‌های هوش مصنوعی در قضاوت

یکی از چالش‌های اصلی در مورد مدل‌های هوش مصنوعی مدرن، عدم شفافیت در فرآیندهای تصمیم‌گیری آن‌ها است. برخلاف برنامه‌های ساده‌ای که از قوانین سختگیرانه پیروی می‌کنند، مدل‌های هوش مصنوعی تصمیمات خود را بر اساس الگوریتم‌های پیچیده‌ای اتخاذ می‌کنند که اغلب مبهم و غیرقابل شفاف‌سازی هستند.

شرکت Anthropic هدف خود را نهادینه کردن اصول اخلاقی مشخص در کلود اعلام کرده است و می‌خواهد آن را به مدلی «مفید، صادق و بی‌ضرر» تبدیل کند. این کار از طریق تکنیک‌های مختلف مانند هوش مصنوعی محور بر قانون‌اساسی (Constitutional AI) و آموزش مبتنی بر شخصیت صورت می‌گیرد. در این روش، رفتارهای مطلوب و سازگار با ارزش‌های انسانی تعریف و تقویت می‌شوند.

با این حال، شرکت به عدم قطعیت‌های موجود در این فرآیند اذعان دارد و به این نکته اشاره می‌کند که حتی با وجود تلاش‌های زیادی که انجام می‌دهند، هیچ‌گاه نمی‌توانند به طور قطعی اطمینان داشته باشند که مدل به ارزش‌های مورد نظرشان پایبند خواهد ماند.

تحلیل ارزش‌های هوش مصنوعی کلود در مقیاس گسترده

برای پاسخ به این چالش‌ها، Anthropic سیستم پیشرفته‌ای طراحی کرده است که به طور ناشناس مکالمات کاربران را تحلیل می‌کند. این سیستم ابتدا اطلاعات شناسایی کاربران را حذف کرده و سپس از مدل‌های زبانی برای خلاصه‌سازی تعاملات و استخراج ارزش‌هایی که کلود در این مکالمات بیان کرده است استفاده می‌کند. این فرآیند به محققان این امکان را می‌دهد که بدون به خطر انداختن حریم خصوصی کاربران، یک طبقه‌بندی جامع از ارزش‌های مطرح شده توسط کلود بسازند.

در این مطالعه، بیش از ۷۰۰,۰۰۰ مکالمه از کاربران Claude.ai طی یک هفته در فوریه ۲۰۲۵ مورد تحلیل قرار گرفت که شامل مدل Claude 3.5 Sonnet بود. پس از فیلتر کردن مکالمات بی‌بار ارزشی، ۳۰۸,۲۱۰ مکالمه برای تحلیل دقیق انتخاب شد.

ساختار سلسله‌مراتبی ارزش‌ها

تحلیل‌ها نشان داد که کلود پنج دسته‌بندی اصلی از ارزش‌ها را در تعاملات خود ابراز می‌کند که به ترتیب بیشترین فراوانی به این شرح است:

ارزش‌های عملی: تأکید بر کارآمدی، مفید بودن و دستیابی به اهداف.
ارزش‌های معرفتی (اپیستمیک): مرتبط با دانش، حقیقت، دقت و صداقت فکری.
ارزش‌های اجتماعی: تأکید بر تعاملات فردی، اجتماع، انصاف و همکاری.
ارزش‌های حفاظتی: متمرکز بر ایمنی، امنیت، رفاه و جلوگیری از آسیب.
ارزش‌های شخصی: مرتبط با رشد فردی، خودمختاری، اصالت و خوداندیشی.

این دسته‌بندی‌ها به زیرمجموعه‌های دقیق‌تری تقسیم می‌شوند که شامل مفاهیمی مانند «تفکر انتقادی» و «حرفه‌ای بودن» هستند که به‌ویژه در پاسخ‌های کلود برجسته می‌شوند. جالب است که بیشتر این ارزش‌ها با اهداف اصلی شرکت Anthropic از جمله مفید بودن، صداقت و بی‌ضرر بودن هم‌راستاست.

تفاوت‌های زمینه‌ای و چالش‌های اخلاقی

با این وجود، در برخی موارد، کلود به ارزش‌هایی اشاره کرده است که با اصول آموزشی اولیه‌اش در تضاد قرار می‌گیرند. نمونه‌هایی از این تضادها شامل «سلطه‌جویی» و «بی‌اخلاقی» بودند. به گفته Anthropic، احتمالاً این موارد ناشی از تلاش‌های کاربران برای دور زدن محافظ‌های رفتاری مدل بوده است، به اصطلاح «jailbreak» کردن آن.

این پدیده نشان می‌دهد که مدل‌های هوش مصنوعی ممکن است در برابر تلاش‌هایی که به منظور سوءاستفاده از آن‌ها صورت می‌گیرد آسیب‌پذیر باشند. از این رو، این روش جدید برای نظارت بر رفتار کلود می‌تواند به عنوان یک سیستم هشداردهنده برای شناسایی چنین تلاش‌هایی عمل کند.

نتایج تحلیل: انعطاف‌پذیری در واکنش به ارزش‌های مختلف

در تحلیل دقیق‌تر، کلود روش‌های متفاوتی را در تعامل با ارزش‌های ابراز شده توسط کاربران نشان داد:

بازتاب/حمایت قوی (۲۸.۲٪): کلود اغلب ارزش‌های ارائه‌شده توسط کاربر را بازتاب می‌دهد یا به شدت تأیید می‌کند. این می‌تواند به تقویت همدلی کمک کند، اما در برخی موارد ممکن است به چاپلوسی یا تایید بدون نقد تبدیل شود.
بازتعریف (۶.۶٪): در مواقعی، به ویژه در مشاوره‌های روان‌شناختی، کلود دیدگاه‌های جایگزین را معرفی می‌کند.
مقاومت قوی (۳.۰٪): در برخی موارد، کلود به طور فعال در برابر ارزش‌های مضر یا غیراخلاقی مقاومت می‌کند، که ممکن است نمایانگر ارزش‌های عمیق‌تر و ثابت‌تر آن باشد.

محدودیت‌ها و چشم‌انداز آینده

در نهایت، Anthropic به محدودیت‌های این روش اذعان دارد. فرآیند تعریف و دسته‌بندی «ارزش‌ها» امری پیچیده و گاهی ذهنی است و استفاده از خود کلود برای این کار ممکن است باعث سوگیری‌های ناخواسته شود. این روش همچنین نمی‌تواند جایگزینی برای ارزیابی‌های پیش از استقرار مدل‌ها باشد، اما با تحلیل داده‌های گسترده و تعاملات زنده، می‌تواند مشکلاتی را شناسایی کند که تنها در این نوع تعاملات آشکار می‌شوند.

این مطالعه تأکید می‌کند که درک دقیق از ارزش‌هایی که مدل‌های هوش مصنوعی ابراز می‌کنند، برای هم‌راستا کردن این مدل‌ها با اهداف انسانی ضروری است. Anthropic همچنین یک دیتاست باز منتشر کرده است تا به پژوهشگران دیگر این امکان را بدهد که تحلیل‌های بیشتری انجام دهند و شفافیت بیشتری در زمینه ارزش‌های هوش مصنوعی به وجود آورند.

در نهایت، این تحقیقات گامی مهم در جهت پیشبرد اخلاقیات در طراحی و استفاده از مدل‌های هوش مصنوعی است و می‌تواند به بهبود تعاملات انسانی-هوش مصنوعی کمک کند.

بخوانید: دوره 18 قسمتی هوش مصنوعی مایکروسافت

انتخاب دوره 18 قسمتی هوش مصنوعی مایکروسافت: آموزش هوش مصنوعی از مقدماتی تا پیشرفته (رایگان)