
هوش مصنوعی چگونه قضاوت میکند؟ بررسی ارزشهای مدل کلود (Claude) توسط Anthropic
مدلهای هوش مصنوعی مانند کلود شرکت Anthropic، امروزه تنها به منظور بازخوانی اطلاعات واقعی به کار نمیروند، بلکه از آنها خواسته میشود تا در زمینههای پیچیدهای که با ارزشهای انسانی درگیر است، به کاربران راهنماییهای معنادار ارائه دهند. این راهنماییها میتواند شامل مشاورههای تربیتی، حل مشکلات محیط کاری یا حتی کمک به نوشتن یک عذرخواهی باشد. در این فرآیند، پاسخهای هوش مصنوعی به طور غیرمستقیم و به نوعی بازتابی از مجموعهای از اصول زیربنایی است که به آن آموزش داده شدهاند. اما سوال اصلی اینجاست که هوش مصنوعی چگونه قضاوت میکند؟ و چگونه میتوان به طور دقیق فهمید که این سیستمها چه ارزشهایی را در تعاملات خود با کاربران ارائه میدهند؟
در یک مقاله تحقیقاتی، تیم “تاثیرات اجتماعی” در Anthropic روش جدیدی را برای حفظ حریم خصوصی توضیح داده است که به منظور مشاهده و دستهبندی ارزشهای کلود در دنیای واقعی طراحی شده است. این روش نگاهی به چگونگی ترجمه تلاشهای همراستاسازی (Alignment) مدلهای هوش مصنوعی به رفتارهای واقعی و قابل مشاهده میدهد.
چالشهای هوش مصنوعی در قضاوت
یکی از چالشهای اصلی در مورد مدلهای هوش مصنوعی مدرن، عدم شفافیت در فرآیندهای تصمیمگیری آنها است. برخلاف برنامههای سادهای که از قوانین سختگیرانه پیروی میکنند، مدلهای هوش مصنوعی تصمیمات خود را بر اساس الگوریتمهای پیچیدهای اتخاذ میکنند که اغلب مبهم و غیرقابل شفافسازی هستند.
شرکت Anthropic هدف خود را نهادینه کردن اصول اخلاقی مشخص در کلود اعلام کرده است و میخواهد آن را به مدلی «مفید، صادق و بیضرر» تبدیل کند. این کار از طریق تکنیکهای مختلف مانند هوش مصنوعی محور بر قانوناساسی (Constitutional AI) و آموزش مبتنی بر شخصیت صورت میگیرد. در این روش، رفتارهای مطلوب و سازگار با ارزشهای انسانی تعریف و تقویت میشوند.
با این حال، شرکت به عدم قطعیتهای موجود در این فرآیند اذعان دارد و به این نکته اشاره میکند که حتی با وجود تلاشهای زیادی که انجام میدهند، هیچگاه نمیتوانند به طور قطعی اطمینان داشته باشند که مدل به ارزشهای مورد نظرشان پایبند خواهد ماند.
تحلیل ارزشهای هوش مصنوعی کلود در مقیاس گسترده
برای پاسخ به این چالشها، Anthropic سیستم پیشرفتهای طراحی کرده است که به طور ناشناس مکالمات کاربران را تحلیل میکند. این سیستم ابتدا اطلاعات شناسایی کاربران را حذف کرده و سپس از مدلهای زبانی برای خلاصهسازی تعاملات و استخراج ارزشهایی که کلود در این مکالمات بیان کرده است استفاده میکند. این فرآیند به محققان این امکان را میدهد که بدون به خطر انداختن حریم خصوصی کاربران، یک طبقهبندی جامع از ارزشهای مطرح شده توسط کلود بسازند.
در این مطالعه، بیش از ۷۰۰,۰۰۰ مکالمه از کاربران Claude.ai طی یک هفته در فوریه ۲۰۲۵ مورد تحلیل قرار گرفت که شامل مدل Claude 3.5 Sonnet بود. پس از فیلتر کردن مکالمات بیبار ارزشی، ۳۰۸,۲۱۰ مکالمه برای تحلیل دقیق انتخاب شد.
ساختار سلسلهمراتبی ارزشها
تحلیلها نشان داد که کلود پنج دستهبندی اصلی از ارزشها را در تعاملات خود ابراز میکند که به ترتیب بیشترین فراوانی به این شرح است:
-
ارزشهای عملی: تأکید بر کارآمدی، مفید بودن و دستیابی به اهداف.
-
ارزشهای معرفتی (اپیستمیک): مرتبط با دانش، حقیقت، دقت و صداقت فکری.
-
ارزشهای اجتماعی: تأکید بر تعاملات فردی، اجتماع، انصاف و همکاری.
-
ارزشهای حفاظتی: متمرکز بر ایمنی، امنیت، رفاه و جلوگیری از آسیب.
-
ارزشهای شخصی: مرتبط با رشد فردی، خودمختاری، اصالت و خوداندیشی.
این دستهبندیها به زیرمجموعههای دقیقتری تقسیم میشوند که شامل مفاهیمی مانند «تفکر انتقادی» و «حرفهای بودن» هستند که بهویژه در پاسخهای کلود برجسته میشوند. جالب است که بیشتر این ارزشها با اهداف اصلی شرکت Anthropic از جمله مفید بودن، صداقت و بیضرر بودن همراستاست.
تفاوتهای زمینهای و چالشهای اخلاقی
با این وجود، در برخی موارد، کلود به ارزشهایی اشاره کرده است که با اصول آموزشی اولیهاش در تضاد قرار میگیرند. نمونههایی از این تضادها شامل «سلطهجویی» و «بیاخلاقی» بودند. به گفته Anthropic، احتمالاً این موارد ناشی از تلاشهای کاربران برای دور زدن محافظهای رفتاری مدل بوده است، به اصطلاح «jailbreak» کردن آن.
این پدیده نشان میدهد که مدلهای هوش مصنوعی ممکن است در برابر تلاشهایی که به منظور سوءاستفاده از آنها صورت میگیرد آسیبپذیر باشند. از این رو، این روش جدید برای نظارت بر رفتار کلود میتواند به عنوان یک سیستم هشداردهنده برای شناسایی چنین تلاشهایی عمل کند.
نتایج تحلیل: انعطافپذیری در واکنش به ارزشهای مختلف
در تحلیل دقیقتر، کلود روشهای متفاوتی را در تعامل با ارزشهای ابراز شده توسط کاربران نشان داد:
-
بازتاب/حمایت قوی (۲۸.۲٪): کلود اغلب ارزشهای ارائهشده توسط کاربر را بازتاب میدهد یا به شدت تأیید میکند. این میتواند به تقویت همدلی کمک کند، اما در برخی موارد ممکن است به چاپلوسی یا تایید بدون نقد تبدیل شود.
-
بازتعریف (۶.۶٪): در مواقعی، به ویژه در مشاورههای روانشناختی، کلود دیدگاههای جایگزین را معرفی میکند.
-
مقاومت قوی (۳.۰٪): در برخی موارد، کلود به طور فعال در برابر ارزشهای مضر یا غیراخلاقی مقاومت میکند، که ممکن است نمایانگر ارزشهای عمیقتر و ثابتتر آن باشد.
محدودیتها و چشمانداز آینده
در نهایت، Anthropic به محدودیتهای این روش اذعان دارد. فرآیند تعریف و دستهبندی «ارزشها» امری پیچیده و گاهی ذهنی است و استفاده از خود کلود برای این کار ممکن است باعث سوگیریهای ناخواسته شود. این روش همچنین نمیتواند جایگزینی برای ارزیابیهای پیش از استقرار مدلها باشد، اما با تحلیل دادههای گسترده و تعاملات زنده، میتواند مشکلاتی را شناسایی کند که تنها در این نوع تعاملات آشکار میشوند.
این مطالعه تأکید میکند که درک دقیق از ارزشهایی که مدلهای هوش مصنوعی ابراز میکنند، برای همراستا کردن این مدلها با اهداف انسانی ضروری است. Anthropic همچنین یک دیتاست باز منتشر کرده است تا به پژوهشگران دیگر این امکان را بدهد که تحلیلهای بیشتری انجام دهند و شفافیت بیشتری در زمینه ارزشهای هوش مصنوعی به وجود آورند.
در نهایت، این تحقیقات گامی مهم در جهت پیشبرد اخلاقیات در طراحی و استفاده از مدلهای هوش مصنوعی است و میتواند به بهبود تعاملات انسانی-هوش مصنوعی کمک کند.
بخوانید: دوره 18 قسمتی هوش مصنوعی مایکروسافت


