مطالعات نشان می دهد حتی بهترین مدل های هوش مصنوعی نیز توهم می زنند؟

همه مدل های هوش مصنوعی مولد توهم می زنند، از Gemini گوگل گرفته تا کلود از Anthropic تا آخرین نسخه مخفی از GPT-4o OpenAI. به عبارت دیگر، مدل ها راویان غیر قابل اعتماد هستند. گاهی اوقات به جلوه های خنده دار، گاهی اوقات به طور مشکل ساز.
اما همه مدل ها همه چیز را با سرعت یکسان تشکیل نمی دهند و انواع دروغ هایی که آنها بیان می کنند بستگی به این دارد که در معرض کدام منابع اطلاعاتی قرار گرفته اند.

یک مطالعه اخیر توسط محققان کرنل، دانشگاه های واشنگتن و واترلو موسسه تحقیقاتی غیرانتفاعی AI2 به دنبال محک زدن توهمات با مدل های راستی آزمایی مانند GPT-4O در برابر منابع معتبر در موضوعات مختلف از قانون و بهداشت گرفته تا تاریخ و جغرافیا بود. آنها دریافتند که هیچ مدلی در همه موضوعات عملکرد فوق العاده خوبی ندارد و مدل هایی که کمترین توهم را داشتند تا حدی به این دلیل که از پاسخ دادن به سوالاتی که در غیر این صورت اشتباه می کردند امتناع کردند.

ونتینگ ژائو، دانشجوی دکترا در کرنل و یکی از نویسندگان این تحقیق، به TechCrunch گفت: «مهمترین نکته از کار ما این است که هنوز نمی توانیم به طور کامل به خروجی های نسل های مدل اعتماد کنیم. در حال حاضر، حتی بهترین مدل ها نیز می توانند متن بدون توهم را تنها در حدود ۳۵ درصد مواقع تولید کنند.»

تلاش های آکادمیک دیگری برای بررسی "واقعیت" مدل ها انجام شده است، از جمله یکی توسط یک تیم جداگانه وابسته به AI2. اما ژائو خاطر نشان می کند که این آزمایش های قبلی از مدل ها سوالاتی پرسیده اند که پاسخ هایی به راحتی در ویکی پدیا یافت می شود - با توجه به اینکه اکثر مدل ها بر روی داده های ویکی پدیا آموزش دیده اند، دقیقاً سخت ترین پرسیدن نیست.

برای چالش برانگیز تر کردن معیار خود و برای انعکاس دقیقتر انواع سوالاتی که مردم از مدل ها می پرسند. محققان موضوعاتی را در سراسر وب شناسایی کردند که مرجع ویکی پدیا ندارند. کمی بیش از نیمی از سؤالات موجود در تست آنها را نمی توان با استفاده از ویکی پدیا پاسخ داد (آنها شامل برخی از سوالات منبع ویکی پدیا برای اندازه گیری خوب بودند) و به موضوعاتی از جمله فرهنگ، جغرافیا، نجوم، فرهنگ عامه، امور مالی، پزشکی، علوم کامپیوتر و افراد مشهور می پردازند.

بنابراین همه اینها به چه معناست - و پیشرفت هایی که فروشندگان وعده داده اند کجاست؟

خوب، ما نمی خواهیم فروشندگان را برای اغراق در ادعاهای خود قرار دهیم. اما یک برداشت خیرخواهانه تر این است که معیارهایی که آنها استفاده می کنند برای این منظور مناسب نیستند. همانطور که قبلا در مورد آن نوشتیم، بسیاری از ارزیابی های هوش مصنوعی، اگر نگوییم بیشتر، گذرا و عاری از زمینه های مهم هستند و محکوم به قربانی شدن قانون گودهارت هستند.

صرف نظر از این، ژائو می گوید که انتظار دارد موضوع " توهمات برای مدت طولانی ادامه داشته باشد. "

او گفت: " نتایج تجربی در مقاله ما نشان می دهد که علیرغم وعده روش های خاص برای کاهش یا از بین بردن توهمات، بهبود واقعی قابل دستیابی با این روش ها محدود است. " علاوه بر این تجزیه و تحلیل ما نشان می دهد که حتی دانش موجود در اینترنت اغلب می تواند متناقض باشد، تا حدی به این دلیل که داده های آموزشی نوشته شده توسط انسان نیز می تواند حاوی توهم باشد."

یک راه حل موقت می تواند به سادگی برنامه ریزی مدل هایی باشد که اغلب از پاسخ دادن امتناع می کنند. معادل فنی به گفتن یک فرد می داند که آن را از بین ببرد.

در آزمایش محققان، کلود 3 هایکو تنها به حدود ۷۲ درصد از سوالاتی که پرسیده شده بود پاسخ داد و تصمیم گرفت از بقیه خودداری کند. وقتی رای ممتنع را در نظر بگیریم، کلود ۳ هایکو در واقع واقعی ترین مدل از همه آنها بود. حداقل به این معنا که کمترین دروغ را می گفت.

اما آیا مردم از مدلی استفاده می کنند که به بسیاری از سوالات پاسخ نمی دهد؟ ژائو می گوید فروشندگان باید بیشتر وقت و تلاش خود را بر تحقیقات کاهش توهم متمرکز کنند. او ادعا می کند که از بین بردن توهمات به طور کامل ممکن نیست، اما می توان آنها را از طریق راستی آزمایی و استناد انسان در حلقه در طول توسعه یک مدل کاهش داد.

ژائو افزود: «سیاست ها و مقررات باید تدوین شوند تا اطمینان حاصل شود که کارشناسان انسانی همیشه در فرآیند تأیید و اعتبار سنجی اطلاعات تولید شده توسط مدل های هوش مصنوعی مولد مشارکت دارند.» "هنوز فرصت های متعددی برای تأثیرات قابل توجه در این زمینه وجود دارد، مانند توسعه ابزارهای پیشرفته راستی آزمایی برای هر متن آزاد، ارائه استناد به محتوای واقعی و ارائه اصلاحات برای متون توهم هوش مصنوعی."

مطالب مرتبط

4o | Anthropic | Gemini | Google | GPT | OpenAI | بهترین | توهم | زنند؟ | گوگل | مدل | مصنوعی | می | نیز | های | هوش |