محققان OpenAI: علت اصلی توهم هوش مصنوعی در شیوه ارزیابی است
محققان شرکت OpenAI در تازهترین مقاله خود یکی از بزرگترین چالشهای مدلهای زبانی را بررسی کردهاند: پدیده «توهم» یا ارائه پاسخهای نادرست با اطمینان بالا. به گفته آنها، دلیل اصلی این مشکل در شیوههای استاندارد آموزش و ارزیابی مدلها نهفته است؛ جایی که حدسزدن حتی اگر اشتباه باشد، بهتر از اعتراف به ندانستن ارزیابی میشود.
به گزارش تهران فردا، توهم یا Hallucination زمانی رخ میدهد که یک مدل زبانی اطلاعات غلط را بهعنوان واقعیت بیان میکند. این موضوع در پیشرفتهترین مدلها، از جمله GPT-5 و Claude نیز دیده میشود. پژوهشگران OpenAI میگویند سیستم فعلی ارزیابی، مدلها را به حدسزدن تشویق میکند زیرا گفتن «نمیدانم» هیچ امتیازی ندارد، در حالی که یک پاسخ شانسی ممکن است درست از آب درآید.
آنها این وضعیت را به آزمون چندگزینهای تشبیه میکنند: وقتی پاسخ را نمیدانید، شانس گرفتن نمره با حدس وجود دارد، اما خالی گذاشتن برگه مساوی با نمره صفر است. بنابراین، مدلهای زبانی برای کسب امتیاز بیشتر ترجیح میدهند همیشه پاسخی ارائه دهند.
محققان در این مقاله نوشتند: «انسانها در زندگی واقعی ارزش ابراز عدم قطعیت را درک میکنند، اما مدلهای زبانی معمولاً در آزمونهایی ارزیابی میشوند که عدم قطعیت را جریمه میکنند.»

مقایسه عملکرد دو مدل OpenAI
برای روشنتر شدن موضوع، OpenAI دو مدل خود را مقایسه کرده است:
-
gpt-5-thinking-mini (مدل جدیدتر): نرخ امتناع از پاسخگویی ۵۲ درصد، دقت ۲۲ درصد و نرخ توهم ۲۶ درصد.
-
o4-mini (مدل قدیمیتر): نرخ امتناع ۱ درصد، دقت ۲۴ درصد و نرخ توهم ۷۵ درصد.
این مقایسه نشان میدهد که مدل جدیدتر با وجود امتناع بیشتر از پاسخگویی، خطای کمتری دارد، در حالی که مدل قدیمیتر به دلیل پاسخدادن مداوم، توهمات بیشتری ایجاد میکند.
ریشه توهم در مرحله آموزش
به گفته محققان، منشأ اصلی توهم در مرحله «پیشآموزش» است؛ جایی که مدلها با پیشبینی کلمه بعدی از میان میلیاردها متن اینترنتی یاد میگیرند. الگوهایی مانند گرامر یا املای کلمات بهراحتی آموخته میشوند، اما حقایق خاص و کمتکرار مثل تاریخ تولد یک فرد، الگویی مشخص ندارند. در این شرایط، مدل به جای دسترسی به حقیقت ثبتشده، ترکیب محتملی از کلمات را حدس میزند و همین موضوع توهم ایجاد میکند.
راهکار پیشنهادی
پژوهشگران OpenAI راهحل را در بازطراحی معیارهای ارزیابی میدانند. آنها پیشنهاد میکنند سیستم امتیازدهی باید طوری تغییر کند که خطاهای همراه با اطمینان بالا جریمه بیشتری نسبت به ابراز عدم قطعیت داشته باشند. به اعتقاد آنها، این تغییر میتواند اعتماد به مدلهای هوش مصنوعی را افزایش دهد.
بدون نظر! اولین نفر باشید