بیانیه شرکت Open AI:

GPT-4o چاپلوس بود؛ اصلاحش کردیم

23 خرداد, 1405
06:19

سمیه مهدوی پیام

شرکت آمریکایی اوپن‌ای‌آی (Open AI) که ابزار هوش مصنوعی چت‌جی‌پی‌تی را عرضه و آن را توسعه داد، اخیرا با انتشار بیانیه‌ای اعلام کرد که ما به‌روزرسانی مدل GPT-4o در ChatGPT را بازگردانده‌ایم؛ بنابراین کاربران، اکنون از نسخه‌ قدیمی‌تر با رفتار متعادل‌تر استفاده می‌کنند. نسخه‌ای که کنار گذاشته شد، بیش از حد تمجیدگرایانه و موافق بود؛ رفتاری که اغلب با عنوان «چاپلوسانه»، از آن یاد می‌شود.

شرکت اوپن‌ای‌آی که ۳۰ نوامبر ۲۰۲۲، نمونه اولیه چت‌جی‌پی‌تی را ارائه داد، در ادامه این تصمیم اعلام کرد ما در حال آزمایش راهکارهای جدید برای رفع این مشکل هستیم. نحوه جمع‌آوری و به‌کارگیری بازخورد کاربران را بازنگری می‌کنیم تا رضایت بلندمدت آنها در اولویت قرار گیرد. ضمنا ویژگی‌های بیشتری برای شخصی‌سازی در حال ارائه است تا کاربران، کنترل بیشتری بر رفتار چت‌جی‌پی‌تی داشته باشند. در ادامه توضیح می‌دهیم چه اتفاقی افتاد، چرا اهمیت دارد و چگونه با مسئله چاپلوسی برخورد می‌کنیم.

چه اتفاقی افتاد؟

ما در به‌روزرسانی اخیر GPT-4o، با هدف بهبود شخصیت پیش‌فرض مدل، تغییراتی اعمال کردیم تا طبیعی‌تر و مؤثرتر در طیف گسترده‌ای از وظایف عمل کند.

در طراحی رفتار مدل، کار را با اصول پایه و دستورالعمل‌هایی که در «مشخصات مدل» آمده، آغاز می‌کنیم. همچنین مدل‌ها را با استفاده از نشانه‌هایی مانند بازخوردهای کاربران، مانند رأی مثبت یا منفی روی پاسخ‌ها، آموزش می‌دهیم تا این اصول را در عمل به‌کار ببرند.

در به‌روزرسانی، تمرکز بیش از حد بر بازخوردهای کوتاه‌مدت بود و به این نکته توجه کافی نشد که تعامل کاربران با ChatGPT در طول زمان تغییر می‌کند. در نتیجه، GPT-4o به سمت پاسخ‌هایی متمایل شد که بیش از اندازه حمایت‌کننده بودند، اما صادقانه نبودند.

چرا این موضوع اهمیت دارد؟

شخصیت پیش‌فرض چت‌جی‌پی‌تی، نقش بسیار مهمی در تجربه و اعتماد کاربران به آن ایفا می‌کند. پاسخ‌هایی با لحن چاپلوسانه می‌توانند باعث احساس ناراحتی، دلزدگی یا حتی اضطراب شوند. ما در این زمینه، کوتاهی کردیم و اکنون در حال تلاش برای اصلاح آن هستیم. هدف ما این است که ChatGPT، در کشف ایده‌ها، تصمیم‌گیری و ترسیم مسیرهای تازه به شما کمک کند.

ما شخصیت پیش‌فرض چت‌جی‌پی‌تی را به‌گونه‌ای طراحی کرده‌ایم که با مأموریت ما همسو باشد: مفید، حامی و محترم نسبت به ارزش‌ها و تجربه‌های متنوع. با این حال، هریک از این ویژگی‌های مثبت، مانند تلاش برای مفید بودن یا حمایت‌گری، می‌توانند پیامدهای ناخواسته‌ای مانند چاپلوسی را به همراه داشته باشند.

از آنجا که هر هفته ۵۰۰ میلیون نفر، از هر فرهنگ و زمینه‌ای، از این ابزار هوش مصنوعی استفاده می‌کنند، یک رفتار پیش‌فرض واحد نمی‌تواند پاسخگوی همه سلیقه‌ها باشد.

چگونه با مسئله چاپلوسی برخورد می‌کنیم؟

فراتر از بازگرداندن به‌روزرسانی اخیر GPT-4o، ما گام‌های بیشتری برای هم‌راستا کردن دوباره رفتار مدل برداشته‌ایم:

ما در حال بازبینی و اصلاح تکنیک‌های اصلی آموزش و دستورهای سیستمی هستیم تا مدل را به ‌طور صریح از رفتار چاپلوسانه دور کنیم.
در حال ایجاد محدودیت‌ بیشتر برای افزایش صداقت و شفافیت مدل هستیم؛ اصولی که در «مشخصات مدل» آمده‌اند.
راه‌های بیشتری را برای اینکه کاربران بتوانند پیش از عرضه نسخه جدید، مدل را آزمایش و بازخورد مستقیم ارائه دهند گسترش می‌دهیم.
ارزیابی‌های خود را بر پایه مشخصات مدل و تحقیقات مداوم توسعه می‌دهیم تا بتوانیم در آینده، فراتر از مشکل چاپلوسی، سایر نواقص را نیز شناسایی کنیم.

ما همچنین بر این باوریم کاربران باید کنترل بیشتری بر نحوه رفتار چت‌جی‌پی‌تی داشته باشند و تا جایی که ایمن و امکان‌پذیر باشد، رفتار پیش‌فرض مدل را مطابق میل خود تنظیم کنند.

امروز کاربران می‌توانند از طریق «دستورالعمل‌های سفارشی» مشخص کنند که ChatGPT چگونه رفتار کند. ما در حال ساخت روش‌های ساده‌تر برای انجام این کار مانند امکان ارائه بازخورد لحظه‌ای برای تأثیرگذاری مستقیم بر گفت‌وگو یا انتخاب بین شخصیت‌های پیش‌فرض مختلف هستیم.

ما همچنین در حال بررسی راه‌هایی هستیم تا بازخورد گسترده‌تر و مردمی‌تر را در طراحی رفتار پیش‌فرض ChatGPT دخیل کنیم. امیدواریم این بازخوردها به ما کمک کند تا ارزش‌های فرهنگی متنوع در سراسر جهان را بهتر درک و منعکس کنیم و بفهمیم که شما مایلید ChatGPT چگونه رشد کند؛ نه فقط در هر تعامل جداگانه، بلکه در گذر زمان.

از همه کسانی که در این‌باره نظر داده‌اند، سپاسگزاریم. بازخورد شما به ما کمک می‌کند ابزارهای بهتر و مفیدتر برای‌تان بسازیم.