شنبه 8 اردیبهشت 1403

این پلتفرم عملکرد چت‌بات‌های هوش مصنوعی مقایسه می‌کند

65654434556 - این پلتفرم عملکرد چت‌بات‌های هوش مصنوعی مقایسه می‌کند

وجود چت‌بات‌های زیاد هوش مصنوعی و متفاوت باعث شده تا انتخاب بهترین گزینه ممکن سخت باشد و این پلفترم می‌تواند مقایسه آن‌ها را ساده کند.

از زمان محبوبیت ChatGPT در نوامبر گذشته، چت‌بات های زیاد دیگری نیز راه‌اندازی شده‌اند که به‌عنوان رقیب ChatGPT عمل می‌کنند. این چت‌بات‌ها از نظر LLM (مدل زبانی بزرگ)، قیمت، رابط کاربری، دسترسی به اینترنت و موارد دیگری متفاوت هستند و برای آسان‌ترکردن مقایسه آن‌ها، یک سازمان تحقیقاتی به نام Model Systems Organization که توسط دانشجویان و اساتید «دانشگاه کالیفرنیا، برکلی» تأسیس شده، از Chatbot Arena رونمایی کرده است.

Chatbot Arena یک پلتفرم بنچمارک‌گیری برای مدل‌های زبانی بزرگ است که به کاربران اجازه می‌دهد چت‌بات‌ها را با یکدیگر مقایسه کند. برای آزمایش چت‌بات‌ها با این پلتفرم، کاربران ابتدا باید یک درخواست را ارائه کنند و سپس دو مدل به‌طور تصادفی پاسخ‌هایی را ارائه می‌کنند و کاربران بدون اینکه از LLM هر مدل اطلاعی داشته باشند، بهترین پاسخ را انتخاب می‌کنند.

پس از اینکه کاربران بهترین پاسخ ارائه‌شده توسط یکی از دو چت‌بات را انتخاب کردند، نام آن نمایش داده می‌شود.

به‌عنوان مثال، در آزمایش زیر از دو چت‌بات خواسته شده است تا یک نامه درخواست مرخصی بنویسد. پس از ارائه پاسخ‌های متفاوت و انتخاب گزینه موردنظر، متوجه می‌شوید که یکی از چت‌بات‌ها koala-13b و دیگری vicuna-13b نام دارد.

برترین چت بات

سپس در صفحه تابلوی امتیازات (Leaderboard)، رتبه‌بندی تمام LLMها نمایش داده می‌شود که نتایج آزمایش کاربران تأثیر زیادی بر آن دارد و از سیستم رده‌بندی Elo استفاده می‌کند که در زمینه محاسبه سطح مهارتی بازیکنان رشته‌های ورزشی کاربرد دارد. طبق این صفحه، درحال‌حاضر GPT-4 از OpenAI پیشرفته‌ترین LLM محسوب می‌شود و امتیاز Elo آن 1227 است. Claude-v1 که توسط Anthropic توسعه یافته، با امتیاز 1227 در جایگاه دوم قرار دارد.

766766776 - این پلتفرم عملکرد چت‌بات‌های هوش مصنوعی مقایسه می‌کند

در جایگاه هشتم این لیست نیز نام PaLM-Chat-Bison-001 دیده می‌شود که یکی از زیرمجموعه‌های PaLM 2 ، مدل زبانی بزرگ هوش مصنوعی Bard گوگل است.

علاوه‌براین، وب‌سایت ChatBot Arena بخش دیگری نیز دارد که از طریق آن می‌توانید یک چت‌بات مشخص را آزمایش کنید یا دو مدل مشخص را با یکدیگر مقایسه کنید. اگر می‌خواهید LLM خاصی را آزمایش کنید، این ویژگی می‌تواند مفید باشد.

همچنین بررسی کنید ...

وایبر با یک ویژگی نوآورانه، گوی سبقت را از تلگرام و واتساپ ربود!

در دنیای پررقابت پیام‌رسان‌ها، وایبر با معرفی یک ویژگی جدید و غیرمنتظره، رقبای قدرتمند خود …