وجود چتباتهای زیاد هوش مصنوعی و متفاوت باعث شده تا انتخاب بهترین گزینه ممکن سخت باشد و این پلفترم میتواند مقایسه آنها را ساده کند.
از زمان محبوبیت ChatGPT در نوامبر گذشته، چتبات های زیاد دیگری نیز راهاندازی شدهاند که بهعنوان رقیب ChatGPT عمل میکنند. این چتباتها از نظر LLM (مدل زبانی بزرگ)، قیمت، رابط کاربری، دسترسی به اینترنت و موارد دیگری متفاوت هستند و برای آسانترکردن مقایسه آنها، یک سازمان تحقیقاتی به نام Model Systems Organization که توسط دانشجویان و اساتید «دانشگاه کالیفرنیا، برکلی» تأسیس شده، از Chatbot Arena رونمایی کرده است.
Chatbot Arena یک پلتفرم بنچمارکگیری برای مدلهای زبانی بزرگ است که به کاربران اجازه میدهد چتباتها را با یکدیگر مقایسه کند. برای آزمایش چتباتها با این پلتفرم، کاربران ابتدا باید یک درخواست را ارائه کنند و سپس دو مدل بهطور تصادفی پاسخهایی را ارائه میکنند و کاربران بدون اینکه از LLM هر مدل اطلاعی داشته باشند، بهترین پاسخ را انتخاب میکنند.
پس از اینکه کاربران بهترین پاسخ ارائهشده توسط یکی از دو چتبات را انتخاب کردند، نام آن نمایش داده میشود.
بهعنوان مثال، در آزمایش زیر از دو چتبات خواسته شده است تا یک نامه درخواست مرخصی بنویسد. پس از ارائه پاسخهای متفاوت و انتخاب گزینه موردنظر، متوجه میشوید که یکی از چتباتها koala-13b و دیگری vicuna-13b نام دارد.
برترین چت بات
سپس در صفحه تابلوی امتیازات (Leaderboard)، رتبهبندی تمام LLMها نمایش داده میشود که نتایج آزمایش کاربران تأثیر زیادی بر آن دارد و از سیستم ردهبندی Elo استفاده میکند که در زمینه محاسبه سطح مهارتی بازیکنان رشتههای ورزشی کاربرد دارد. طبق این صفحه، درحالحاضر GPT-4 از OpenAI پیشرفتهترین LLM محسوب میشود و امتیاز Elo آن 1227 است. Claude-v1 که توسط Anthropic توسعه یافته، با امتیاز 1227 در جایگاه دوم قرار دارد.
در جایگاه هشتم این لیست نیز نام PaLM-Chat-Bison-001 دیده میشود که یکی از زیرمجموعههای PaLM 2 ، مدل زبانی بزرگ هوش مصنوعی Bard گوگل است.
علاوهبراین، وبسایت ChatBot Arena بخش دیگری نیز دارد که از طریق آن میتوانید یک چتبات مشخص را آزمایش کنید یا دو مدل مشخص را با یکدیگر مقایسه کنید. اگر میخواهید LLM خاصی را آزمایش کنید، این ویژگی میتواند مفید باشد.