مقدمه
مدلهای زبانی بزرگ، نوعی الگوریتم هوش مصنوعی هستند که از شبکههای عصبی با تعداد پارامتر زیاد جهت درک زبان انسان و متون استفاده میکنند. این مدلها قادر هستند انسان را در تسریع و تسهیل امور کمک کرده و پاسخ صحیحی در مسائل مختلف به او ارائه کنند. در بخش بررسی مدلهای زبانی بزرگ به معرفی و شرح مدلهای زبانی بزرگ (LLMs) پرداختیم و نحوه عملکرد آنها را توضیح دادیم. در این بخش قصد داریم بهترین مدلهای زبانی بزرگ را مقایسه کنیم و تفاوتهای کلیدی بین آنها را بررسی نماییم.
در چند سال اخیر شرکتهای بزرگی مانند OpenAI، گوگل، Metaو… اقدام به ارائه مدلهای زبانی بزرگ با کیفیتهای متفاوت کردهاند . اینکه شما چه مدلی را انتخاب کنید بستگی به هدفی که از استفاده دارید، داده ورودی شما ، خروجی مورد نظرتان و هزینهای که حاضرید برای آن بپردازید، دارد. LLM ها بر اساس معماری، دادههایی که بر روی آن آموزش دیدهاند، موارد استفاده و … در دستههای متفاوتی قرار میگیرند و ویژگیهایی دارند. شناخت این تفاوتها منجر به انتخاب مدل صحیح برای کاربرد مورد نظر و همچنین ارزیابی صحیح آن میشود.
معرفی بهترین و جدیدترین مدلهای زبانی بزرگ
چندین مدل زبانی بزرگ پیشرفته ظهور کردهاند که چشمانداز هوش مصنوعی را متحول ساختهاند. برخی از بهترین آنها که در این بخش به معرفی آنها پرداختهایم به شرح زیر هستند:
GPT-4o , GPT-4o mini, Llama 3.1 405B, Llama 3.1 70B, Llama 3.1 8B, Gemini 1.5 Pro, Gemini 1.5 Flash, Claude 3.5 Sonnet, Claude 3 Haiku
GPT-4o
در تاریخ ۱۳ مهٔ ۲۰۲۴، OpenAI از معرفی GPT-4o خبر داد، که به طور گستردهای به عنوان یک تغییر انقلابی در دنیای هوش مصنوعی شناخته میشود. «o» در GPT-4o مخفف "Omni" است که به معنای «همه» یا «تمام» میباشد. این مدل قادر است ورودیها و خروجیهایی بهصورت متن، صدا، و تصویر را پردازش کند. مدل پیشین GPT-4o، مدل GPT-4-turbo-2024-04-09 بود که در تاریخ ۹ آوریل ۲۰۲۴ منتشر شد. مدل GPT-4o در سرعت، قابلیت های چندوجهی(multimodal) و مقرون به صرفه بودن بهبودهایی داشته است.
GPT-4o به عنوان یک مدل چندوجهی شناخته شده است، از این جهت که توانایی پردازش و تولید محتوا در قالب متن، صدا و تصویر را دارد. کاربران میتوانند ترکیبی از متن، صدا، تصویر و ویدیو را وارد کرده و پاسخهایی بهصورت متن، تصویر و صدا دریافت کنند. در مقابل، GPT-4 عمدتاً بر روی متن و تا حدی پردازش تصویر تمرکز داشت و فاقد پشتیبانی بومی برای ورودیهای صوتی بود.
یکی از بهبودهای چشمگیر در GPT-4o، سرعت آن است. این مدل زمان پاسخدهی به مراتب سریعتری نسبت به GPT-4 دارد و حتی از GPT-4 Turbo نیز عملکرد بهتری نشان میدهد. GPT-4o برای تعاملات در زمان واقعی طراحی شده است و میتواند به ورودیهای صوتی در کمتر از ۲۳۲ میلیثانیه پاسخ دهد که با زمان واکنش انسان قابل مقایسه است. در حالی که GPT-4 برای پردازش متن بهینهسازی شده بود، ولی تأکید کمتری بر سرعت و تعاملات در زمان واقعی داشت، امری که در GPT-4o بهبود یافته است.
معرفی ChatGPT-4o، یا GPT-4 Omni، به طور چشمگیری ساختار هزینهای مدلهای زبانی را تغییر داده است. با قیمتی معادل ۵ دلار به ازای هر یک میلیون توکن ورودی و ۱۵ دلار به ازای هر یک میلیون توکن خروجی، GPT-4 Omni صرفهجویی قابلتوجهی نسبت به GPT-4 Turbo ارائه میدهد، که به ترتیب ۱۰ دلار و ۳۰ دلار برای همین مقدار هزینه دارد.
GPT-4o از تعاملات طبیعیتر و گفتوگومحورتر پشتیبانی میکند، بهگونهای که کاربران میتوانند احساسات خود را به اشتراک بگذارند و در یک گفتوگوی شبیه به مکالمات انسانی شرکت کنند. این مدل همچنین قابلیتهای جدیدی برای تعاملات صوتی و ویدیویی معرفی کرده است که تجربهای فراگیرتر را فراهم میآورد.
GPT-4o mini
ChatGPT-4o Mini نسخهای بهینهسازی شده از GPT-4 شرکت OpenAI است که با هدف ارائه قابلیتهای قدرتمند پردازش زبان با مصرف منابع و هزینه کمتر طراحی شده است. این مدل برای کسبوکارهای کوچک، مؤسسات آموزشی، یا توسعهدهندگان فردی که به قابلیتهای قدرتمند هوش مصنوعی نیاز دارند اما با محدودیتهای بودجهای مواجه هستند، کاملاً مناسب است. اگرچه در مقایسه با نسخه استاندارد GPT-4 عملکرد کمتری دارد، اما همچنان برای وظایفی مانند تولید متن و مکالمات ساده مؤثر است. دلیل اصلی محبوبیت آن، تعادل بین مقرونبهصرفه بودن و کارایی است که تکنولوژی پیشرفته هوش مصنوعی را در دسترس طیف گستردهتری از کاربران قرار میدهد.
GPT-4o mini نسخهای سادهتر از GPT-4o است که برای محیطهای با منابع محدود طراحی شده است. مشابه GPT-4o، قادر است ورودیهای متنی طولانیتری را مدیریت کند.
این مدل از ورودی و خروجی متن، تصویر و صدا پشتیبانی میکند، اگرچه ممکن است در مقایسه با GPT-4o محدودیتهایی داشته باشد.
Llama 3.1 405B
در روز سهشنبه، 23 ژوئیه 2024، متا Llama 3.1، آخرین نسخه از سری Llama مدلهای زبان بزرگ (LLM) را معرفی کرد. Llama مخفف Large Language Model Meta AI میباشد. این مدل با 450 میلیارد پارامتر بزرگترین مدل (بعد از Nemotron-4-340B-Instruct که توسط NVIDIA ارائه شده بود) تا زمان خودش بوده است. Llama 3.1 چند زبانه است و دارای طول زمینه به طور قابل توجهی طولانی تر از 128K، استفاده از ابزار پیشرفته و قابلیت استدلال قوی تر هستند. این ورژن آپدیتی بر Llama ورژن 3 میباشد.
از ویژگیهای بخصوص Llama 3.1 میتوان به قابلیت چند زبانه بودن، پشتیبانی از ورودی بزرگتر(context window) و توافقنامه لایسنس مدلهای متن باز اشاره کرد. بزرگترین بروزرسانی از Llama 3 به Llama 3.1 پشتیبانی بهتر از زبانهای غیر انگلیسی است. در مدل پیشین 95 درصد دادههای آموزشی به زبان انگلیسی بودهاند اما در مدل جدید از دادههای زبانهای دیگر نیز به نسبت خوبی استفاده شده است. در نسخه قدیمی تنها 8هزار توکن به عنوان تاریخچه و ورودی مدل لحاظ میشد که به نسبت سایر LLM ها عدد کوچکی بود. در نسخه 3.1 این عدد به 128 هزار توکن ارتقا یافت که رقابت آن با سایر مدلها را نیز میسر میسازد. این یک بهبود چشمگیر برای Llama محسوب میشود زیرا در مسائلی مانند خلاصهسازی متون، ایجاد کدهایی که دارای مبنای کد بسیار طولانی هستند و یا چتباتهای با تاریخچه طولانی و پر اهمیت، وجود چنین قابلیتی بسیار مهم میباشد که مدل بتواند ورودی طولانی را با سرعتی مناسب تحلیل کند. همچنین مدلهای Llama 3.1 تحت قرارداد مجوز مدلهای متن باز سفارشی متا در دسترس هستند. این مجوز، به محققان، توسعهدهندگان و کسبوکارها اجازه میدهد تا از مدل برای کاربردهای پژوهشی و تجاری استفاده کنند.
در یک بروزرسانی مهم، متا همچنین محدوده مجوز را گسترش داده است تا توسعهدهندگان بتوانند از خروجیهای مدلهای Llama، از جمله مدل 405B، برای بهبود سایر مدلها استفاده کنند. بهطور کلی، این بدان معناست که هر کسی میتواند از قابلیتهای مدل برای پیشبرد کار خود، ایجاد برنامههای جدید و کشف امکانات هوش مصنوعی استفاده کند، مشروط بر آنکه به شرایط مندرج در توافقنامه پایبند باشد.
Llama 3.1 70B, 8B
این دو مدل نیز همزمان با Llama 3.1 405B توسط شرکت متا ارائه شدند و تفاوتشان در تعداد پارامترهای کمتر (به ترتیب 8 میلیارد و 70 میلیارد پارامتر) میباشد. اما تمامی مزایایی که در بخش قبل گفته شد را شامل میشوند. به دلیل تعداد پارامتر کمتر، از لحاظ کیفیت نسبت به Llama 3.1 405B ضعیفتر هستند ولی برای بسیاری از مسائل کافی و مقرون به صرفه میباشند.
Gemini
جمینای نیز یک مدل زبانی بزرگ و شناخته شده میباشد که توسط Google DeepMind در دسامبر 2023 ارائه شده است و بر پایه مدلهای موفق پیشین (LaMDA و PaLM 2) بنا شده است. آنچه جمینای را متمایز میکند، طبیعت چندوجهی(multimodal) آن است. برخلاف مدلهای زبانی قبلی که عمدتاً بر دادههای متنی آموزش دیده بودند، جمینای بهگونهای طراحی شده است که بتواند بهطور همزمان انواع مختلف دادهها از جمله متن، تصاویر، صدا، ویدئو و حتی کدهای کامپیوتری را پردازش و تولید کند. این رویکرد چندوجهی به جمینای امکان میدهد که محتوایی را درک و تولید کند که بهصورت معنایی و در زمینههای مختلف از این دادهها استفاده میکند.
Gemini 1.5 Pro
نسخه 1.0 جمینای به عنوان اولین نسخه از مدلهای چند وجهی گوگل در دسامبر 2023 در سه سایز با نامهای Ultra، Pro و Nano ارائه شد. چند ماه بعد نسخه Pro 1.5 با بهبودهایی روی عملکرد و همچنین توسعه سایز ورودی مدل به یک میلیون توکن ارائه شد. کاربران از این نسخه به لحاظ کارکرد و همچنین افزایش سایز ورودی بسیار استقبال کردند. در حال حاضر نسخه 1.5 Pro با سایز ورودی دو میلیون توکن برای توسعهدهندگانی که از API استفاده میکنند نیز ارائه شده است. این نسخه برخلاف نسخه قبلی که تنها از خروجی فرمت text پشتیبانی میکرد از JSON mode نیز پشتیبانی میکند. این مدل برای پروژه های پیچیده و چند وجهی که به عملکرد پیشرفته، ورودی در مقیاس بزرگ و فرمت های خروجی انعطاف پذیر نیاز دارند مناسب میباشد.
Gemini 1.5 Flash
با توجه به بازخورد کاربران توسعه دهندگان جمینای متوجه شدند که در بسیاری از موارد کاربر نیاز به مدلی سریعتر و ارزانتر دارد. لذا مدل Gemini 1.5 Flash ارائه شد که نسبت به Pro 1.5 سبکتر بوده و برای ارائه در مقیاس سریع و کارآمد طراحی شده است. هر دوی این نسخهها در Google AI Studio و Vertex AI قابل دسترسی هستند. این مدل برای مسائلی که سرعت ارائه خروجی اهمیت ویژهای دارد مناسبتر است.
Cloude 3.5 Sonnet
کلود یک ربات گفتگو است که توسط استارتآپ هوش مصنوعی آنتروپیک توسعه داده شده است. این ربات میتواند مانند ChatGPT از OpenAI و Gemini از گوگل، متن تولید کند و با کاربران مکالمه داشته باشد. آنتروپیک ادعا میکند که پاسخهای کلود، در مقایسه با سایر رباتهای گفتگو، مفیدتر هستند و ضرر کمتری نیز دارند. این به دلیل استفاده از "هوش مصنوعی قانونمند/مشروط" (constitutional AI) است - یک روش آموزشی منحصربهفرد هوش مصنوعی که اصول اخلاقی را در خروجیهای مدل لحاظ میکند.
هدف اعلام شده توسط آنتروپیک این است که کلود و سیستم های هوش مصنوعی آینده را با اولویت قرار دادن مسئولیتپذیری، اصول اخلاقی و ایمنی کلی، «مفید، بی ضرر و صادقانه تر» کند. آنتروپیک هر 90 روز دادههای پرامپتها و خروجیهایشان را جهت حفظ حریم خصوصی کاربران حذف میکند و برخلاف برخی مدلها مانند GPT از دادهها جهت آموزش مدل استفاده نمیکند. ایمنی آنتروپیک در تولید خروجی بیشتر است. لذا در مسائل پرمخاطره و حساس، مانند مسائل مربوط به حوزههای سلامت و حقوق میتوان به خروجیهای کلاد اطمینان بیشتری داشت.
سه مدل توسط آنتروپیک ارائه شده که هر کدام قابلیتهای ویژهای دارند:
Claude 3 Opus, Claude 3.5 Sonnet, Claude 3 Haiku
Claude 3 Opus از رقبای GPT-4o است و خروجیهایی بسیار روان و قابل درک توسط انسان تولید میکند و برای مسائل پیچیده و جدید مناسب است. به گفته آنتروپیک، Opus "درک و تسلط نزدیک به انسان را در وظایف پیچیده" نشان میدهد، که این امر به طور بالقوه میتواند مرز هوش مصنوعی عمومی را جلو ببرد. یک نقطه عطف نظری که در آن هوش مصنوعی میتواند مانند انسان (یا حتی بهتر از آن) بیاموزد و فکر کند. Claude 3.5 Sonnet با هدف سرعت طراحی شده است و سرعتی 2 برابر Claude 3 Opus دارد و در انجام وظایف هوشمند که نیاز به پاسخ سریع دارند، مانند بازیابی اطلاعات یا اتوماسیون فروش، برجسته است. همچنین در نوشتن محتوا با لحنی طبیعی نیز خوب عمل میکند. یکی از ویژگیهای کلیدی Claude 3.5 Sonnet، عملکرد فوقالعاده آن در استدلال و تولید محتوا است.
این مدل در زمینه استدلال در سطح تحصیلات تکمیلی (GPQA)، دانش در سطح دانشگاهی (MMLU) و مهارت برنامهنویسی (HumanEval) برتری دارد (سه دیتابیس ذکر شده در این حوزهها مورد ارزیابی قرار گرفتهاند) و نشان میدهد که به طور چشمگیری در درک ظرایف، طنز در گفتار و دستورات پیچیده پیشرفت کرده است. همچنین قابلیتهای پیشرفتهی تصویری را معرفی میکند که از معیارهای قبلی که توسط Claude 3 Opus تعیین شده بود، فراتر میرود. این مدل در مسائل استدلال بصری مانند تفسیر نمودارها و جداول عالی عمل کرده و میتواند متن را به طور دقیق از تصاویر حتی کم کیفیت نیز رونویسی کند. این قابلیتها آن را در صنایعی مانند خرده فروشی و خدمات مالی که دادههای بصری در آنها بسیار مهم است، ارزشمند میسازد.
Claude 3 Haiku
سریعترین و فشردهترین مدل از بین سه مدل، به گفته آنتروپیک، است. این مدل میتواند یک مقاله تحقیقاتی متراکم با نمودارها و گرافها را در کمتر از سه ثانیه بخواند و میتواند به سؤالات و درخواستهای ساده با "سرعت بینظیر" پاسخ دهد.
در هر سه مدل ارائه شده توسط آنتروپیک طول ورودی مدل 200 هزار توکن درنظر گرفته شده است.
نتیجهگیری
در دنیای دیجیتال که بهسرعت در حال تغییر است، شناخت دقیق مدلهای زبانی بزرگ (LLMها) کلید بهرهگیری از تواناییهای آنهاست. هر مدل مزایای ویژهای در تولید محتوا، پشتیبانی مشتریان و ترجمه زبان ارائه میدهد. با بررسی عملکرد، مقیاسپذیری و هزینهها، کسبوکارها میتوانند بهترین مدل را برای پیشبرد نوآوری و حفظ مزیت رقابتی انتخاب کنند. در آینده، شاهد روندها و پیشرفتهای هیجانانگیزی خواهیم بود که هوش مصنوعی را به افقهای وسیعتری از هوشمندی میبرد.
شما با یک حساب هوشواره میتوانید به طیف وسیعی از بهترین مدلهای هوش مصنوعی دسترسی پیدا کنید و همزمان نتایج مدلهای مختلف را در پاسخ به سوال یا مسئلهی خود مشاهده و مقایسه کنید. به این ترتیب میتوانید بهراحتی تشخیص دهید کدام مدل برای هر نیاز خاص شما مناسبتر و کارآمدتر است.