جمینی (Gemini) ، که نام کامل آن Generalized Multimodal Intelligence Network است، ارائه جدید گوگل در حوزه هوش مصنوعی است. برخلاف دیگر مدلهای هوش مصنوعی که برای ارائه یک نوع داده طراحی شدهاند، جمینی یک شبکه هوش مصنوعی چندحالتی است که قادر است به صورت همزمان چندین نوع داده و وظیفه شامل متن، تصاویر، صدا، ویدئو، مدلهای سهبعدی و حتی نمودارها را پردازش کند.
اما جمینی فقط یک مدل تکی نیست. این یک شبکه از مدلهاست که هرکدام به قابلیت کلی سیستم کمک میکنند. این معماری شبکه به جمینی امکان میدهد بدون نیاز به مدلهای تخصصی برای هر قسمت، با تنوع زیاد دستورات مختلف برخورد کند. مدلهای مختلف در شبکه با هم همکاری میکنند، اطلاعات را به اشتراک میگذارند و از یکدیگر یاد میگیرند، که این تعامل جمینی را به یک ابزار استثنایی و قدرتمند هوش مصنوعی تبدیل میکند.
مدل کارکرد جمینی
جمینی با تراشههای TPUv۵ گوگل آموزش دیده و قادر است با ۱۶ هزار و ۳۸۴ تراشه همزمان کار کند. جمینی از معماری Google Transformer استفاده میکند که یک چارچوب دقیق و اثباتشده برای عملکرد موفق مدلهای زبانی در مقیاس بزرگ است.
جمینی از یک معماری جدید استفاده میکند که یک coder وencoder چندحالتی را ترکیب میکند. وظیفه coder، تبدیل انواع مختلف داده به یک زبان مشترک است که encoder بتواند آن را درک کند. سپس encoder وظیفه را به عهده میگیرد و بر اساس ورودیهای coder شده و وظیفه فعلی، خروجیهایی با حالتهای مختلف تولید میکند.
این فرآیند را میتوان به مراحل زیر تقسیم کرد:
ورودی: کاربر ورودیها را به صورتهای مختلف متن، تصاویر، صدا، ویدئو، مدلهای سهبعدی، نمودارها و… ارائه میدهد.
coder: coder این ورودیها را میگیرد و آنها را به یک زبان مشترک تبدیل میکند که encoder بتواند آنها را درک کند. این کار با تبدیل انواع مختلف داده به یک نمایش واحد انجام میشود.
مدل: سپس ورودیهای coder شده به مدل داده میشوند. مدل نیازی به دانستن جزئیات وظیفهای که انجام میدهد ندارد و صرفاً ورودیها را بر اساس وظیفه فعلی پردازش میکند.
encoder: encoder ورودیهای پردازش شده از مدل را میگیرد و خروجیها را تولید میکند. خروجیها میتوانند بر اساس ترجیحات کاربر در حالتهای مختلف باشند.
خروجی: خروجیهای تولید شده سپس به کاربر برگردانده میشوند.
قابلیتهای جمینی
زمانی که به قابلیتها میپردازیم، جمینی یک انقلاب است. جمینی قادر است وظایفی را انجام دهد که گستردهتر و پیچیدهتر از آنهایی است که مدلهای زبان بزرگ دیگر مانند GPT-4 قادر به انجام آنها هستند.
پاسخ به سوالات چند وجهی: جمینی قادر است به سوالاتی که بر اساس انواع مختلف دادهها مطرح میشوند، پاسخ دهد. به عنوان مثال، میتواند به یک سوال درباره یک سند متنی بر اساس اطلاعاتی که از یک تصویر یا فیلم مرتبط بدست میآورد پاسخ دهد.
خلاصهسازی: جمینی قادر است سخنرانیها، تکههای طولانی متنی و محتوای صوتی و تصویری را خلاصه کند. این برای درک سریع نکات اصلی یک سند، سخنرانی یا ضبط جلسه مفید است.
ترجمه: جمینی میتواند محتوا را بین زبانهای مختلف ترجمه کند. اما بر خلاف مدلهای ترجمه قبلی، میتواند از بین انواع مختلف دادهها نیز ترجمه انجام دهد. به عنوان مثال، میتواند یک توضیح متنی را به تصویر یا مدل سهبعدی ترجمه کند.
تولید محتوا: جمینی میتواند محتوا را در قالبهای مختلف نوشتن مقالات، ایجاد تصاویر، ساخت موسیقی و موارد دیگر تولید کند.
استدلال: شاید چشمگیرترین قابلیت جمینی، قابلیت استدلال آن باشد. جمینی قادر است اطلاعات و انواع مختلف دادهها و وظایف را ترکیب و یک نتیجه منحصربفرد ارائه دهد. این باعث میشود که جمینی یک ابزار قدرتمند برای وظایف حل مسئله و تصمیمگیری باشد.
کاربردهای احتمالی جمینی
دستیار مجازی: Gemini میتواند برای خلق دستیارهای مجازی طبیعیتر و پیشرفتهتر با قابلیت درک طیف وسیعتری از دستورات و دریافت پاسخهای دقیقتر مورد استفاده قرار گیرد.
چتباتها: با بهرهگیری از Gemini میتوان چتبات یا همان روباتهای چت جذابتر و واقعگرایانهتری ساخت که میتوانند مکالمههایی بسیار نزدیک به مکالمههای انسانی را ایجاد کنند. در واقع، از Gemini میتوان برای ارائه خدمات به مشتریان، پاسخگویی به سوالات یا حتی نوشتن محتواهای خلاقانه بهره برد.
ابزارهای آموزشی: با Gemini میتوان انواع جدیدی از ابزارهای آموزشی را ایجاد کرد که میتوانند فرآیند یادگیری را متناسب با هر فرد، شخصیسازی کنند و به صورت لحظهای بازخوردها را ارائه دهند. برای مثال، میتوان از Gemini برای ساخت کتابهای تعاملی، برنامههای آموزش گام به گام یا حتی معلمهای مجازی استفاده کرد.
تفاوت گوگل Gemini و GPT-3
حجم پارامترها: GPT-3 دارای ۱۷۵ میلیارد پارامتر است که بزرگترین مدل زبانی هوش مصنوعی منتشر شده است . اما Gemini قدرت محاسباتی خود را بیش از دو برابر GPT-3 افزایش داده و با ۳۸۴ میلیارد پارامتر فعالیت میکند.
معماری شبکه: هر دو مدل از معماری ترنسفورمر (Transformer) استفاده میکنند که یک شبکه عصبی مبتنی بر یادگیری عمیق است. اما Gemini از نسخه بهبود یافته و پیچیدهتری از ترنسفورمر به نام Google Transformer استفاده میکند که چارچوب دقیق و اثباتشدهای برای عملکرد موفق مدلهای زبانی در مقیاس بزرگ است.
پردازش چندوجهی: GPT-3 عمدتا بر روی اطلاعات متنی تمرکز دارد و قابلیت پردازش سایر اطلاعات رسانهای را ندارد. اما Gemini قادر است علاوه بر اطلاعات متنی، طیف گستردهای از اطلاعات همچون تصاویر، کلیپهای صوتی، ویدئوها، نمودارهای پیچیده و… را پردازش کند. این قابلیت به Gemini اجازه میدهد تا به ابزاری همهکاره تبدیل شود و از عهده کارهای پیچیده و چالش برانگیز برآید.
یادگیری تقویتی: GPT-3 با استفاده از روش یادگیری نظارت شده (Supervised Learning) آموزش دیده است که نیاز به دادههای برچسبخورده دارد . اما Gemini با استفاده از تکنیکهای یادگیری تقویتی (Reinforcement Learning) آموزش دیده است که براساس اصل آزمون و خطا عمل میکند و به Gemini این امکان را میدهد تا فعالیت و استراتژیهای خود را به مرور زمان تطبیق داده و اصلاح کند.
خلاقیت: GPT-3 قابلیت تولید خودکار را دارد، اما به صورت سطح پایین و با الگوبرداری از دادههای آموزش دیدهاش.اما Gemini با استفاده از قابلیت تولید خودکار، محتوای جذاب و خلاقانهای را در زمینههای مختلف میسازد. برای مثال، Gemini میتواند شعر، داستان، کد، تحلیل، سخنرانی و… را با استفاده از دانش خود، نوشته و بهبود بخشد.
وجه تمایز جمینی و GPT-4
جمینی به مراتب نسبت به سایر مدلهای هوش مصنوعی مانند GPT-4 قابل تطبیقتر است. جمینی قادر است هر نوع داده و وظیفهای را بدون نیاز به مدلهای تخصصی یا هرگونه تنظیم دقیقی کنترل کند. علاوه بر این، میتواند از هر دامنه و مجموعه دادهای یاد بگیرد بدون اینکه تحت دستهبندیها و برچسبهای تعریف شده قرار گیرد.
مقایسه GPT-4 و جمینی
GPT-4
GPT-4 که توسط OpenAI توسعه یافته است، یک مدل زبانی بزرگ با یک تریلیون پارامتر است. این مدل طراحی شده است تا زبان طبیعی را درک و تولید کند و برای وظایف مربوط به متن بسیار قدرتمند است. با این حال، GPT-4 در اصل یک مدل مبتنی بر متن است و طراحی شده تا وظایفی را که شامل دادههای متنی میشوند مدیریت کند، مانند نوشتن مقالات، پاسخ دادن به سوالات یا ترجمه زبانها.
Gemini
جمینی که توسط گوگل توسعه یافته است، یک شبکه هوش مصنوعی چندمنظوره است. به این معنا که طراحی شده تا بتواند به صورت همزمان چندین مدل مختلف داده را پردازش کند. جمینی قادر است به پردازش متن، تصاویر، صدا، ویدیو، مدلهای ۳ بعدی و حتی نمودارها بپردازد که این باعث میشود جمینی نسبت به GPT-4 چندمنظورهتر باشد زیرا قادر است با مجموعهای از وظایف و انواع داده مختلف برخورد کند.
علاوه بر این، جمینی تنها یک مدل نیست، بلکه یک شبکه از مدلها است. این معماری شبکه به جمینی امکان میدهد با برخی از وظایف مختلف بدون نیاز به مدلهای تخصصی برای هر کدام برخورد کند. مدلهای مختلف در شبکه با هم همکاری کرده و اطلاعات را به اشتراک میگذارند و از یکدیگر یاد میگیرند که جمینی را ابزار هوش مصنوعی بسیار چندمنظوره و قدرتمندی میسازد.
به طور خلاصه، در حالی که GPT-4 یک ابزار قدرتمند پردازش متن است، قابلیتهای چندگانه جمینی آن را به یک ابزار چندمنظوره تبدیل کرده که قادر به برخورد با طیف گستردهتری از وظایف و انواع دیتاها است. این امر جمینی را به یک هوش مصنوعی کاربردی تبدیل میکند و جالب خواهد بود که ببینیم چگونه در آینده تکامل مییابد و استفاده میشود.
اندازههای جمینی
جمینی در چهار اندازه عرضه میشود: Gecko، Otter، Bison و Unicorn. Unicorn بزرگترین اندازه و احتمالاً مشابه GPT-4 از نظر پارامترها است.
Gecko : کوچک/تست/ وظایف کوچک
Otter: متوسط/ وظایف متوسط
Bison : بزرگ/ وظایف پیچیده
Unicorn: خیلی بزرگ/ وظایف بسیار پیچیده/ مجموعه دادههای بزرگ
خلاقیت در جمینی
یکی از جذابترین جنبههای جمینی، خلاقیت آن است. برخلاف سایر مدلهای هوش مصنوعی که به دادههایی که بر اساس آنها آموزش دیدهاند محدود هستند، جمینی توانایی تولید خروجیهای نوآورانه را دارد. این به این معنی است که میتواند محتواهایی را ایجاد کند که در واقع در دادههای آموزشی آن وجود ندارد و این امر آن را به یک ابزار قدرتمند برای وظایف خلاقانه تبدیل میکند.
به عنوان مثال، اگر بخواهید از جمینی بخواهید یک داستان یا یک قطعه هنری ایجاد کند، آنچه که ایجاد میکند صرفاً تکراری از آنچه که قبلاً دیده است نخواهد بود. در عوض، بر اساس الگوها و ساختارهایی که در طول آموزش یاد گرفته است، چیزی منحصر به فرد ایجاد خواهد کرد.
علاوه بر این، جمینی تک بعدی نیست و میتواند خروجیها را بر اساس ترجیحات کاربر در قالبهای مختلف شامل متن، تصاویر، صدا و موارد دیگر تولید کند. بنابراین اگر بگویید که به یک گزارش نوشتاری، یک نمودار تصویری یا یک شرح صوتی نیاز دارید؛ جمینی همه را پوشش میدهد.
ابزارهای گوگل برای استفاده از جمینی
Bard: یک ربات چت هوشمند است که میتواند با شما در مورد هر موضوعی صحبت کند و به سؤالات شما پاسخ دهد. شما میتوانید با Bard در زبانهای مختلف ارتباط برقرار کنید و حتی از آن بخواهید که برای شما شعر، داستان، ترانه و … بسازد.
Duet AI: یک ابزار خلاقانه است که میتواند بر اساس توصیف متنی شما، تصویری با کیفیت بالا و واقعگرایانه از یک شی خاص بسازد. شما میتوانید از Duet AI در برنامههای Google Workspace مانند Google Docs و Google Sheets استفاده کنید.
Help Me Write: یک ابزار کمکرسان که میتواند به شما در نوشتن مقالات، پروپوزالها، رزومهها و … کمک کند. شما میتوانید با Help Me Write سبک، زبان، ساختار و محتوای نوشتار خود را بهبود ببخشید و حتی از آن بخواهید که برای شما پاراگرافهای جدید تولید کند.
Google Search: یک ابزار جستجوگر قدرتمند که میتواند به شما در پیدا کردن اطلاعات موردنظر خود در وب کمک کند. شما میتوانید با Google Search سؤالات خود را به صورت طبیعی بپرسید و پاسخهای دقیق و مناسب را در قالب نتایج جستجو، تصاویر، خبرها، پاسخ سؤالات و… دریافت کنید.
آینده هوش مصنوعی با جمینی
جمینی نه تنها یک مدل هوش مصنوعی جدید ؛ بلکه چشم انداز آینده هوش مصنوعی است. Gemini با قابلیتهایmultimodal و خلاقانهای که دارد، در حال بازتعریف کردن قابلیتهای هوش مصنوعی و نحوه تعامل ما با آنها است.
تصور کنید جهانی را که دستیار دیجیتال شما نه تنها کلمات شما را درک میکند، بلکه تصاویر یا فیلمهایی را که به او نشان میدهید هم درک میکند. میتوانید از آن بخواهید بر اساس تصویر یک غذا دستور العمل آن را به شما بگوید یا یک سخنرانی ویدیویی را که وقت دیدن آن را ندارید خلاصه کند. این جهانی است که جمینی در حال کمک به ایجاد آن است.
اما این همه ماجرا نیست . قدرت خلاقانه جمینی میتواند در زمینههایی مانند هنر و موسیقی نیز انقلاب کند. تصور کنید یک هوش مصنوعی وجود دارد که قادر به ایجاد نقاشیهای منحصر به فرد یا ساخت آهنگهای اصلی است. یا یک مربی مجازی که محتوای آموزشی را بر اساس سبک یادگیری و ترجیحات هر دانشآموز به صورت شخصی سازی میکند.
با جمینی، میتوانیم سیستمهای هوش مصنوعیای داشته باشیم که نه فقط دستورات پیشفرض را دنبال میکنند، بلکه قادر به درک و حل مسائل پیچیده هستند که این موضوع میتواند در زمینههایی مانند بهداشت، مالی و لجستیک تغییراتی عمده ایجاد کند.
آینده هوش مصنوعی با جمینی جذاب به نظر میرسد. احتمالاً بیشتر برنامهها و خدماتی را خواهیم دید که از قابلیتهای جمینی استفاده میکنند تا تجربه کاربری و راهکارهای بهتری ارائه دهند.
ترجمه و تصحیح : مهدی کاظمی ملایری (مدیر سایت روشاگرافیک)