جمینی؛ هوش مصنوعی چندکاره!

بدون دیدگاه
12 شهریور 1402

بازدید : 445

مهدی کاظمی ملایری/کارشناس گرافیک و مارکتینگ

جمینی (Gemini) ، که نام کامل آن Generalized Multimodal Intelligence Network است، ارائه جدید گوگل در حوزه هوش مصنوعی است. برخلاف دیگر مدل‌های هوش مصنوعی که برای ارائه یک نوع داده طراحی شده‌اند، جمینی یک شبکه هوش مصنوعی چندحالتی است که قادر است به صورت همزمان چندین نوع داده و وظیفه شامل متن، تصاویر، صدا، ویدئو، مدل‌های سه‌بعدی و حتی نمودارها را پردازش کند.

اما جمینی فقط یک مدل تکی نیست. این یک شبکه از مدل‌هاست که هرکدام به قابلیت کلی سیستم کمک می‌کنند. این معماری شبکه به جمینی امکان می‌دهد بدون نیاز به مدل‌های تخصصی برای هر قسمت، با تنوع زیاد دستورات مختلف برخورد کند. مدل‌های مختلف در شبکه با هم همکاری می‌کنند، اطلاعات را به اشتراک می‌گذارند و از یکدیگر یاد می‌گیرند، که این تعامل جمینی را به یک ابزار استثنایی و قدرتمند هوش مصنوعی تبدیل می‌کند.

مدل کارکرد جمینی

جمینی با تراشه‌های TPUv۵ گوگل آموزش دیده و قادر است با ۱۶ هزار و ۳۸۴ تراشه همزمان کار کند. جمینی از معماری Google Transformer استفاده می‌کند که یک چارچوب دقیق و اثبات‌شده برای عملکرد موفق مدل‌های زبانی در مقیاس بزرگ است.

جمینی از یک معماری جدید استفاده می‌کند که یک coder وencoder چندحالتی را ترکیب می‌کند. وظیفه coder، تبدیل انواع مختلف داده به یک زبان مشترک است که encoder بتواند آن را درک کند. سپس encoder وظیفه را به عهده می‌گیرد و بر اساس ورودی‌های coder شده و وظیفه فعلی، خروجی‌هایی با حالت‌های مختلف تولید می‌کند.

این فرآیند را می‌توان به مراحل زیر تقسیم کرد:

ورودی: کاربر ورودی‌ها را به صورت‌های مختلف متن، تصاویر، صدا، ویدئو، مدل‌های سه‌بعدی، نمودارها و… ارائه می‌دهد.

coder: coder این ورودی‌ها را می‌گیرد و آن‌ها را به یک زبان مشترک تبدیل می‌کند که encoder بتواند آنها را درک کند. این کار با تبدیل انواع مختلف داده به یک نمایش واحد انجام می‌شود.

مدل: سپس ورودی‌های coder شده به مدل داده می‌شوند. مدل نیازی به دانستن جزئیات وظیفه‌ای که انجام می‌دهد ندارد و صرفاً ورودی‌ها را بر اساس وظیفه فعلی پردازش می‌کند.

encoder: encoder ورودی‌های پردازش شده از مدل را می‌گیرد و خروجی‌ها را تولید می‌کند. خروجی‌ها می‌توانند بر اساس ترجیحات کاربر در حالت‌های مختلف باشند.

خروجی: خروجی‌های تولید شده سپس به کاربر برگردانده می‌شوند.

قابلیت‌های جمینی

زمانی که به قابلیت‌ها می‌پردازیم، جمینی یک انقلاب است. جمینی قادر است وظایفی را انجام دهد که گسترده‌تر و پیچیده‌تر از آن‌هایی است که مدل‌های زبان بزرگ دیگر مانند GPT-4 قادر به انجام آن‌ها هستند.

پاسخ به سوالات چند وجهی: جمینی قادر است به سوالاتی که بر اساس انواع مختلف داده‌ها مطرح می‌شوند، پاسخ دهد. به عنوان مثال، می‌تواند به یک سوال درباره یک سند متنی بر اساس اطلاعاتی که از یک تصویر یا فیلم مرتبط بدست می‌آورد پاسخ دهد.

خلاصه‌سازی: جمینی قادر است سخنرانی‌ها، تکه‌های طولانی متنی و محتوای صوتی و تصویری را خلاصه کند. این برای درک سریع نکات اصلی یک سند، سخنرانی یا ضبط جلسه مفید است.

ترجمه: جمینی می‌تواند محتوا را بین زبان‌های مختلف ترجمه کند. اما بر خلاف مدل‌های ترجمه قبلی، می‌تواند از بین انواع مختلف داده‌ها نیز ترجمه انجام دهد. به عنوان مثال، می‌تواند یک توضیح متنی را به تصویر یا مدل سه‌بعدی ترجمه کند.

تولید محتوا: جمینی می‌تواند محتوا را در قالب‌های مختلف نوشتن مقالات، ایجاد تصاویر، ساخت موسیقی و موارد دیگر تولید کند.

استدلال: شاید چشم‌گیرترین قابلیت جمینی، قابلیت استدلال آن باشد. جمینی قادر است اطلاعات و انواع مختلف داده‌ها و وظایف را ترکیب و یک نتیجه منحصربفرد ارائه دهد. این باعث می‌شود که جمینی یک ابزار قدرتمند برای وظایف حل مسئله و تصمیم‌گیری باشد.

کاربردهای احتمالی جمینی

دستیار مجازی: Gemini می‌تواند برای خلق دستیارهای مجازی طبیعی‌تر و پیشرفته‌تر با قابلیت درک طیف وسیع‌تری از دستورات و دریافت پاسخ‌های دقیق‌تر مورد استفاده قرار گیرد.

چت‌بات‌ها: با بهره‌گیری از Gemini می‌توان چت‌بات یا همان روبات‌های چت جذاب‌تر و واقع‌گرایانه‌تری ساخت که می‌توانند مکالمه‌هایی بسیار نزدیک به مکالمه‌های انسانی را ایجاد کنند. در واقع، از Gemini می‌توان برای ارائه خدمات به مشتریان، پاسخگویی به سوالات یا حتی نوشتن محتواهای خلاقانه بهره برد.

ابزارهای آموزشی: با Gemini می‌توان انواع جدیدی از ابزارهای آموزشی را ایجاد کرد که می‌توانند فرآیند یادگیری را متناسب با هر فرد، شخصی‌سازی کنند و به صورت لحظه‌ای بازخوردها را ارائه دهند. برای مثال، می‌توان از Gemini برای ساخت کتاب‌های تعاملی، برنامه‌های آموزش گام به گام یا حتی معلم‌های مجازی استفاده کرد.

تفاوت گوگل Gemini و GPT-3

حجم پارامترها: GPT-3 دارای ۱۷۵ میلیارد پارامتر است که بزرگ‌ترین مدل زبانی هوش مصنوعی منتشر شده است . اما Gemini قدرت محاسباتی خود را بیش از دو برابر GPT-3 افزایش داده و با ۳۸۴ میلیارد پارامتر فعالیت می‌کند.

معماری شبکه: هر دو مدل از معماری ترنسفورمر (Transformer) استفاده می‌کنند که یک شبکه عصبی مبتنی بر یادگیری عمیق است. اما Gemini از نسخه بهبود یافته و پیچیده‌تری از ترنسفورمر به نام Google Transformer استفاده می‌کند که چارچوب دقیق و اثبات‌شده‌ای برای عملکرد موفق مدل‌های زبانی در مقیاس بزرگ است.

پردازش چندوجهی: GPT-3 عمدتا بر روی اطلاعات متنی تمرکز دارد و قابلیت پردازش سایر اطلاعات رسانه‌ای را ندارد. اما Gemini قادر است علاوه بر اطلاعات متنی، طیف گسترده‌ای از اطلاعات همچون تصاویر، کلیپ‌های صوتی، ویدئوها، نمودارهای پیچیده و… را پردازش کند. این قابلیت به Gemini اجازه می‌دهد تا به ابزاری همه‌کاره تبدیل شود و از عهده کارهای پیچیده و چالش برانگیز برآید.

یادگیری تقویتی: GPT-3 با استفاده از روش یادگیری نظارت شده (Supervised Learning) آموزش دیده است که نیاز به داده‌های برچسب‌خورده دارد . اما Gemini با استفاده از تکنیک‌های یادگیری تقویتی (Reinforcement Learning) آموزش دیده است که براساس اصل آزمون و خطا عمل می‌کند و به Gemini این امکان را می‌دهد تا فعالیت و استراتژی‌های خود را به مرور زمان تطبیق داده و اصلاح کند.

خلاقیت: GPT-3 قابلیت تولید خودکار را دارد، اما به صورت سطح پایین و با الگوبرداری از داده‌های آموزش دیده‌اش.اما Gemini با استفاده از قابلیت تولید خودکار، محتوای جذاب و خلاقانه‌ای را در زمینه‌های مختلف می‌سازد. برای مثال، Gemini می‌تواند شعر، داستان، کد، تحلیل، سخنرانی و… را با استفاده از دانش خود، نوشته و بهبود بخشد.

وجه تمایز جمینی و GPT-4

جمینی به مراتب نسبت به سایر مدل‌های هوش مصنوعی مانند GPT-4 قابل تطبیق‌تر است. جمینی قادر است هر نوع داده و وظیفه‌ای را بدون نیاز به مدل‌های تخصصی یا هرگونه تنظیم دقیقی کنترل کند. علاوه بر این، می‌تواند از هر دامنه و مجموعه داده‌ای یاد بگیرد بدون اینکه تحت دسته‌بندی‌ها و برچسب‌های تعریف شده قرار گیرد.

مقایسه GPT-4 و جمینی

GPT-4

GPT-4 که توسط OpenAI توسعه یافته است، یک مدل زبانی بزرگ با یک تریلیون پارامتر است. این مدل طراحی شده است تا زبان طبیعی را درک و تولید کند و برای وظایف مربوط به متن بسیار قدرتمند است. با این حال، GPT-4 در اصل یک مدل مبتنی بر متن است و طراحی شده تا وظایفی را که شامل داده‌های متنی می‌شوند مدیریت کند، مانند نوشتن مقالات، پاسخ دادن به سوالات یا ترجمه زبان‌ها.

Gemini

جمینی که توسط گوگل توسعه یافته است، یک شبکه هوش مصنوعی چندمنظوره است. به این معنا که طراحی شده تا بتواند به صورت همزمان چندین مدل مختلف داده را پردازش کند. جمینی قادر است به پردازش متن، تصاویر، صدا، ویدیو، مدل‌های ۳ بعدی و حتی نمودارها بپردازد که این باعث می‌شود جمینی نسبت به GPT-4 چندمنظوره‌تر باشد زیرا قادر است با مجموعه‌ای از وظایف و انواع داده مختلف برخورد کند.

علاوه بر این، جمینی تنها یک مدل نیست، بلکه یک شبکه از مدل‌ها است. این معماری شبکه به جمینی امکان می‌دهد با برخی از وظایف مختلف بدون نیاز به مدل‌های تخصصی برای هر کدام برخورد کند. مدل‌های مختلف در شبکه با هم همکاری کرده و اطلاعات را به اشتراک می‌گذارند و از یکدیگر یاد می‌گیرند که جمینی را ابزار هوش مصنوعی بسیار چندمنظوره و قدرتمندی می‌سازد.

به طور خلاصه، در حالی که GPT-4 یک ابزار قدرتمند پردازش متن است، قابلیت‌های چندگانه جمینی آن را به یک ابزار چندمنظوره تبدیل کرده که قادر به برخورد با طیف گسترده‌تری از وظایف و انواع دیتاها است. این امر جمینی را به یک هوش مصنوعی کاربردی تبدیل می‌کند و جالب خواهد بود که ببینیم چگونه در آینده تکامل می‌یابد و استفاده می‌شود.

اندازه‌های جمینی

جمینی در چهار اندازه عرضه می‌شود: Gecko، Otter، Bison و Unicorn. Unicorn بزرگترین اندازه و احتمالاً مشابه GPT-4 از نظر پارامترها است.

Gecko : کوچک/تست/ وظایف کوچک

Otter: متوسط/ وظایف متوسط

Bison : بزرگ/ وظایف پیچیده

Unicorn: خیلی بزرگ/ وظایف بسیار پیچیده/ مجموعه داده‌های بزرگ

خلاقیت در جمینی

یکی از جذاب‌ترین جنبه‌های جمینی، خلاقیت آن است. برخلاف سایر مدل‌های هوش مصنوعی که به داده‌هایی که بر اساس آن‌ها آموزش دیده‌اند محدود هستند، جمینی توانایی تولید خروجی‌های نوآورانه را دارد. این به این معنی است که می‌تواند محتواهایی را ایجاد کند که در واقع در داده‌های آموزشی آن وجود ندارد و این امر آن را به یک ابزار قدرتمند برای وظایف خلاقانه تبدیل می‌کند.

به عنوان مثال، اگر بخواهید از جمینی بخواهید یک داستان یا یک قطعه هنری ایجاد کند، آنچه که ایجاد می‌کند صرفاً تکراری از آنچه که قبلاً دیده است نخواهد بود. در عوض، بر اساس الگوها و ساختارهایی که در طول آموزش یاد گرفته است، چیزی منحصر به فرد ایجاد خواهد کرد.

علاوه بر این، جمینی تک بعدی نیست و می‌تواند خروجی‌ها را بر اساس ترجیحات کاربر در قالب‌های مختلف شامل متن، تصاویر، صدا و موارد دیگر تولید کند. بنابراین اگر بگویید که به یک گزارش نوشتاری، یک نمودار تصویری یا یک شرح صوتی نیاز دارید؛ جمینی همه را پوشش می‌دهد.

ابزارهای گوگل برای استفاده از جمینی

Bard: یک ربات چت هوشمند است که می‌تواند با شما در مورد هر موضوعی صحبت کند و به سؤالات شما پاسخ دهد. شما می‌توانید با Bard در زبان‌های مختلف ارتباط برقرار کنید و حتی از آن بخواهید که برای شما شعر، داستان، ترانه و … بسازد.

Duet AI: یک ابزار خلاقانه است که می‌تواند بر اساس توصیف متنی شما، تصویری با کیفیت بالا و واقع‌گرایانه از یک شی خاص بسازد. شما می‌توانید از Duet AI در برنامه‌های Google Workspace مانند Google Docs و Google Sheets استفاده کنید.

Help Me Write: یک ابزار کمک‌رسان که می‌تواند به شما در نوشتن مقالات، پروپوزال‌ها، رزومه‌ها و … کمک کند. شما می‌توانید با Help Me Write سبک، زبان، ساختار و محتوای نوشتار خود را بهبود ببخشید و حتی از آن بخواهید که برای شما پاراگراف‌های جدید تولید کند.

Google Search: یک ابزار جستجوگر قدرتمند که می‌تواند به شما در پیدا کردن اطلاعات موردنظر خود در وب کمک کند. شما می‌توانید با Google Search سؤالات خود را به صورت طبیعی بپرسید و پاسخ‌های دقیق و مناسب را در قالب نتایج جستجو، تصاویر، خبرها، پاسخ سؤالات و… دریافت کنید.

آینده هوش مصنوعی با جمینی

جمینی نه تنها یک مدل هوش مصنوعی جدید ؛ بلکه چشم انداز آینده هوش مصنوعی است. Gemini با قابلیت‌هایmultimodal و خلاقانه‌ای که دارد، در حال بازتعریف کردن قابلیت‌های هوش مصنوعی و نحوه تعامل ما با آنها است.

تصور کنید جهانی را که دستیار دیجیتال شما نه تنها کلمات شما را درک می‌کند، بلکه تصاویر یا فیلم‌هایی را که به او نشان می‌دهید هم درک می‌کند. می‌توانید از آن بخواهید بر اساس تصویر یک غذا دستور العمل آن را به شما بگوید یا یک سخنرانی ویدیویی را که وقت دیدن آن را ندارید خلاصه کند. این جهانی است که جمینی در حال کمک به ایجاد آن است.

اما این همه ماجرا نیست . قدرت خلاقانه جمینی می‌تواند در زمینه‌هایی مانند هنر و موسیقی نیز انقلاب کند. تصور کنید یک هوش مصنوعی وجود دارد که قادر به ایجاد نقاشی‌های منحصر به فرد یا ساخت آهنگ‌های اصلی است. یا یک مربی مجازی که محتوای آموزشی را بر اساس سبک یادگیری و ترجیحات هر دانش‌آموز به صورت شخصی سازی می‌کند.

با جمینی، می‌توانیم سیستم‌های هوش مصنوعی‌ای داشته باشیم که نه فقط دستورات پیش‌فرض را دنبال می‌کنند، بلکه قادر به درک و حل مسائل پیچیده هستند که این موضوع می‌تواند در زمینه‌هایی مانند بهداشت، مالی و لجستیک تغییراتی عمده ایجاد کند.

آینده هوش مصنوعی با جمینی جذاب به نظر می‌رسد. احتمالاً بیشتر برنامه‌ها و خدماتی را خواهیم دید که از قابلیت‌های جمینی استفاده می‌کنند تا تجربه کاربری و راهکارهای بهتری ارائه دهند.

ترجمه و تصحیح : مهدی کاظمی ملایری (مدیر سایت روشاگرافیک)

دیدگاهتان را بنویسید لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

بنر و لارج فرمت