গুগল ডিপমাইন্ড সম্প্রতি জেমিনি নামে নতুন এআই মডেল আসার ব্যাপারে ঘোষণা করেছে এবং OpenAI এর ChatGPT-এর সাথে প্রতিদ্বন্দ্বিতা করবে সেই ব্যাপারেও ইংগিত দিয়েছে। তাদের উভয় মডেলই “জেনারেটিভ এআই” হিসেবে পরিচিত, যা নতুন ডেটা (ছবি, শব্দ, অথবা অন্যান্য মিডিয়া) তৈরি করতে, ইনপুট প্রশিক্ষণ তথ্যের প্যাটার্ন খুঁজে পেতে সক্ষম, তবে ChatGPT একটি বৃহৎ ভাষা মডেল (LLM) যা প্রধানত টেক্সট তৈরিতে সাহায্য করে।
চ্যাটজিপিটি হলো একটি ওয়েব অ্যাপ, যা কথা বলা বা কমিউনিকেশনের জন্য ডিজাইন করা হয়েছে এবং এটি নিউরাল নেটওয়ার্কের উপর ভিত্তি করে। এই অ্যাপটির নাম জিপিটি এবং এটি বিশাল পরিমাণে ইতোমধ্যে ইন্টার্নেটে আছে এমন তথ্যের উপর প্রশিক্ষিত হয়েছে। Google-এর বার্ড নামে অন্যান্য এপ্লিকেশনের মধ্যে এই চ্যাটজিপিটি একটি কথা বলা বা কমিউনিকেশন ওয়েব অ্যাপ হিসেবে পরিচিত। এই অ্যাপটি LaMDA নামক একটি মডেলের উপর ভিত্তি করে তৈরি করা হয়েছিল, যা একটি ট্রেইন্ড মডেল। গুগল এখন এই অ্যাপটির মাধ্যমে মিথুনের উপর ভিত্তি করে আপগ্রেড করছে।
LaMDA-এর মতো, আগের জেনারেটিভ এআই মডেল থেকে মিথুনকে আলাদা করা হয়েছে একটি “মাল্টি-মোডাল মডেল”। এর মাধ্যমে, এটি ইনপুট এবং আউটপুটের একাধিক মোডের সাথে সরাসরি কাজ করতে সক্ষম: টেক্সট ইনপুট এবং আউটপুট পাওয়া যায়, এটি ছবি, অডিও এবং ভিডিও সাপোর্ট করতে পারে। এই প্রযুক্তির ফলে, একটি নতুন সংক্ষিপ্ত রূপ প্রকাশ পেয়েছে।
সেপ্টেম্বরে, OpenAI তাদের GPT-4Vision মডেল ঘোষণা করেছে, যা ছবি, অডিও, এবং টেক্সট এর সাথেও কাজ করতে পারে। তবে, মিথুনের প্রতিশ্রুতির সাথে তা একটি সম্পূর্ণ মাল্টিমোডাল মডেল হিসেবে প্রকাশ করা হয়নি।
উদাহরণস্বরূপ, যখন ChatGPT-4, যা GPT-4V অডিও ইনপুটের সাথে কাজ করতে এবং স্পিচ আউটপুট তৈরি করতে পারে, OpenAI নিশ্চিত করেছে যে এটি হুইস্পার নামে আরেকটি ডিপ লার্নিং মডেল ব্যবহার করে ইনপুটে স্পীচকে টেক্সটে রূপান্তর করা হয়েছে। ChatGPT-4 আউটপুটে টেক্সটকে স্পিচে রূপান্তর করতে একটি ভিন্ন মডেল ব্যবহার করে, যার মাধ্যমে GPT-4V নিজেই টেক্সটের সাথে নিখুঁতভাবে কাজ করছে।
ChatGPT-4 একইভাবে ইমেজ তৈরি করতে পারে, কিন্তু এটি টেক্সট প্রম্পট তৈরি করে যা ডাল-ই 2 নামক একটি আলাদা ডিপ লার্নিং মডেলে পাস করা হয়, যা টেক্সট বর্ণনাকে ইমেজে কনভার্ট করে।
অপরদিকে, গুগল জেমিনি কে “নেটিভলি মাল্টিমডাল” হিসাবে ডিজাইন করেছে। এটার মানে হল এই মূল মডেলটি সরাসরি বিভিন্ন ধরণের ইনপুট (অডিও, ছবি, ভিডিও এবং পাঠ্য) প্রসেস করতে পারে এবং সেগুলিকেও সরাসরি আউটপুট হিসেবে দিতে পারে।
এই দুটি পদ্ধতির মধ্যে পার্থক্য একাডেমিক হতে পারে, কিন্তু এটি গুরুত্বপূর্ণ। Google-এর টেকনিক্যাল রিপোর্ট এবং আজ পর্যন্ত অন্যান্য গুণগত পরীক্ষা থেকে সাধারণ উপসংহার হল যে জেমিনির বর্তমান সর্বজনীনভাবে আপডেটেড ভার্ষন, যাকে বলা হয় Gemini 1.0 Pro, সাধারণত GPT-4-এর মতো ভাল নয় ।
গুগল জেমিনি 1.0 আল্ট্রা নামে জেমিনির একটি আরও শক্তিশালী ভার্ষণের ঘোষণা করেছে এবং কিছু ফলাফল উপস্থাপন করেছে যে এটি GPT-4 এর চেয়ে বেশি শক্তিশালী। তবে, এটি মূল্যায়ন করা কঠিন যেহেতু Google এখনও আল্ট্রা প্রকাশ করেনি, তাই এই ফলাফলগুলি বর্তমানে যথাযথভাবে যাচাই করা যাবে না।
নিকট ভবিষ্যতে সব সমস্যাগুলির বিশেষজ্ঞ চিকিৎসা এবং উন্নত করার দিকে মনোনিবেশ করা গুরুত্বপূর্ণ। জেমিনি এবং বড় মাল্টিমোডাল মডেলগুলি জেনারেটিভ AI এর ক্ষেত্রে একটি অত্যন্ত এক্সাইটিং অগ্রগতি। এটি তাদের ভবিষ্যতের ক্ষমতা এবং AI ইকুইপমেন্টগুলির প্রতিযোগিতামূলক ল্যান্ডস্কেপের জন্য উভয়কে তৈরি করেছে। GPT-4 প্রায় 500 বিলিয়ন শব্দের উপর ট্রেইন্ড হয়েছিল – মূলত সমস্ত ভাল-মানের, সর্বজনীনভাবে স্বীকৃত টেক্সট।
ডীপ লার্নিং মডেলগুলির কার্যকারিতা সাধারণত মডেলের জটিলতা এবং ট্রেইন্ড ডেটার পরিমাণ বৃদ্ধির দ্বারা পরিচালিত হয়। যেহেতু ভাষা মডেলগুলির জন্য আমাদের কাছে প্রায় নতুন প্রশিক্ষণ ডেটা শেষ হয়ে গেছে, তাই এটিতে কীভাবে আরও উন্নতি অর্জন করা যেতে পারে সেই প্রশ্ন তৈরি হতে শুরু করেছে। যাইহোক, মাল্টিমোডাল মডেলগুলি প্রশিক্ষণের ডেটার বিশাল নতুন মজুদ ছবি, অডিও এবং ভিডিও আকারে খুলে দেয়।
জেমিনির মতো এআই, যা এই সমস্ত ডেটাতে সরাসরি প্রশিক্ষিত/ ট্রেইন্ড হতে পারে, তাদের সামনে আরও অনেক বেশি ক্ষমতা থাকতে পারে। উদাহরণস্বরূপ, ভিডিওতে প্রশিক্ষিত মডেলগুলি “নিষ্পাপ পদার্থবিদ্যা” নামে পরিচিত অত্যাধুনিক অভ্যন্তরীণ উপস্থাপনা তৈরি করবে। কার্যকারণ, নড়াচড়া, মাধ্যাকর্ষণ এবং অন্যান্য ভৌত ঘটনা সম্পর্কে মানুষের এবং প্রাণীদের এই প্রাথমিক উপলব্ধি।
AI এর প্রতিযোগিতামূলক ল্যান্ডস্কেপের জন্য এর অর্থ কী তা নিয়েও ভাবনার বিষয় আছে। বিগত বছর ধরে, অনেক জেনারেটিভ এআই মডেলের আবির্ভাব সত্ত্বেও, ওপেনএআই-এর জিপিটি মডেলগুলি প্রভাবশালী ছিল, যা পারফর্ম্যান্সের একটি স্তর প্রদর্শন করে যা অন্যান্য মডেলগুলি কাছে যেতে পারেনি।
Google-এর জেমিনি একটি প্রধান প্রতিযোগীর উত্থানের সংকেত দেয় যা ক্ষেত্রকে এগিয়ে নিয়ে যেতে সাহায্য করবে। অবশ্যই, OpenAI প্রায় অবশ্যই GPT-5 এ কাজ করছে, এবং আমরা আশা করতে পারি যে এটি মাল্টিমডালও হবে এবং অসাধারণ নতুন ক্ষমতা প্রদর্শন করবে।