معرفی دو ابزار هوش مصنوعی مینی‌جی‌پی‌تی ـ ۴ و میدجورنی برای توصیف تصاویر

گردآوری و ترجمه: میثم امینی

بوسیله ادمین در تیر 28, 1402

mini GPT-4

در سال‌های اخیر شاهد ارائه ابزارهای مختلفی برای توصیف تصاویر برای افراد نابینا بوده‌ایم؛ از برنامه‌های تلفن همراه گرفته تا وبگاه‌ها و افزونه‌های مختلف. این ابزارها یک تصویر را دریافت می‌کنند و با استفاده از هوش مصنوعی تلاش می‌کنند توصیفی مناسب را درباره آن به کاربر ارائه دهند که این موضوع می‌تواند برای یک فرد نابینا بسیار مفید باشد، مثلاً چنین ابزاری می‌تواند به فرد نابینا در شناسایی فضای اطراف، پیداکردن شیءِ موردنظر، اطلاع از محتوای تصاویری که در شبکه‌های اجتماعی منتشر می‌شوند، استفاده از برنامه‌های با دسترس‌پذیری نامناسب، تشخیص جزئیات داخل عکس‌های یادگاری و خانوادگی و مرتب‌کردن آنها و… کمک کند.

این ابزارها روزبه‌روز قدرتمندتر می‌شوند و جزئیات بیشتری را با دقتی بالاتر و خطای کمتر به کاربران ارائه می‌دهند که این موضوع خبری خوب برای کاربران نابینا است، چون همیشه مشکل عدم توانایی درک محتوای تصاویر، یکی از موانع سر راه آنها در استفاده مؤثر از فناوری بوده است.

با ورود روبات چت بر پایه هوش مصنوعی چَت‌جی‌پی‌تی به بازار محصولات هوش مصنوعی، توجه کاربران عادی بیش‌ازپیش به این دسته محصولات جلب شد. این روبات که می‌تواند مثل یک انسان در زمینه موضوع‌های گوناگون با کاربر مکالمه داشته باشد، تا امروز قدرتمندترین روبات هوش مصنوعی ارائه‌شده در جهان است. این روبات یک مدل زبانی است و فقط ورودی متنی را می‌پذیرد و خروجی آن نیز متن است، اما قرار است که در نسخه ۴ این روبات امکان دریافت ورودی تصویری هم اضافه شود که به کاربران، ازجمله کاربران نابینا و کم‌بینا اجازه می‌دهد تصویری را برای این روبات ارسال کنند و در مورد آن با روبات مکالمه داشته باشند، مثلاً کاربر می‌تواند تصویری را برای این روبات ارسال کند و سپس از روبات بخواهد آن را برای او توصیف کند یا سؤالی را درباره موردی خاص در تصویر از آن بپرسد، اما تا زمان نگارش این مطلب خبری از این ویژگی نیست؛ بنابراین در این مطلب شما را با دو ابزار مبتنی بر هوش مصنوعی مینی‌جی‌پی‌تی ـ ۴ و میدجُورنی آشنا می‌کنیم که کاری مشابه را انجام می‌دهند و عملکردی بسیار بهتر نسبت به ابزاری که شاید تابه‌حال از آنها استفاده کرده‌اید ارائه می‌دهند. توجه داشته باشید که این دو ابزار بیشتر جنبه آزمایشی دارند و به دلیل کندی کار شاید برای استفاده روزمره چندان مناسب نباشند، ولی استفاده از آنها می‌تواند توانایی‌های فوق‌العاده این نوع ابزارها را برایتان به نمایش بگذارد و پیش‌نمایشی باشد از آینده‌ای که در آن تصاویر دیگر برای ما نامأنوس و بلااستفاده نیستند.

مینی‌جی‌پی‌تی ـ ۴ یک پروژه منبع باز است که گروهی از دانشجویان دکتری دانشگاه علم و صنعت ملک عبدالله عربستان سعودی برای به نمایش درآوردن توانایی‌های هوش مصنوعی در زمینه بینایی و زبان، روی بستر گیت‌هاب ارائه داده‌اند. این پروژه پیش‌نمایش خوبی را از امکاناتی که چت‌جی‌پی‌تی در زمینه پردازش تصویر خواهد داشت به ما ارائه می‌دهد. مینی‌جی‌پی‌تی ـ ۴ می‌تواند تصاویر را توصیف کند، بر اساس تصاویر داستان بنویسد و حتی بر پایه تصاویری که با دست کشیده شده‌اند، وبگاه ایجاد کند. این پروژه ارتباطی با جی‌پی‌تی ـ ۴ و شرکت سازنده آن، یعنی اُوپِن‌اِی‌آی ندارد. اکنون نسخه اول این ابزار که صرفاً به‌عنوان نمونه ارائه شده، در وبگاه رسمی گروه سازنده، به‌صورت رایگان، قابل‌دسترسی است.

برای امتحان مینی‌جی‌پی‌تی ـ ۴ باید به این صفحه مراجعه کنید، تصویر موردنظر خود را بارگذاری کنید و سپس به زبان انگلیسی از روبات بخواهید که تصویر را برایتان توصیف کند. پاسخ به زبان انگلیسی خواهد بود که در صورت نیاز می‌توانید آن را با ابزارهای ترجمه موجود به فارسی ترجمه کنید. توصیفی که روبات ارائه می‌دهد معمولاً تا حد زیادی دقیق است، اما احتمال خطا هم وجود دارد.

میدجورنی ابزار دیگر مبتنی بر هوش مصنوعی است که می‌تواند تصاویر را توصیف کند. برخلاف مینی‌جی‌پی‌تی ـ ۴ که فعلاً به‌صورت رایگان ارائه شده، میدجورنی رایگان نیست. این سرویس یک دوره آزمایشی رایگان دارد، اما بعد از گذشت این دوره برای استفاده از آن باید ماهی ده دلار بپردازید. همچنین استفاده از میدجورنی به‌آسانی استفاده از مینی‌جی‌پی‌تی ـ ۴ نیست و برای کار با آن، گذراندن مراحل بیشتر و دانش فنی لازم است، اما از طرف دیگر میدجورنی سرعت بسیار بالاتری نسبت به مینی‌جی‌پی‌تی ـ ۴ دارد و کیفیت توصیفی که این سرویس ارائه می‌دهد بالاتر است. میدجورنی چهار توصیف مختلف را برای هر تصویر ارائه می‌دهد که به ما کمک می‌کند تصویر را از دیدگاه‌های متفاوتی درک کنیم.

برای استفاده از میدجورنی باید اول برنامه پیام‌رسان دیسکورد را بارگیری و نصب کنید. سپس باید با استفاده از این پیوند به سِرور مربوط به میدجورنی بپیوندید. برای کار با برنامه میدجورنی باید از دستوراتی استفاده کنید که با علامت اِسلش شروع می‌شوند. با واردکردن دستور مربوط به توصیف تصویر گزینه‌ای برای بارگذاری تصویر ظاهر می‌شود. پس از بارگذاری، چهار توصیف مختلف برای تصویر نمایش داده می‌شود. میدجورنی امکان تبدیل توصیف به تصویر را هم دارد و این چهار توصیف، درواقع توصیف‌هایی‌اند که اگر یکی از آنها را به میدجورنی بدهید، تصویری مشابه تصویر انتخاب‌شده را برای شما ایجاد می‌کند؛ بنابراین توصیف گاهی کلماتی اضافی مثل منحنی‌های صاف، صیقلی یا نسبت تصویر دارد که میدجورنی در فرایند تولید تصویر می‌تواند از آنها استفاده کند، ولی شاید برای استفاده انسانی مناسب نباشد. ما می‌توانیم این کلمات اضافی را نادیده بگیریم یا از آنها برای دریافت اطلاعات بیشتر درباره تصویر بهره بگیریم. خروجی میدجورنی هم به زبان انگلیسی است.

ما از بررسی این دو سرویس نتایج بسیار خوبی را دریافت کردیم و امیدواریم با اضافه‌شدن امکان تشخیص تصویر به چت‌جی‌پی‌تی، شاهد در دسترس بودن بیش‌از‌پیش این امکان باشیم. همان‌گونه که در یکی از شماره‌های قبلی در این ستون درباره آن صحبت کردیم، بی مای آیز قرار است از امکان تشخیص تصویر نسخه ۴ چت‌جی‌پی‌تی برای ارائه خدمات به کاربران نابینای خود استفاده کند؛ بنابراین با در دسترس قرار گرفتن این امکان می‌توانیم امیدوار باشیم که به‌سرعت از طریق برنامه بی مای آیز به آن دسترسی خواهیم داشت.