معرفی دو ابزار هوش مصنوعی مینیجیپیتی ـ ۴ و میدجورنی برای توصیف تصاویر
گردآوری و ترجمه: میثم امینی
در سالهای اخیر شاهد ارائه ابزارهای مختلفی برای توصیف تصاویر برای افراد نابینا بودهایم؛ از برنامههای تلفن همراه گرفته تا وبگاهها و افزونههای مختلف. این ابزارها یک تصویر را دریافت میکنند و با استفاده از هوش مصنوعی تلاش میکنند توصیفی مناسب را درباره آن به کاربر ارائه دهند که این موضوع میتواند برای یک فرد نابینا بسیار مفید باشد، مثلاً چنین ابزاری میتواند به فرد نابینا در شناسایی فضای اطراف، پیداکردن شیءِ موردنظر، اطلاع از محتوای تصاویری که در شبکههای اجتماعی منتشر میشوند، استفاده از برنامههای با دسترسپذیری نامناسب، تشخیص جزئیات داخل عکسهای یادگاری و خانوادگی و مرتبکردن آنها و… کمک کند.
این ابزارها روزبهروز قدرتمندتر میشوند و جزئیات بیشتری را با دقتی بالاتر و خطای کمتر به کاربران ارائه میدهند که این موضوع خبری خوب برای کاربران نابینا است، چون همیشه مشکل عدم توانایی درک محتوای تصاویر، یکی از موانع سر راه آنها در استفاده مؤثر از فناوری بوده است.
با ورود روبات چت بر پایه هوش مصنوعی چَتجیپیتی به بازار محصولات هوش مصنوعی، توجه کاربران عادی بیشازپیش به این دسته محصولات جلب شد. این روبات که میتواند مثل یک انسان در زمینه موضوعهای گوناگون با کاربر مکالمه داشته باشد، تا امروز قدرتمندترین روبات هوش مصنوعی ارائهشده در جهان است. این روبات یک مدل زبانی است و فقط ورودی متنی را میپذیرد و خروجی آن نیز متن است، اما قرار است که در نسخه ۴ این روبات امکان دریافت ورودی تصویری هم اضافه شود که به کاربران، ازجمله کاربران نابینا و کمبینا اجازه میدهد تصویری را برای این روبات ارسال کنند و در مورد آن با روبات مکالمه داشته باشند، مثلاً کاربر میتواند تصویری را برای این روبات ارسال کند و سپس از روبات بخواهد آن را برای او توصیف کند یا سؤالی را درباره موردی خاص در تصویر از آن بپرسد، اما تا زمان نگارش این مطلب خبری از این ویژگی نیست؛ بنابراین در این مطلب شما را با دو ابزار مبتنی بر هوش مصنوعی مینیجیپیتی ـ ۴ و میدجُورنی آشنا میکنیم که کاری مشابه را انجام میدهند و عملکردی بسیار بهتر نسبت به ابزاری که شاید تابهحال از آنها استفاده کردهاید ارائه میدهند. توجه داشته باشید که این دو ابزار بیشتر جنبه آزمایشی دارند و به دلیل کندی کار شاید برای استفاده روزمره چندان مناسب نباشند، ولی استفاده از آنها میتواند تواناییهای فوقالعاده این نوع ابزارها را برایتان به نمایش بگذارد و پیشنمایشی باشد از آیندهای که در آن تصاویر دیگر برای ما نامأنوس و بلااستفاده نیستند.
مینیجیپیتی ـ ۴ یک پروژه منبع باز است که گروهی از دانشجویان دکتری دانشگاه علم و صنعت ملک عبدالله عربستان سعودی برای به نمایش درآوردن تواناییهای هوش مصنوعی در زمینه بینایی و زبان، روی بستر گیتهاب ارائه دادهاند. این پروژه پیشنمایش خوبی را از امکاناتی که چتجیپیتی در زمینه پردازش تصویر خواهد داشت به ما ارائه میدهد. مینیجیپیتی ـ ۴ میتواند تصاویر را توصیف کند، بر اساس تصاویر داستان بنویسد و حتی بر پایه تصاویری که با دست کشیده شدهاند، وبگاه ایجاد کند. این پروژه ارتباطی با جیپیتی ـ ۴ و شرکت سازنده آن، یعنی اُوپِناِیآی ندارد. اکنون نسخه اول این ابزار که صرفاً بهعنوان نمونه ارائه شده، در وبگاه رسمی گروه سازنده، بهصورت رایگان، قابلدسترسی است.
برای امتحان مینیجیپیتی ـ ۴ باید به این صفحه مراجعه کنید، تصویر موردنظر خود را بارگذاری کنید و سپس به زبان انگلیسی از روبات بخواهید که تصویر را برایتان توصیف کند. پاسخ به زبان انگلیسی خواهد بود که در صورت نیاز میتوانید آن را با ابزارهای ترجمه موجود به فارسی ترجمه کنید. توصیفی که روبات ارائه میدهد معمولاً تا حد زیادی دقیق است، اما احتمال خطا هم وجود دارد.
میدجورنی ابزار دیگر مبتنی بر هوش مصنوعی است که میتواند تصاویر را توصیف کند. برخلاف مینیجیپیتی ـ ۴ که فعلاً بهصورت رایگان ارائه شده، میدجورنی رایگان نیست. این سرویس یک دوره آزمایشی رایگان دارد، اما بعد از گذشت این دوره برای استفاده از آن باید ماهی ده دلار بپردازید. همچنین استفاده از میدجورنی بهآسانی استفاده از مینیجیپیتی ـ ۴ نیست و برای کار با آن، گذراندن مراحل بیشتر و دانش فنی لازم است، اما از طرف دیگر میدجورنی سرعت بسیار بالاتری نسبت به مینیجیپیتی ـ ۴ دارد و کیفیت توصیفی که این سرویس ارائه میدهد بالاتر است. میدجورنی چهار توصیف مختلف را برای هر تصویر ارائه میدهد که به ما کمک میکند تصویر را از دیدگاههای متفاوتی درک کنیم.
برای استفاده از میدجورنی باید اول برنامه پیامرسان دیسکورد را بارگیری و نصب کنید. سپس باید با استفاده از این پیوند به سِرور مربوط به میدجورنی بپیوندید. برای کار با برنامه میدجورنی باید از دستوراتی استفاده کنید که با علامت اِسلش شروع میشوند. با واردکردن دستور مربوط به توصیف تصویر گزینهای برای بارگذاری تصویر ظاهر میشود. پس از بارگذاری، چهار توصیف مختلف برای تصویر نمایش داده میشود. میدجورنی امکان تبدیل توصیف به تصویر را هم دارد و این چهار توصیف، درواقع توصیفهاییاند که اگر یکی از آنها را به میدجورنی بدهید، تصویری مشابه تصویر انتخابشده را برای شما ایجاد میکند؛ بنابراین توصیف گاهی کلماتی اضافی مثل منحنیهای صاف، صیقلی یا نسبت تصویر دارد که میدجورنی در فرایند تولید تصویر میتواند از آنها استفاده کند، ولی شاید برای استفاده انسانی مناسب نباشد. ما میتوانیم این کلمات اضافی را نادیده بگیریم یا از آنها برای دریافت اطلاعات بیشتر درباره تصویر بهره بگیریم. خروجی میدجورنی هم به زبان انگلیسی است.
ما از بررسی این دو سرویس نتایج بسیار خوبی را دریافت کردیم و امیدواریم با اضافهشدن امکان تشخیص تصویر به چتجیپیتی، شاهد در دسترس بودن بیشازپیش این امکان باشیم. همانگونه که در یکی از شمارههای قبلی در این ستون درباره آن صحبت کردیم، بی مای آیز قرار است از امکان تشخیص تصویر نسخه ۴ چتجیپیتی برای ارائه خدمات به کاربران نابینای خود استفاده کند؛ بنابراین با در دسترس قرار گرفتن این امکان میتوانیم امیدوار باشیم که بهسرعت از طریق برنامه بی مای آیز به آن دسترسی خواهیم داشت.