نگاهی به امکان استفاده از هوش مصنوعی برای تشخیص تصاویر در برنامه بی مای آیز
گردآوری و ترجمه:میثم امینی
بهاحتمالزیاد نام بی مای آیز برای شما نامی آشناست. این برنامه در ژانویه ۲۰۱۵ شروع به کار کرد و این امکان را برای افراد نابینا و کمبینا فراهم کرد تا بتوانند با برقراری تماس تصویری با داوطلبان بینا از طریق تلفن همراه خود، از این داوطلبان در موارد مختلفی که نیاز به بینایی وجود دارد کمک بگیرند. هماهنگ کردن رنگ لباسها، کار با وسایل منزل غیر دسترسپذیر و پیدا کردن وسایل گمشده نمونههایی از مواردی است که افراد با آسیب بینایی میتوانند به کمک بی مای آیز انجام دهند.
اخیراً شرکت بی مای آیز اعلام کرده است که میخواهد با استفاده از امکان جدید تشخیص تصویر نسخۀ۴ روبات هوش مصنوعی چَتجیپیتی، امکان دریافت توضیحات از تصاویر و پرسیدن سؤال در مورد آنها را با عنوان بی مای اِی آی برای کاربران برنامه بی مای آیز فراهم کند. این امکان برای مدتی بهصورت بسته مورد آزمایش قرار گرفت و بعد از مدتی فراخوان ثبتنام بهعنوان آزمایشکنندۀ بتا منتشر شد که به کاربران بی مای آیز اجازه میداد برای آزمایش این امکان جدید داوطلب شوند.
از روز ۱۴ اوت امسال کاربران آیفون که قبلاً بهعنوان داوطلب برای آزمایش امکان بی مای ای آی ثبتنام کرده بودند، بهتدریج به این امکان دسترسی پیدا کردند.
اکنون بی مای ای آی برای همۀ کاربران آیفون در دسترس است و این افراد میتوانند از این امکان استفاده کنند. همچنین نسخۀ آزمایشی این امکان از چند هفته پیش، کمکم، در حال فعال شدن برای کاربران اندروید است که برای آزمایش این امکان ثبتنام کردهاند. پس اگر قبلاً برای آزمایش بی مای ای آی ثبتنام کردهاید، برنامۀ خود را بهروز نگه دارید و منتظر رسیدن نوبتتان باشید. اگر هم تاکنون ثبتنام نکردهاید، میتوانید این کار را داخل برنامۀ بی مای آیز انجام دهید.
در ادامه بخشی از تجربۀ یک فرد نابینا از بی مای ای آی را که در مجلۀ «اِسلِیت» منتشر شده است میخوانیم.
من بهطور مادرزاد نابینای مطلقم و تا قبل از این چیزهایی که افراد میتوانستند از محیط اطرافم برایم توضیح دهند، دنیای دیداریام را تشکیل میداد. برای اینکه بتوانم همۀ جزئیات یک اتاق را درک کنم یا در یک رستوران صورتغذا را بخوانم، به فرد دیگری وابسته بودم. وقتی عکس میگرفتم، معمولاً یادداشتهای صوتی را برای آنها ضبط میکردم و اینکه کجا بودم و چه حسی داشتم را توصیف میکردم؛ به این امید که روزی بتوانم این تصاویر و یادداشتهای صوتی را باهم جفت کنم و فاصلۀ بین آنها را از بین ببرم. پوشۀ حاوی تصاویر گرفتهشده در تلفن همراهم بیشتر پر شده بود با عکسهایی که گرفته شده بودند تا دیگران از آنها لذت ببرند، زیرا کسی نمیتوانست ساعتها با من بنشیند و اینکه چطور موجهای دریا به صخرهها میخورند یا جزئیات یک خیابان شلوغ و پر جنب و جوش در ایتالیا را برایم توصیف کند. درنهایت جزئیات ملموستر، به تخیل خودم سپرده میشد؛ تخیلی که هرچند قوی بود، ولی به چیز بیشتری نیاز داشت.
وقتی برای اولین بار در مورد بی مای ای آی، همکاری جدیدی بین شرکت اُوپِن ای آی و بی مای آیز، برنامهای که داوطلبان بینا را از طریق تماس تصویری به نابینایانی که به کمک نیاز دارند متصل میکند، شنیدم، به خودم اجازه ندادم زیادی هیجانزده شوم. بی مای ای آی قول میداد که به ما نابینایان اجازه دهد توصیفی را دریافت کنیم که هوش مصنوعی آن را از هر تصویری که بارگذاری میکنیم تولید میکند. این یک چشمانداز وسوسهانگیز بود، اما این اولین باری نبود که شرکتی فناوری قول میداد که شیوۀ دسترسی معلولان را به محتوای دیداری متحول کند. مایکروسافت قبلاً برنامۀ سیینگ اِی آی را در اختیار ما قرار داده است که به شکلی بسیار ابتدایی ایدهای کلی را به ما ارائه میکند از اینکه در تصاویری که ما با این برنامه به اشتراک گذاشتهایم، چه خبر است و به ما اجازه میدهد با اطلاعات موجود در متن نوشتهشده، بازهم به شکلی نسبتاً ابتدایی، تعامل داشته باشیم. در توصیفهایی که سیینگ ای آی ارائه میدهد، جزئیات وجود ندارد و در بیشتر موارد ما فقط میدانیم که فردی در تصویر وجود دارد و این فرد چهکاری را انجام میدهد و نه چیزی بیشتر، اما بی مای ای آی متفاوت بود.
ناگهان من در دنیایی بودم که در آن هیچچیز برایم محدود نبود. تنها با تکان دادن تلفن همراهم میتوانستم با جزئیات کامل بشنوم که دوستانم چه لباسی پوشیدهاند، تابلوهای خیابانها و قیمت محصولات در مغازهها را بخوانم، داخل یک اتاق را بدون وارد شدن به آن تجزیه و تحلیل کنم و در توصیف دقیق غذا که یکی از علاقهمندیهای بزرگ من است غرق شوم، حتی توصیف رنگها، که برای بسیاری از ما به اندازۀ یک فرد بینا مهم است، نادیده گرفته نشده بود. من میتوانستم از تلفن همراهم برای هماهنگ کردن لباسهای مورد علاقهام به شکلهایی که به ذهن خودم نرسیده بود استفاده کنم. یکی از سرگرمیهای مورد علاقهام کشف رنگ اشیا در زندگی روزمرهام شد. از لوگوی برندها تا مبلمان موجود در فضای اطرافم، چیزهایی که هیچوقت به فکر پرسیدن رنگشان نیفتاده بودم.
احساس میکردم که انگار دستیار شخصی کوچکی را در جیبم دارم که آماده است هر چیزی را که در زندگی روزمرهام با آن برخورد میکنم، برایم توصیف کند. برخلاف برنامههای دیگر، این دستیار میتوانست به سؤالهای من نیز پاسخ دهد. ادغام با جیپیتی-۴ به این معنا بود که من میتوانستم با هوش مصنوعی دربارۀ تصاویری که ارسال میکردم، مکالمه داشته باشم. من شروع کردم به عکس گرفتن از فهرست غذاهای رستورانها و پرسیدن سؤال از هوش مصنوعی در مورد قیمتها یا غذاهایی با شرایطی که به دنبالشان بودم. بااینکه میدانستم هنوز به چیزی که ناقص است و هرلحظه ممکن است از کار بیفتد و ضمانتی برای باقیماندنش نیست متکی شدهام، همۀ اینها بهطور عجیبی برایم آزادیبخش بود.
درنهایت این مطلب را با نمونهای از توصیفی که بی مای ای آی برای یک تصویر تولید کرده است، به پایان میرسانیم.
تصویر یک خانوادۀ چهارنفره را نشان میدهد که در اتاقی با کف چوبی و دیوار سبز روشن ایستادهاند. مردی در سمت چپ قرار دارد که پیراهن چهارخانۀ آبی پوشیده است و در کنار او زن جوانی با ژاکت سفید قرار دارد. در سمت راست او یک زن مسن است که او هم ژاکت سفیدی به تن دارد. در مقابل آنها پسری جوان با پیراهن مشکی و شلوار خاکستری قرار دارد. مرد و زن جوان دستهای خود را دور پسر گذاشتهاند. پشت آنها دری چوبی در سمت چپ و یک اثر هنری قابشده در سمت راست قرار دارد. همۀ آنها خوشحال و راضی به نظر میرسند.