ارزیابی استفاده از گفتار مصنوعی جهت تولید توضیحات صوتی برای فیلم‌ها و سریال‌ها

میثم امینی

محتواهای ویدئویی مثل فیلم‌ها و سریال‌ها معمولاً در حالت عادی دسترسی‌پذیری مناسبی برای افراد نابینا ندارند و در بخش‌هایی که دیالوگ‌ها یا افکت‌های صوتی در درک اتفاقاتی که روی صفحه می‌افتد به آنها کمک نمی‌کنند. تماشاگران نابینا نمی‌توانند به‌راحتی و بدون نیاز به کمک دیگران محتواهای ویدئویی را دنبال کنند.

توضیحات صوتی راه‌حلی است که برای این مشکل در نظر گرفته شده است. یک یا چند نویسنده توضیحاتی را برای صحنه‌هایی از یک محتوای ویدئویی که درک آن‌ها برای یک تماشاگر نابینا دشوار یا غیرممکن است می‌نویسد و سپس یک صداپیشه این توضیحات را ضبط می‌کند که بعد روی ترک صوتی ویدئو با رعایت تناسب صدا بین صدای ویدئو و صدای گوینده توضیحات میکس می‌شود.

سال‌هاست که توضیحات صوتی در کشورهای پیشرفته در بعضی سینماها و سرویس‌های نمایش خانگی مثل نِتفلیکس، برای فیلم‌ها و سریال‌های زیادی ارائه می‌شود که شهروندان نابینای این کشورها را قادر می‌سازد مثل افراد بینا از این رسانه‌ها لذت برده و بتوانند با فرهنگ جامعه خود که فیلم‌ها و سریال‌ها تأثیر زیادی بر آن دارند همراه باشند.

در سینماها هدفون‌های مخصوصی به تماشاگران نابینا داده می‌شود که درعین‌حال که به آن‌ها اجازه می‌دهد صدای خود فیلم را بشنوند، توضیحات صوتی را هم برای آنها پخش می‌کند. در سرویس‌های نمایش خانگی و دیسک‌های بلو رِی معمولاً ترک دارای توضیحات صوتی مثل ترک‌های دوبله در اختیار کاربران قرار می‌گیرند و کاربران نابینا می‌توانند این ترک را به‌جای ترک صوتی اصلی فیلم یا سریال انتخاب کنند تا بتوانند از توضیحات صوتی بهره ببرند.

در سال‌های اخیر خوشبختانه در ایران هم شاهد تولید توضیحات صوتی برای تعدادی از فیلم‌ها و سریال‌های مختلف ایرانی و خارجی بوده‌ایم. هرچند که این موضوع هنوز به‌اندازه کافی در بین ارائه‌دهندگان حرفه‌ای فیلم و سریال رونق نگرفته و بیشتر به لطف زحمات داوطلبان نابینا و بینا انجام می‌شود.

یکی از عواملی که تولید توضیحات صوتی را کُند، دشوار و پرهزینه می‌کند استفاده از صداپیشگان برای ضبط توضیحاتی است که روی صحنه‌های مختلف فیلم‌ها یا سریال‌ها قرار می‌گیرند.

باتوجه‌به این که اخیراً، به دنبالِ گسترش ربات‌های هوش مصنوعی، موتورهای صوتی با پشتیبانی زبان فارسی هم پدیدار شده‌اند، این سؤال پیش می‌آید که آیا ممکن است که با جایگزین‌کردن موتورهای صوتی با صداپیشگان، تولید توضیحات صوتی را سریع‌تر، آسان‌تر و ارزان‌تر کرد و به این وسیله زمینه تولید توضیحات صوتی برای رسانه‌های مختلف را گسترش داد؟

در این شماره از ماهنامه نسل مانا در ستون فناوری مقاله‌ای کوتاه از مؤسسه ملی سلطنتی نابینایان انگلستان یا آران‌آی‌بی را در زمینه استفاده از صداهای مصنوعی در تولید توضیحات صوتی مطالعه می‌کنیم. این مقاله نتیجه تحقیقاتی است که این مؤسسه با همکاری چند ارگان در این زمینه انجام داده است.

با پیشرفت گفتار مصنوعی کاربردهای بالقوه آن در دسترسی‌پذیری در حال افزایش است. توضیحات صوتی باکیفیت بالا نقش مهمی در دسترسی‌پذیرتر کردن سینما و تلویزیون برای مخاطبان نابینا و کم‌بینا ایفا می‌کند.

اما آیا در تولید توضیحات صوتی، صداهای مصنوعی می‌توانند تجربه‌ای قابل‌مقایسه با روایت انسانی ارائه دهند؟ برای بررسی این سؤال آران‌آی‌بی با چندین رسانه و مرکز تحقیقات آکوستیک در دانشگاه سالفورد همکاری کرد تا ارزیابی کند که عملکرد توضیحات صوتی مصنوعی در ژانرهای مختلف محتوا چگونه است.

در این مطالعه محققین روش‌های کیفی و کمی را برای ثبت برداشت‌های مخاطبان با هم ترکیب کردند. شرکت‌کنندگان توضیحات صوتی با گفتار مصنوعی را در شش کلیپ نمونه در زمینه‌های سرگرمی، درام، ورزش، برنامه‌های بر اساس واقعیت و مستند ارزیابی کردند. این تحقیق تصویری ظریف را نشان داد: صداهای مصنوعی از نظر وضوح و ثبات، به‌ویژه در ژانرهای مستند و برنامه‌های بر اساس واقعیت که عملکرد اصلی آن‌ها ارائه اطلاعات است، قابل‌قبول تلقی شدند. بااین‌حال این صداها در زمینه انتقال احساسات، خودانگیختگی و حساسیت به متن، عوامل کلیدی که باعث افزایش تعامل در محتوای سرگرمی‌محور می‌شوند، نمی‌توانستند با راویان انسانی رقابت کنند.

یکی از مسائل اصلی که شرکت‌کنندگان مطرح کردند اهمیت تطبیق لحن گوینده توضیحات صوتی با زمینه عاطفی و فرهنگی محتوا بود. عوامل فنی، مانند میکس صدا و کاهش حجم صدای پس‌زمینه (متعادل‌کردن صدای توضیحات صوتی در برابر صدای پس‌زمینه)، نیز به‌عنوان حوزه‌هایی که هنگام استفاده از گفتار مصنوعی نیاز به توجه ویژه دارند، برجسته شدند. این بازخورد نشان می‌دهد که صدای مصنوعی، هرچند امیدوارکننده است، باید حداقل استانداردهای کیفیت مندرج در گزارش را رعایت کند تا یک تجربه تماشای مثبت را تضمین نماید.

به‌عنوان گام بعدی آران‌آی‌بی مجموعه‌ای از معیارها را برای استفاده از صدای مصنوعی در تولید توضیحات صوتی پیشنهاد می‌کند که شامل قابل‌فهم بودن، عروض و سازگاری عاطفی می‌شود.

پروژه‌های آزمایشی بیشتر بررسی خواهند کرد که چگونه می‌توان صداهای مصنوعی را برای انواع مختلف محتوا بهینه کرد و اینکه آیا استراتژی‌های تعیین تعادل بین صدای توضیحات صوتی و صدای پس‌زمینه دستی یا خودکار بر تجربه بیننده تأثیر می‌گذارند یا خیر.

درحالی‌که گفتار مصنوعی مقیاس‌پذیری را ارائه می‌دهد، این مطالعه ارزش روایت انسانی را به‌ویژه برای داستان‌سرایی غنی از احساسات تقویت می‌کند. با تحقیق‌وتوسعه بیشتر، صداهای مصنوعی، می‌توانند مکمل -نه جایگزین- توضیحات صوتی انسانی باشند و دسترسی بیشتری را به رسانه‌های ویدئویی بدون اُفت کیفیت فراهم کنند.

منبع: آر‌ان‌آی‌بی