ارزیابی استفاده از گفتار مصنوعی جهت تولید توضیحات صوتی برای فیلمها و سریالها
میثم امینی
محتواهای ویدئویی مثل فیلمها و سریالها معمولاً در حالت عادی دسترسیپذیری مناسبی برای افراد نابینا ندارند و در بخشهایی که دیالوگها یا افکتهای صوتی در درک اتفاقاتی که روی صفحه میافتد به آنها کمک نمیکنند. تماشاگران نابینا نمیتوانند بهراحتی و بدون نیاز به کمک دیگران محتواهای ویدئویی را دنبال کنند.
توضیحات صوتی راهحلی است که برای این مشکل در نظر گرفته شده است. یک یا چند نویسنده توضیحاتی را برای صحنههایی از یک محتوای ویدئویی که درک آنها برای یک تماشاگر نابینا دشوار یا غیرممکن است مینویسد و سپس یک صداپیشه این توضیحات را ضبط میکند که بعد روی ترک صوتی ویدئو با رعایت تناسب صدا بین صدای ویدئو و صدای گوینده توضیحات میکس میشود.
سالهاست که توضیحات صوتی در کشورهای پیشرفته در بعضی سینماها و سرویسهای نمایش خانگی مثل نِتفلیکس، برای فیلمها و سریالهای زیادی ارائه میشود که شهروندان نابینای این کشورها را قادر میسازد مثل افراد بینا از این رسانهها لذت برده و بتوانند با فرهنگ جامعه خود که فیلمها و سریالها تأثیر زیادی بر آن دارند همراه باشند.
در سینماها هدفونهای مخصوصی به تماشاگران نابینا داده میشود که درعینحال که به آنها اجازه میدهد صدای خود فیلم را بشنوند، توضیحات صوتی را هم برای آنها پخش میکند. در سرویسهای نمایش خانگی و دیسکهای بلو رِی معمولاً ترک دارای توضیحات صوتی مثل ترکهای دوبله در اختیار کاربران قرار میگیرند و کاربران نابینا میتوانند این ترک را بهجای ترک صوتی اصلی فیلم یا سریال انتخاب کنند تا بتوانند از توضیحات صوتی بهره ببرند.
در سالهای اخیر خوشبختانه در ایران هم شاهد تولید توضیحات صوتی برای تعدادی از فیلمها و سریالهای مختلف ایرانی و خارجی بودهایم. هرچند که این موضوع هنوز بهاندازه کافی در بین ارائهدهندگان حرفهای فیلم و سریال رونق نگرفته و بیشتر به لطف زحمات داوطلبان نابینا و بینا انجام میشود.
یکی از عواملی که تولید توضیحات صوتی را کُند، دشوار و پرهزینه میکند استفاده از صداپیشگان برای ضبط توضیحاتی است که روی صحنههای مختلف فیلمها یا سریالها قرار میگیرند.
باتوجهبه این که اخیراً، به دنبالِ گسترش رباتهای هوش مصنوعی، موتورهای صوتی با پشتیبانی زبان فارسی هم پدیدار شدهاند، این سؤال پیش میآید که آیا ممکن است که با جایگزینکردن موتورهای صوتی با صداپیشگان، تولید توضیحات صوتی را سریعتر، آسانتر و ارزانتر کرد و به این وسیله زمینه تولید توضیحات صوتی برای رسانههای مختلف را گسترش داد؟
در این شماره از ماهنامه نسل مانا در ستون فناوری مقالهای کوتاه از مؤسسه ملی سلطنتی نابینایان انگلستان یا آرانآیبی را در زمینه استفاده از صداهای مصنوعی در تولید توضیحات صوتی مطالعه میکنیم. این مقاله نتیجه تحقیقاتی است که این مؤسسه با همکاری چند ارگان در این زمینه انجام داده است.
با پیشرفت گفتار مصنوعی کاربردهای بالقوه آن در دسترسیپذیری در حال افزایش است. توضیحات صوتی باکیفیت بالا نقش مهمی در دسترسیپذیرتر کردن سینما و تلویزیون برای مخاطبان نابینا و کمبینا ایفا میکند.
اما آیا در تولید توضیحات صوتی، صداهای مصنوعی میتوانند تجربهای قابلمقایسه با روایت انسانی ارائه دهند؟ برای بررسی این سؤال آرانآیبی با چندین رسانه و مرکز تحقیقات آکوستیک در دانشگاه سالفورد همکاری کرد تا ارزیابی کند که عملکرد توضیحات صوتی مصنوعی در ژانرهای مختلف محتوا چگونه است.
در این مطالعه محققین روشهای کیفی و کمی را برای ثبت برداشتهای مخاطبان با هم ترکیب کردند. شرکتکنندگان توضیحات صوتی با گفتار مصنوعی را در شش کلیپ نمونه در زمینههای سرگرمی، درام، ورزش، برنامههای بر اساس واقعیت و مستند ارزیابی کردند. این تحقیق تصویری ظریف را نشان داد: صداهای مصنوعی از نظر وضوح و ثبات، بهویژه در ژانرهای مستند و برنامههای بر اساس واقعیت که عملکرد اصلی آنها ارائه اطلاعات است، قابلقبول تلقی شدند. بااینحال این صداها در زمینه انتقال احساسات، خودانگیختگی و حساسیت به متن، عوامل کلیدی که باعث افزایش تعامل در محتوای سرگرمیمحور میشوند، نمیتوانستند با راویان انسانی رقابت کنند.
یکی از مسائل اصلی که شرکتکنندگان مطرح کردند اهمیت تطبیق لحن گوینده توضیحات صوتی با زمینه عاطفی و فرهنگی محتوا بود. عوامل فنی، مانند میکس صدا و کاهش حجم صدای پسزمینه (متعادلکردن صدای توضیحات صوتی در برابر صدای پسزمینه)، نیز بهعنوان حوزههایی که هنگام استفاده از گفتار مصنوعی نیاز به توجه ویژه دارند، برجسته شدند. این بازخورد نشان میدهد که صدای مصنوعی، هرچند امیدوارکننده است، باید حداقل استانداردهای کیفیت مندرج در گزارش را رعایت کند تا یک تجربه تماشای مثبت را تضمین نماید.
بهعنوان گام بعدی آرانآیبی مجموعهای از معیارها را برای استفاده از صدای مصنوعی در تولید توضیحات صوتی پیشنهاد میکند که شامل قابلفهم بودن، عروض و سازگاری عاطفی میشود.
پروژههای آزمایشی بیشتر بررسی خواهند کرد که چگونه میتوان صداهای مصنوعی را برای انواع مختلف محتوا بهینه کرد و اینکه آیا استراتژیهای تعیین تعادل بین صدای توضیحات صوتی و صدای پسزمینه دستی یا خودکار بر تجربه بیننده تأثیر میگذارند یا خیر.
درحالیکه گفتار مصنوعی مقیاسپذیری را ارائه میدهد، این مطالعه ارزش روایت انسانی را بهویژه برای داستانسرایی غنی از احساسات تقویت میکند. با تحقیقوتوسعه بیشتر، صداهای مصنوعی، میتوانند مکمل -نه جایگزین- توضیحات صوتی انسانی باشند و دسترسی بیشتری را به رسانههای ویدئویی بدون اُفت کیفیت فراهم کنند.
منبع: آرانآیبی