حقیقتی بسیار ترسناک درباره تکامل تکنولوژی دیپ فیک

حقیقتی بسیار ترسناک درباره تکامل تکنولوژی دیپ فیک

تکنولوژی دیپ فیک – deepfake مبنای ساخت بسیاری ویدیوهای تقلبی از چهره‌های سرشناس است که با هدف گمراه کردن اذهان عمومی منتشر می‌شوند. آیا باید از سرعت سرسام‌آور پیشرفت این فناوری ترسید؟

در سال 1917، کمی پس از اختراع دوربین‌های شخصی، تصاویری تکان‌دهنده از کودکانی که در کنار ارواح یا موجودات اساطیری قرار داشتند، در سرتاسر دنیا منتشر شدند! صحت این تصاویر توسط تعدادی از متخصصین آن زمان تایید شدند و آرتور کونان دویل، نویسنده سرشناس رمان‌های علمی تخیلی و معمایی هم به گسترش مفاهیم برگرفته از این تصاویر کمک کرد.

چندین دهه بعد، کودکان حاضر در این تصاویر که به افرادی میان‌سال تبدیل شده بودند تایید کردند که این تصاویر تماما ساختگی بوده و با سرهم کردن قطعات مختلف کاغذ ساخته شده بودند. بنابراین تاریخچه انتشار تصاویر تقلبی با هدف سرگرمی، کلاهبرداری یا ترساندن افراد، قدمتی به اندازه دوربین‌های همراه دارد!

در تمام این سال‌ها میل انسان به ساخت تصاویر مختلف با بهره‌گیری از تخیل و تصوراتش، زمینه‌ساز سرگرمی‌هایی مهم بوده که صنعت فیلم و سینما با استفاده از ادوات سخت‌افزاری، حقه‌های تصویربرداری یا ویرایش‌های پس از تولید اقدام به ساخت این دسته تصاویر نموده است.

با پیشرفت تکنولوژی‌های تصویربرداری و دیجیتالی‌تر شدن آن‌ها، روش‌های جدیدی برای ساخت تصاویر غیرواقعی در اختیار عموم مردم قرار گرفت. در عین حال، گسترش این تکنولوژی‌ها چندان هم بی‌خطر نبود و به تدریج نگرانی‌هایی را در میان مردم ایجاد کرد.

امروزه، هر کسی با اندکی مهارت و دسترسی به نرم افزارهای مربوطه قادر است تصاویر و ویدیوهایی ساختگی از هر فرد دیگری را تولید کرده و منتشر کند. در این شرایط چگونه می‌توانیم به چشمانمان اعتماد کنیم و از صحت اخبار و یا ویدیوهایی که در اینترنت یا سایر بسترهای مجازی می‌بینیم مطمئن باشیم؟

تکنولوژی دیپ فیک چیست؟

عبارت دیپ فیک (deep fake) امروزه عملا برای هر گونه تصویر ساختگی از افراد استفاده می‌شود. اما این نامگذاری درست نیست و دیپ فیک تعریفی مشخص دارد. برای این که تصویری ساختگی در دسته دیپ فیک قرار گیرد باید شرایط خاصی داشته باشد. به عنوان مثال، محتوای مورد نظر باید حتما یک ویدیو باشد و همچنین از هوش مصنوعی برای ساخت آن استفاده شده باشد. عبارت deep (عمیق) در کلمه deep fake به الگوریتم‌های یادگیری عمیق به کار رفته در ساخت تصاویر دستکاری شده به کمک این تکنولوژی اشاره دارد.

به بیان دقیق‌تر، هر ویدیویی که به کمک یک یا چند الگوریتم هوش مصنوعی ساخته شده و تصاویری باورپذیر که در واقعیت رخ نداده‌اند را نمایش دهد، در دسته ویدیوهای دیپ فیک قرار می‌گیرد.

به کمک هوش مصنوعی می‌توان تمامی صندلی‌های درون یک ویدیو را با پرتقال‌های غول‌پیکر جایگزین کرد یا با کمی خلاقیت دست به انجام کارهایی باورنکردنی زد. بنابراین کاربرد هوش مصنوعی در ساخت ویدیوهای دستکاری‌شده بسیار گسترده است. با این وجود، تکنولوژی دیپ فیک عموما با چهره‌ها سر و کار داشته و بیش از هرکس، چهره‌های مشهوری نظیر سلبریتی‌ها یا سیاستمداران را شامل می‌شود.

از یک منظر خاص، همه ما به طور روزانه با دیپ فیک سر و کار داریم و ویدیوهای ساده‌ای را با بهره‌گیری از این تکنولوژی می‌سازیم. بنا به گزارش Forbes، فیلترهای مورد استفاده در اسنپ چت یا تیک تاک به نحوی از قابلیت تشخیص چهره بهره می‌برند و با استفاده از هوش مصنوعی چهره کاربر را تغییر داده یا جزئیاتی را به آن اضافه می‌کنند.

نخستین شبکه تهاجمی مولد

انواع مختلفی از هوش مصنوعی وجود دارد که هریک قابلیت منحصربفردی دارند.‌ برخی از این هوش‌های مصنوعی در تشخیص صدا و ارائه پاسخ به آن تخصص دارند و برخی دیگر محیط را شناسایی کرده و در داخل آن به جستجو می‌پردازند.‌

این دسته هوش‌های مصنوعی عموما بر پایه علوم یا مستندات کنونی انسان استوار هستند و صرفا قادر به تقلید از رفتار انسان در یک شرایط خاص می‌باشند.‌ از سوی دیگر، گام بعدی برای این تکنولوژی خلق پدیده‌های جدید است.

در سال 2014، یان گودفلو و همکارانش چارچوب جدیدی را برای تمرین دادن هوش مصنوعی مولد ارائه کردند. این سیستم که با نام شبکه تهاجمی مولد شناخته شد، برای نخستین بار بر روی پایگاه Arxiv قرار گرفت. ایده شبکه عصبی آن‌ها کاملا خلاقانه بود و بر پایه مقایسه دو مدل کامپیوتری با هم بنا شده بود. مدل اول، هرچه کاربر می‌خواست، اعم از حروف، اعداد و یا حتی چهره افراد را تولید می‌کرد و سیستم دوم تعیین می‌کرد که آیا داده‌های تولید شده توسط کامپیوتر اول منحصربفرد هستند یا برگرفته از داده‌های واقعی مورد استفاده برای تمرین دادن الگوریتم!

در صورتی که سیستم دوم تشخیص می‌داد که مدل تولید شده توسط کامپیوتر اول منحصربفرد است، این مدل در بخشی جداگانه ذخیره می‌شد و چرخه مجددا به جریان می‌افتاد. ماهیت مقایسه‌ای این روش باعث درگیری دائم سیستم‌های اول و دوم با یکدیگر و در نتیجه تولید تصاویر تصاویر غیرواقعی قانع‌کننده‌تری می‌شد.

توانایی تمرین دادن الگوریتم‌های هوش مصنوعی با تصاویر واقعی با هدف دست یافتن به چهره‌های تقلبی، پایه و اساس تکنولوژی دیپ فیک را تشکیل می‌دهد.

جوان‌سازی و تغییر چهره در فیلم‌های سینمایی

حوالی زمانی که گودفلو در حال معرفی نخستین شبکه تهاجمی مولد خود بود، استودیو لوکاس فیلم با جدیت کار بر روی فیلم Rogue One، نخستین فیلم ساخته شده از دنیای جنگ ستارگان که مستقیما به خاندان اسکای‌واکر مرتبط نبود را پیگیری می‌کرد. در این فیلم، دو کاراکتر نام آشنای نسخه‌های پیشین این مجموعه، یعنی گرند مف تارکین و شاهزاده لیا در فیلم حضور داشتند. این در حالی بود که هیچ یک از دو بازیگر ایفاگر این دو نقش، پیتر کوشینگ و کری فیشر، قادر به ایفای نقش در فیلم نبودند!

در عوض، سازندگان فیلم از بازیگران دیگری به جای این کاراکترها استفاده کرده و پس از ضبط، با استفاده از هوش مصنوعی، چهره پیتر کوشینگ و کری فیشر جوان‌تر را جایگزین این بازیگران کردند. البته در این میان لازم بود که بازیگران انتخاب‌شده علاوه بر طراحی کلی صورت، در لحن ادای دیالوگ‌ها نیز شبیه به فیشر و کوشینگ باشند.

در سال‌های بعد فیلم‌سازان رو به استفاده از تکنولوژی موشن کپچر آوردند که از نقطه‌هایی روی صورت بازیگران برای شناسایی حرکات بهره می‌برد. پس از اتمام ضبط، فیلم‌سازان داده‌های موجود از موشن کپچر را مورد استفاده قرار داده و افکت‌های مختلفی را بر روی آن اعمال می‌کردند.

به این ترتیب، با این که در زمان انتشار فیلم Rogue One هنوز تکنولوژی دیپ فیک مانند امروز فراگیر نشده بود، اما بسیاری از افراد به واسطه این فیلم با پیشرفت‌های تکنولوژیکی که در شرف رخ دادن در صنعت فیلم‌سازی بود، آشنا شدند.

ریشه عبارت دیپ فیک

در ادبیات امروزی، عبارت دیپ فیک مفهوم بسیار جامعی پیدا کرده و برخی از ما بدون توجه به ریشه این عبارت، از آن در شرایط مختلف استفاده می‌کنیم. با این وجود، نامگذاری این عبارت هوشمندانه‌تر از چیزی که به نظر می‌رسد، انجام شده است! کلمه دیپ فیک (Deep fake) در حقیقت تشکیل شده از دو کلمه دیپ به معنای عمیق و فیک به معنای قلابی است. کلمه عمیق در این عبارت، همان طور که اشاره شد، به الگوریتم‌های یادگیری عمیق اشاره دارد و فیک هم حاکی از قلابی بودن تصاویر ایجاد شده است.

ادوبی به شما امکان می‌دهد هر عبارتی که مایلید را بخوانید

در سال 2016 ادوبی نرم افزاری تحت نام VoCo را رونمایی کرد که قرار بود همان نقشی را برای فایل‌های صوتی ایفا کند که فوتوشاپ برای تصاویر انجام می‌داد! این نرم افزار به تنها 20 دقیقه از صدای یک فرد نیاز داشت تا بتواند مدلی از صدای او را بازسازی کند.

به طور کلی چهره‌های شناخته‌شده نظیر سیاستمداران ساعت‌ها ترک صوتی، مصاحبه و اجراهای زنده را در آرشیوهای مختلف صوتی و ویدیویی دارند. همچنین در سال‌های اخیر پادکست‌ها هم منابع خوبی برای جمع‌آوری فایل‌های صوتی به شمار می‌روند؛ به طوری که جمع‌آوری یک ترک صوتی 20 دقیقه‌ای کار چندان سختی نیست! حتی با نگاهی به اپلیکیشن‌های پیام‌رسان در گوشی خودمان نیز می‌توانیم ترک‌های صوتی فراوانی پیدا کنیم که مجموع آن‌ها قطعا بیش از بیست دقیقه خواهند بود.

در گام بعدی، اپلیکیشن VoCo می‌تواند با آنالیز همین ترک بیست دقیقه‌ای، مدلی را طراحی کند که دقیقا مانند صدای هدف صحبت می‌کند و هرچه را که تایپ کنیم به زبان می‌آورد. ادوبی برای نمایش توانایی این نرم افزار، مصاحبه‌ای از بازیگر هالیوودی، کیگان مایکل را پخش کرده و سپس بخش‌های مختلفی از جملات ادا شده توسط او را جابجا می‌کند. همچنین در گام نهایی، ادوبی بخش از سخنرانی او را کاملا حذف کرده و با بخش دیگری جایگزین می‌کند.

نتیجه کار، فایلی صوتی تشکیل شده از جملات، عبارات و کلماتی است که گوینده اصلی هرگز به زبان نیاورده است! البته ادوبی فکر سوء استفاده‌های احتمالی از این تکنولوژی را هم کرده و فایل‌های صوتی تولید شده توسط VoCo را به طور خاصی نشانه‌گذاری می‌کند تا تشخیص تقلبی بودن آن ممکن باشد!

Face2Face؛ دیگر قابلیت باورنکردنی تکنولوژی دیپ فیک

در سال 2018 دانشمندانی آلمانی و آمریکایی برای نخستین بار Face2Face را در مقاله‌ای که در مجله علمی Communications of the ACM چاپ شد، معرفی کردند. در این مقاله دانشمندان یاد شده به توضیح در خصوص فرآیند استفاده از حرکات چهره به منظور دستکاری حالت چهره یا حرکت دهان در ویدیوهای مختلف پرداختند.

Face2Face برای انجام این کار از دو دسته ویدیو استفاده می‌کند. دسته اول، ویدیویی است که قصد اعمال تغییرات در آن را دارید و دسته دوم، ویدیوهایی از بازیگری است که تغییرات مد نظرتان را بازی می‌کند. به ادعای نویسندگان، ویدیوی هدف می‌تواند از هر منبعی مانند یوتیوب استخراج شده باشد؛ در حالی که ویدیوی دوم حتی می‌تواند توسط وبکم ضبط شود!

پس از این که ویدیوی دوم به عنوان ورودی در اختیار الگوریتم Face2Face قرار گرفت، سیستم، حرکات چهره آن را اسکن کرده و تغییرات چهره‌های آن را به ویدیوی اصلی منتقل می‌کند. در صورتی که بازیگر قادر باشد صدای کاراکتر هدف را نیز به خوبی تقلید کند، نتیجه کار فوق‌العاده خواهد بود؛ هرچند که این کار به طور خاص ضرورتی ندارد.

بنابراین با استفاده همزمان از Face2Face و Voco ادوبی می‌توان علاوه بر این که صدای شخصیت هدف را به طور دقیق شبیه‌سازی کرد، کنترل چهره و علائم صورت او را نیز به طور کامل به دست گرفته و یک ویدیوی تقلبی کاملا باورپذیر از او را تولید کرد.

DeepFaceLive

ساخت ویدیوهای دیپ فیک اساسا بر پایه استفاده از ویدیوهایی در دسترس و دستکاری آن‌ها از طریق الگوریتم‌های هوش مصنوعی استوار است. چندی پیش، کاربری از تیک تاک که پیش از این وظیفه ساخت ویدیوهایی تقلبی از تام کروز را بر عهده داشت، در مصاحبه‌ای با Today اعلام کرد که پیش از این ساخت یک کلیپ دیپ فیک برای تیک تاک چندین هفته یا بیشتر زمان می‌برد.

با این حال، با گذشت حدود یک سال از این مصاحبه، ساخت ویدیو با استفاده تکنولوژی دیپ فیک تنها چند روز زمان نیاز دارد. با پیشرفت تکنولوژی‌های حوزه هوش مصنوعی، زمان ساخت ویدیوهای دیپ فیک نیز کاهش یافته و استفاده از آن در دسترس افراد بیشتری قرار می‌گیرد. یکی از مصادیق این امر، توسعه ابزار DeepFaceLive است.

DeepFaceLive یک ابزار اوپن سورس است که در سال 2021 توسط توسعه‌دهنده‌ای روسی به نام Iperov ساخته شده و در گیت‌هاب قرار گرفت. سازنده DeepFaceLive پیش از آن در توسعه فناوری دیپ فیک تاثیر بسزایی داشته است. به گزارش Daily Dot این ابزار نیز همانند دیگر نرم افزارها و سرویس‌های این حوزه، از تمرین دادن الگوریتم‌های AI برای شبیه‌سازی صدا و چهره شخصیت‌ها استفاده می‌کند؛ با این تفاوت که در این اپلیکیشن، فرآیندهای یاد شده به صورت ریل‌تایم انجام می‌شود.

تکنولوژی مورد استفاده در DeepFaceLive بسیار شبیه به فیلترهایی‌ست که در اسنپ چت یا تیک تاک استفاده می‌شود. با این وجود، به جای تبدیل کردن چهره افراد به سگ یا دیگر حیوانات، می‌توانید چهره‌تان را به یک سلبریتی تبدیل کنید. این ابزار همچنین با اکثر نرم افزارهای تماس ویدیویی نظیر زوم یا اسکایپ سازگار بوده و عملا به کاربران این امکان را می‌دهد که در نقش شخصیت دیگری در تماس ویدیویی حاضر شوند!

ماجرای In Event of Moon Disaster

همان طور که اشاره شد، از زمان توسعه تکنولوژی دیپ فیک، یکی از نگرانی‌های اصلی مربوط به احتمال استفاده از این ویدیوهای تقلبی و باورپذیر در رویدادهای مختلف با هدف فریب دادن مخاطبان بوده است. با این وجود، برخی استفاده‌های این ابزارها که عموما با هدف‌های سرگرمی یا آموزشی هستند، مفید بوده و کاربردهای زیادی دارند.

یکی از نشانه‌های این امر در زمان پرتاب سفینه آپولو 11 اتفاق افتاد؛ جایی که نیل آرمسترانگ، باز آلدرین و مایکل کالینز به سفری اسرارآمیز به کره ماه فرستاده شدند. در آن زمان، دولتمردان ایالات متحده آماده دو نتیجه مختلف از این پروژه بودند.

از یک طرف، ریچارد نیکسون، رییس جمهور وقت ایالات متحده آمریکا در یک سخنرانی، از پرتاب موفقیت‌آمیز این سفینه خبر داد و فرود نخستین انسان‌ها بر روی کره ماه را تبریک گفت. از سوی دیگر، سال‌ها بعد، یک ویدیوی کاملا متفاوت از نیکسون ساخته شد که در آن، خبر از شکست پروژه و تراژدی رخ داده در فاصله‌ای بسیار دور از زمین داده می‌شد!

ویدیوی دوم، یک ویدیوی کاملا تقلبی بود که سازندگان با هدف آماده‌سازی اذهان جامعه در صورت شکست پروژه آپولو 11 آماده کرده بودند. برای ساخت این ویدیوی هشت دقیقه‌ای، یک بازیگر، جملاتی که ریچارد نیکسون هرگز ادا نکرده بود را با لحنی شبیه به او قرائت کرد و سپس تکنولوژی‌های هوش مصنوعی برای دستکاری صدا و تصویر این ویدیو به گونه‌ای مورد استفاده قرار گرفتند که انگار نیکسون واقعا در حال قرائت آن متن بود.

تکنولوژی دیپ فیک با سرعت سرسام‌آوری در حال پیشرفت است

مدتی پیش، ویدیوهای دیپ فیک صرفا پدیده‌هایی جذاب بودند که برای مصارف سرگرمی مورد استفاده قرار می‌گرفتند؛ چرا که آینده آن‌ها ترسناک به نظر می‌رسید و جوامع مختلف نسبت به استفاده واقعی از این فناوری‌های خوشبین نبودند.

با این حال با پیشرفت فناوری‌های این حوزه و در دسترس قرار گرفتن هرچه بیشتر ابزارهای مرتبط با این تکنولوژی، تعداد ویدیوهای دیپ فیک با نرخی انفجاری رو به افزایش رفت؛ به طوری که بر اساس گزارش موسسه Sensity که میزان گسترش تکنولوژی دیپ فیک را از سال 2018 تحت نظر دارد، تعداد این ویدیوها هر شش ماه تقریبا دو برابر می‌شود.

البته تنها بخش کوچکی از این ویدیوها با هدف‌های سرگرمی ساخته شده‌اند و گسترش این ویدیو در زمینه‌های غیراخلاقی و مخرب به طرز چشمگیری سریع‌تر بوده است.

همچنین سرعت فراگیری دیپ فیک در سایر زمینه‌های تکنولوژیک آهسته‌تر است؛ به طوری که در این زمینه‌ها شاهد دو برابر شدن تعداد این ویدیوها هر دو سال یک بار هستیم. با این وجود تقریبا همه صاحب‌نظران عقیده دارند که زمانی فرا خواهد رسید که تشخیص ویدیوهای واقعی از تقلبی بسیار دشوار خواهد بود.

اوضاع آن‌چنان که به نظر می‌رسد آشفته نیست!

در حال حاضر تمرکز فناوری Deepfake بیشتر بر روی شخصیت‌های سیاسی و سلبریتی‌ها معطوف است. بنابراین، علیرغم این که توسعه این تکنولوژی باعث کم‌رنگ‌تر شدن مرزهای واقعیت و تجسم شده است، اما احتمال این که یک فرد معمولی سوژه دیپ فیک‌های مخرب قرار گیرد، پایین است. البته این امر قطعا در آینده دستخوش تغییر خواهد شد و جامعه گسترده‌تری از افراد جامعه هدف این فناوری قرار خواهند گرفت.

البته باید به این امر هم اشاره کنیم که علیرغم پیشرفت‌های انجام شده در این حوزه، دانشمندان همچنین به دستاوردهای مهمی در زمینه تشخیص ویدیوهای دیپ فیک دست یافته‌اند. به گزارش PNAS در حال حاضر، تکنولوژی‌های سرآمد تشخیص ویدیوهای دیپ فیک قادرند ویدیوهای تقلبی را با دقت 65 درصد تشخیص دهند. به طور کلی، توانایی تشخیص چشم انسان‌ها در خصوص دیپ فیک بهتر از تکنولوژی عمل می‌کند. با این وجود به نظر می‌رسد علم در حال کم کردن فاصله در این زمینه است.

به تازگی محققین دانشگاه ریورساید کالیفرنیا موفق به توسعه روشی شده‌اند که ویدیوهای دیپ فیک را با دقت 99 درصد شناسایی می‌کند. این متد قادر است علاوه بر شناسایی تغییر کلی چهره، تغییر حالات چهره را هم پیش‌بینی کند. علاوه بر این، تکنولوژی مورد بحث همچنین قادر است به طور دقیق تشخیص دهد کدام بخش از چهره دستخوش تغییر شده است!

با وجود این پیشرفت بزرگ تکنولوژیک، در حال حاضر هنوز امکان تشخیص ویدیوهای تقلبی دیپ فیک بدون در اختیار داشتن ابزارهای مناسب فراهم نیست. بنابراین لازم است مواظب باشیم در دام سودجویان احتمالی نیفتیم.

نظر شما در خصوص فناوری دیپ فیک چیست؟ آیا شما هم نسبت به آینده این تکنولوژی تردید و ترس دارید یا آن را به عنوان یک ابزار جذاب و کاربردی پذیرفته‌اید؟

منبع :slashgear

افزودن دیدگاه جدید

محتوای این فیلد خصوصی است و به صورت عمومی نشان داده نخواهد شد.

HTML محدود

  • You can align images (data-align="center"), but also videos, blockquotes, and so on.
  • You can caption images (data-caption="Text"), but also videos, blockquotes, and so on.
10 + 3 =
Solve this simple math problem and enter the result. E.g. for 1+3, enter 4.