اب عتاب يسأل, هل يوجد مشاريع تقنية حالية لكشف فيديوهات الزيف العميق؟

نشر في 26 ديسمبر 2019 .

-اهلين أب عتااب, عود شراب كاشاي و ندردش

+هلا هلا بالعابس الغالي, خير خير خيي شو القصة قلقتني!

- دقيقة لطلّع الوراق من الشنتاية,,,,,اححئحئححمم, هاد يا سيدي, هاني فريد

+ شبو شبو نزّل البوك جديد خارب الدنيا, سمعتو كيف كان حلو!!؟؟

- لك لا, هداك شاكر, بعدين مو كل حدا اسمو هاني فهو مقيت!, :

هاني فريد, دكتور بدرّس بجامعات كبيرة ك MIT و stanford و Berkeley, بيشتغل مستشار كمان لدى الحكومة الامريكية و لمنظمات غير ربحية, مختص بتحليل الصور الرقمية و كشف الصور المزيفة, تم اطلاق عليه لقب the father" of digital image forensics" و كتب كتاب اسمو " Photo forensics ", الشخص عبقري و ممكن تشوفو معلومات عنو اكثر من ويكيبيديا!

هاني بعد ما شاف ال potential اللي بتقدمو تقنية الزيف العميق, و حسب خبرتو الكبيرة بالمجال قرر يعمل بحث عن كيف ممكن الحماية منها.

اسم الورقة البحثية اللي تم طرحها مؤخرا هو "Protecting World Leaders Against Deep Fakes" و كان مركز على حماية خمس ساسيين امريكيين فقط اللي هنن: دونالد ترامب, بيرني ساندرس, باراك اوباما, هيلاري كلينتون و ايليزابيث وارين فقط لان لسا البحوث بهالمجال ما وصلت لمكان متقدم و تطوير التكنولوجيا بحد ذاتها سابق ال detecting tools بمراحل.

عموما تطوير الزيف العميق بينقسم ل 3 طرق مختلفة ممكن اتباعها لخلق فيديو مزيّف:

الطريقة الاولى : هيه ال face swapping, بس بيتم عمل alignment للوجه بشكل عام, و العيون مع الانف و الفم بشكل خاص لحتى يصير شكل mask و اسقاط ال landmarks تبع وضع وجه ال source على وجه ال target.ممكن يكون real time, فيديو الزيف العميق ل فلم taxi driver بطلو الاصلي روبرت دينيرو, و اللي استخدام الزيف العميق لتبديل وجه دينيرو ب ألباتشينو. بهالحالة يوجد فلمين بالعملية, فلم دينيرو و فلم "Scarface" ل ألباتشينو. ثلاث مراحل لهالطريقة:

اولا- بتم عمل extraction لوجه الباتشينو ال source من فلمه, ووجه دينيرو ال target من فلمه, صور وجوه من كل frame موجود بالفيديو و ممكن اللعب ب frame parameter و الوقت على حسب حجم الداتا المطلوبة

ثانيا- عملية preprocessing و تنظيف الصور ووضع landmark mask على وجه دينيرو ال target

ثالثا- ادخال الداتا هي على generative adversarial network اللي بتقوم بالتدريب على مجموعة الداتا هي و عمل mapping لوجه البانشيو على فيديو دينيرو, عملية التدريب بتاخد وقت كتير و محتاجة GPU عالي, و خاصة VRAM يكون فوق ال 2 غيغا و الا الميموري رح تتعبى و يطلع OOM error متل ما صار معي شخصيا, فلذالك بدها مواصفات محددة للقيام بالعملية

و بالنهاية بصير عندك الفيديو المطلوب.

الطريقة الثانية: هيه ال lip-sync, مافي داعي لعمل extraction للوجوه كلها بالطريقة الاولى, متل فيديو الزيف العميق ل دونالد ترامب او مارك زوكربيرغ. هون العملية بالعكس, ال source بكون الفيديو تبع الضحية, اي ترامب او زوكربيرغ, و ال target بكون audio اللي هو صوتي انا فرضا,, بتم اسقاط حركة شفايفي على حركة شفايف زوكربيرغ (يععع!!) و الحكي اللي بيطلع مني بيطلع من فم زوكربيرغ بصوتو, يعني بمعنى اخر generating arbitrary audio recording, مو ضروري يكون الفيديو بالوقت الحقيقي و انما ممكن يكون تسجيل, انا بسجّل صوتي الي مع وجود فيديو زوكربيرغ, و بعمل نفس المراحل تبع الطريقة الاولى بس audio mapping للصوت عالشفايف تبع الزوكربيرغ.

الطريقة الثالثة: هيه ال puppet-master approach, هون فعليا نفس الطريقة الاولى مع اخلاف بشغلتين, مافي landmark mask, بيتم عمل alignment لشكل وحركات كل من الوجه و الرأس والعيون مع الانف و الفم, يعني facial movement and expression بشكل عام لل target, متل ما صار بفيدو اوباما, ال source كان بيحكي من ورا الكاميرا كلام, و اوباما عم يقولو. وكمان مافي داعي لتبديل الوجه و انما فقط عملية sync لحركات تبع ال source و كلامو, واسقاطها على ال وجه اوباما ال target مع صوتو.

طيب هالطرق الثلاثة بتعطي نتيجة فيديو مزيف بالاخر, التزييف عم يصير اقرب للحقيقة و صعب كشفو بالعين المجردة , نجح مويل يدرس البكسل تبع الفيديو المزيف و يقيس ال low level pixels بين الوجه المزيف و المحيط به بالصورة او الفيديو و بالتالي عرف الفيديو مزيف, بس هالطريقة ما نجحت مع كل الفيديوهات لان التكنيك ال image pixel forensics مالو فعال و بعاني من شي اسمو laundering counter-measures مثلا ان الفيديو المزيف تم ضغطو و بالتالي البكسلات تعدلّت و صارت متناغمة اكتر بما يلائم شكل الفيديو و محتواه, حتى في بعض forensics techniques تم تطبيقها و تم اكتشاف ثفرة بالفيديوهات المزيفة, و هيه انو العين احيانا ما بترف لمدة من الوقت يعني مثلا 3 دقايق, بس بعد ما يتم اكتشافها بتم تحديث الكود تبع الموديل و تصليح الثغرة و صارت العين ترف عادي!, ال cypersecurity researchers و الهاكرز ذو القبعات البيضاء بيكشفو ثغرات بالسوفتوير الطبيعي و الشركات بتعمل تحديث للباتشز, بس هون انعكست العملية, الفيديو الزيف هو الحقيقي و بالتالي اي ثغرة بتم اكتشافها رح يتم تعديل الكود تبع الفيديو المزيف لتصليح الخطأ لحتى توصل لفيديو مزيف حقيقي محمي كاملا. بالاضافة تكنيكات حسنت تلقط فيديو ال face swapping عن طريق دراسة feature map لحركة ال 3D للرأس و landmark mask مع باقي الزوايا الوجه اللي مو معملها alignment لكشف الاختلافات بالحركة الطبيعية اللي مفروض تصير, بس ما نجحت مع الطريقتين التانيات.

+ يالطيف يالطف يا رب !!, و الحل!!؟؟, معقول مافي حل ؟

- امبلا في حل و هو بناء customized forensics technique using deep learning لأشخاص محددين!, مثل ما حكيت ببداية البوست, الاشخاص كانو السياسيين لحماية الانتخابات الامريكية 2020. بتم التركيز على حركة اجسامهم ووجهم بالفيديوهات مع بروفايلينغ كامل الهم و يطلعو ب patterns و صفات شخصياتهم و حركاتهم يعني body language and facial emotions يقوم الموديل الخاص هاد باكتشاف ان الفيديو هاد مزيف و حركات اي حدا من السياسيين الخمسة و بروفايلهم غير متوافق مع البرروفايل المزيف الموجود بالفيديو. و نجحو بتطبيق هالموديل هاد على الطرق الثلاثة المذكورة و نجح بكشف الفيديوهات.

ولذالك ال Deep learning model لازم يكون supervised learning يعني بلغة تانية الداتا اللي بيتدرب عليها الموديل هيه labeled, فالباحثين عملو generate لفيديوهات مزيفة للسياسيين الخمسة هدول باتباع الثلاث طرق, و عملولهم parsing مع الفيديوهات الاصلية , طلعو labeled data للفيديوهات كلها.

+ بالله انا مهتم كتير, احكيلي احكيلي اكتر, احكيلي شو الموديل اللي تم استخدامو؟

- الموديل هو Support Vector Machine - SVM اللي الالغوريثمز هي تعتبر من الافضل بعملية ال classification, ال discriminative classifier هاد بقوم بقسم الداتا لقسمين هنن Training,Testing sets, الموديل بأخذ القسم الاول اللي الداتا تبع التدريب و بيتدرب عليها مع الاخذ بعين الاعتبار ال hyperparameters و ال patterns من حركات الرأس و الوجه و غيرو , و بيتعلم و بيفصلها ب hyperplane و قياس ال Margin = المسافة بين الداتا بوينتس و ال hyperplane, و بعدين تصنفها على انها مزيفة او غير مذيفة حسب ما تعلّم, و بتم تجريبو على القسم التاني من الداتا اللي ما اتدرب عليه او شافو من قبل لحتى يصنفها كمان و قياس دقة الموديل عن طريق معرفة ال false positive بال confusion matrix, يعني الفيديوهات المزيفة اللي تم تصنيفها على انها حقيقية.

+ طب و بعدين يعني!, شو الحل ازا الانسان ما عرفان يزبط الهراء اللي عم يخترعو!

- في طريقة اخرى اتبعوها باحثين تانيين بجامعة Oregon و هو لبناء mice model

+ شو هالاسم هاد!, موديل الفار ههههه, ولللهعظيحرئريشهم هالعلماء الاشاوس من وين بجيبو الاسماء, ما كانو يبطلوها هالعادة الوسخة هي!!؟

- اي بس هو مو اسم موديل, هو عنجد استخدام فئران حقيقين لكشف ال deepfake

+ هههه لك حل عني يا زلمة حاج خرط بالخرّاط, ازا الانسان ما حسن فالفئران رح تحسن!

- اي هيك اثبتت التجارب ان الفار عندو السستم السماعي مشابه جدا للسستم تبع الانسان بس الفرق ان ما بيفهم ال context تبع الكلام و هالشي ايجابي عفكرة لان ما رح يتشتت لما يفهم المعنى وانما رح يركز بالاحرف و الكلام اكثر

+ اوف!, طب رح انزل عالسوق جيب كيلو فئران ربيهم عندي واخدن معي وين بروح وبخبرك شو بصير!

- لا لا مو هيك لحظة ليش مستعجل!, الطريقة صارت غير و هي بالمختصر كالتالي:

بتم تدريب الفار على مبدأ ال punishment-reward على الاحرف كلها لحتى يحفظهم منيح مع الpatterns تبعهم مع pairs من كل الاحرف مع بعضها, يعني متل تكنيك ال natural language processing وقت يتم تطبيق ال n-grams عالاحرف و ليس الكلمات او ال text , بحيث ان الفأر بصير بميّز حروف ال p و b, ال sh و ch بشكل ممتاز جدا بأدق تفاصيلها اللغوية اللفظية ممكن ببعض الحالات تكون افضل من الانسان, و بيتم مراقبة مناطق بالدماغ تبعو اثناء العملية هي و تسجيل داتا, يعني عم يتم بناء قاعدة بيانات من مناطق بمخ الفأر اللي مسؤولة عن تمييز الاحرف هدول عرفت كيف؟

+ طب و ليش ما طبقو ال n-grams من الاول بدون ما يروحو يعملو من الفئران حقل تجارب؟

- لان اولا ال n-grams بال speech recognition بس ما بتلقط اخطاء الاحرف, يعني لما تشغل ال cc بفيديو يوتيوب اغلب الفيديوهات بكون التعرف على الكلمات و كتابتها و احيانا بيكون في كلمات غلط لان الموديل ما بصلّح اغلاط او خطأ ترجمة شفهية-كتابية من الموديل, و ممكن استخدامها بالتعرف على الكلام جواة الفيديوهات المزيفة بس ما رح يعطي نتيجة ازا الفيديو مزيف او لا, يعني هيه speech2text, استخدمتها بس للمقاربة , ولان بدن يبنو deep learning model ياخد بعين الاعتبار الداتا من الدماغ بتجربة عملية.

+ ايواااا مممم, طب و كيف بتصير العملية الحشكلوزية هي وكيف بدن يطبقوها تقنيا اخي؟

- تم بناء موديل جديد بالاعتماد على هي الداتا, الموديل بكون speech and audio detection, بالفيديوهات المزيفة الا ما يكون فيها noise و اخطاء بتحصل بالكلام المفبرك من ناحية الاحرف, الانسان ما بينتبه لانو بيفهم الكلام من سياق الجملة بدون التركيز بالاحرف, بس موديل الفأر بيلقط الاخطاء هي المتراكمة و بيعمل flag عالأوديو تبع الفيديو او الأديو فقط على انو مزيّف

+ يا عيني يا عيني, طب افرض مثلا مثلا يعني, ان الفيديوهات كانت لسماحة السيد حسن نصرلله او لأبو اجتماعات سرّية للغاية, كيف بدو يشتغل موديل الفار هات لشوف ؟

- ولله هون عنجد عنجد في #فراغ و #مافي_بديل! حسب التكنيك هاد ف يوجد سيناريوهين, يا اما كل الفيديوهات رح يتم تصنيفها على انها مزيّفة خخخخخ, او محتاجين ندرّب الفار على التمييز بين ال غ و ال ر , بين ال س و ال ث, و ان ال ر = غ ,و ال س=ث بحالات خاصة, سبيشااال يعني, و لزالك صار لازم نعقد مؤتمر وطني و نجلس مع قادة حراك الفئران على طاولة الحوار نشوف طلباتهم المحقة و نفهمون السيرة و حباشاتها, ناخد و نعطي بينغ بونغ.

+ ايوااا, كلشي وارد حتى مصباح بلا مارد!, دخلك قديه دقة موديل الفئران هاد

- بالتجربة تبع الباحثين طلعت الدفة 80%, ونفس الفيديوهات الانسان نجح بدقة 90%, يعني الانسان افضل حاليا من موديل الفار

+ هللق بعد كل هالاستفراغ اللي طلّعتو بوشي من ساعة و ثلاث دقائق و خماوعشرين ثانية, و قاعد بتهري و بتشرح و اخر شي ما قلتلي الحل!!؟, كنت قلي من الاول و اختصر!!

- يعني شرحتلك الطبخة الحالية, لا يوجد اي طريقة متاحة على الاطلاق و بشكل عام تقوم بحل جذري بكشف فيديوهات ال deepfake, و طبعا اي فيديو تاني لسياسي غير ال 5 هدول اللي حكينا عنون ف رح يحتاج طاقم البحث يقوم بنفس العملية و يضيفو للداتا و يحدّث الموديل, يعني هالطريقة مش عملية للطرح العام و انما فقط الخاص. بالاضافة يعني ازا انتشر فيديو deepfake خلال 30 ثانية ووصل لشريحة كبيرة من العالم فعملية نشر الوعي او الغاء تأثير الفيديو بالكامل واصلاح عواقب نشره يكان يكون شبه مستحيل, بالاضافة ان السياسيين ممكن يقولو عن فيديو حقيقي هو مزيف ليهربو من المسؤولية, مو مطولة يعني صدّقني لان مافي ادوات ممكن تثبت هالشي بشكل قطعي. هاني فريد قالها: "انا اعرف اني خاسر لهذه الحرب,لا محال و مستحيل الفوز في السباق هذا, ببساطة لا يمكن الفوز, و لكن انا اقوم بجعل العملية اصعب و اصعب برفع التحدي مع مطوّرين الزيف العميق المختصين الحاليين بحيث ان لا يمكن لأي احد بامكانيات اقل ان يقوم بتطوير التكنولوجيا و تطبيقها".

+ ولك حل عني يا رجل يلعن اللي ترك اشغالو و قعد ضوّع وقتو معك!

- لحظة الموديل تبع الفار ممكن تطوير الالغوريثمز تبعو لتساعد ب spoofing detection و القصة هيه انو .. اب عتاب, يااااااااا اب عتااب!, وين رايح, خليك نتحاور, كاسبابونج, ملّيسة طيب!!

+ بااااااااااي

- طب تعال نسيت تاخد المصادر مشان تقراهم بالبيت, ازا حابب!, اب عتااب!

+ (تنتا%^&^ربشحقهثني%(^&خر&%*عرص)

- اكيد ما سمعني!, يللا بكرا بعطيه ياهون:

وهي البحث:

http://openaccess.thecvf.com/content_CVPRW_2019/papers/Media%20Forensics/Agarwal_Protecting_World_Leaders_Against_Deep_Fakes_CVPRW_2019_paper.pdf

وين المصادر! ليش وقاعنين بالغلط جوا الزبالة جنب كرسي اب عتاب!:

https://asa.scitation.org/doi/abs/10.1121/1.5091776

https://www.wsj.com/articles/to-combat-deepfakes-researchers-turn-to-mice-11565256600

https://www.cnet.com/news/researchers-propose-detecting-deepfakes-with-surprising-new-tool-mice/

https://futurism.com/the-byte/mice-could-detect-deepfakes

https://www.bbc.com/news/technology-49316047