محققان از دینامیک سیال برای تشخیص صداهای دروغین استفاده می کنند


محققان از دینامیک سیال برای تشخیص صداهای دروغین استفاده می کنند

سناریوی زیر را تصور کنید. یک تلفن زنگ می زند. یک کارمند اداری به آن پاسخ می دهد و می شنود که رئیسش در حالت وحشت زده به او می گوید که فراموش کرده است قبل از رفتن به آن روز پول را به پیمانکار جدید منتقل کند و به او نیاز دارد که این کار را انجام دهد. او اطلاعات انتقال سیمی را به او می دهد و با پول منتقل شده، از بحران جلوگیری شده است.

کارگر روی صندلی خود می نشیند، نفس عمیقی می کشد و شاهد قدم زدن رئیسش در در است. صدای آن طرف تماس، رئیس او نبود. در واقع حتی یک انسان هم نبود. صدایی که او شنید صدای دیپ فیک صوتی بود، یک نمونه صوتی تولید شده توسط ماشین که دقیقاً شبیه رئیس او بود.

حملاتی مانند این با استفاده از صدای ضبط‌شده قبلاً رخ داده‌اند، و دیپ‌فیک‌های صوتی مکالمه ممکن است دور از دسترس نباشد.

دیپ فیک، هم صوتی و هم تصویری، تنها با توسعه فناوری‌های یادگیری ماشینی پیچیده در سال‌های اخیر امکان‌پذیر بوده است. دیپ فیک سطح جدیدی از عدم قطعیت را در مورد رسانه های دیجیتال به همراه آورده است. برای شناسایی دیپ‌فیک‌ها، بسیاری از محققان به تجزیه و تحلیل مصنوعات بصری – اشکالات و ناهماهنگی‌های کوچک – یافت شده در دیپ‌فیک‌های ویدیویی روی آورده‌اند.

https://www.youtube.com/watch?v=oxXpB9pSETo

این مورگان فریمن نیست، اما اگر این را به شما نمی گفتند، از کجا می فهمید؟

دیپ‌فیک‌های صوتی به طور بالقوه تهدید بزرگ‌تری هستند، زیرا مردم اغلب به صورت شفاهی و بدون ویدیو ارتباط برقرار می‌کنند – به عنوان مثال، از طریق تماس‌های تلفنی، رادیو و ضبط صدا. این ارتباطات فقط صوتی امکان استفاده از دیپ فیک را برای مهاجمان بسیار افزایش می دهد.

برای شناسایی دیپ‌فیک‌های صوتی، ما و همکاران پژوهشی‌مان در دانشگاه فلوریدا تکنیکی را توسعه داده‌ایم که تفاوت‌های دینامیکی آکوستیک و سیال بین نمونه‌های صوتی ایجاد شده به‌طور ارگانیک توسط بلندگوهای انسانی و نمونه‌هایی که به‌طور مصنوعی توسط رایانه‌ها تولید می‌شوند را اندازه‌گیری می‌کند.

ارگانیک در مقابل صداهای مصنوعی

انسان ها با فشار دادن هوا به ساختارهای مختلف دستگاه صوتی از جمله تارهای صوتی، زبان و لب ها صدا می کنند. با تنظیم مجدد این ساختارها، ویژگی های صوتی دستگاه صوتی خود را تغییر می دهید و به شما امکان می دهد بیش از 200 صدا یا واج مجزا ایجاد کنید. با این حال، آناتومی انسان اساساً رفتار آکوستیک این واج‌های مختلف را محدود می‌کند و در نتیجه طیف نسبتاً کمی از صداهای صحیح برای هر کدام ایجاد می‌شود.

https://www.youtube.com/watch?v=SVKR3ESdAk8

اندام های صوتی شما چگونه کار می کنند

در مقابل، دیپ فیک های صوتی ابتدا با اجازه دادن به رایانه برای گوش دادن به ضبط های صوتی یک بلندگوی قربانی هدف ایجاد می شوند. بسته به تکنیک های دقیق مورد استفاده، کامپیوتر ممکن است نیاز به گوش دادن به صدای کمتر از 10 تا 20 ثانیه داشته باشد. این صدا برای استخراج اطلاعات کلیدی در مورد جنبه های منحصر به فرد صدای قربانی استفاده می شود.

مهاجم عبارتی را برای دیپ‌فیک انتخاب می‌کند و سپس با استفاده از یک الگوریتم تبدیل متن به گفتار اصلاح‌شده، یک نمونه صوتی تولید می‌کند که به نظر می‌رسد قربانی عبارت انتخاب‌شده را می‌گوید. این فرآیند ایجاد یک نمونه صوتی دیپ فیک می تواند در عرض چند ثانیه انجام شود و به طور بالقوه به مهاجمان انعطاف کافی برای استفاده از صدای دیپ فیک در یک مکالمه را می دهد.

تشخیص دیپ فیک های صوتی

اولین قدم در تمایز گفتار تولید شده توسط انسان از گفتار تولید شده توسط دیپ فیک، درک نحوه مدل‌سازی صوتی مجرای صوتی است. خوشبختانه دانشمندان تکنیک‌هایی دارند که بر اساس اندازه‌گیری‌های آناتومیکی مجرای صوتی آن فرد – یا برخی از دایناسورها – چگونه به نظر می‌رسد.

ما برعکس عمل کردیم. با معکوس کردن بسیاری از همین تکنیک ها، ما توانستیم تقریبی از مجرای صوتی یک گوینده را در طول یک بخش از گفتار استخراج کنیم. این به ما این امکان را داد که به طور مؤثر به آناتومی سخنران که نمونه صوتی را ایجاد کرده است، نگاه کنیم.

صدای دیپ فیک اغلب منجر به بازسازی مجرای صوتی می شود که شبیه نی نوشیدنی است تا دستگاه صوتی بیولوژیکی.
بزرگنمایی کنید / صدای دیپ فیک اغلب منجر به بازسازی مجرای صوتی می شود که شبیه نی نوشیدنی است تا دستگاه صوتی بیولوژیکی.

از اینجا، ما فرض کردیم که نمونه های صوتی دیپ فیک نمی توانند با محدودیت های آناتومیکی مشابهی که انسان ها دارند محدود شوند. به عبارت دیگر، تجزیه و تحلیل نمونه‌های صوتی دیپ‌فک شکل‌های دستگاه صوتی را شبیه‌سازی کرد که در افراد وجود ندارد.

نتایج آزمایش ما نه تنها فرضیه ما را تایید کرد، بلکه چیز جالبی را نشان داد. هنگام استخراج تخمین‌های دستگاه صوتی از صدای دیپ‌فیک، متوجه شدیم که تخمین‌ها غالباً به طرز خنده‌داری نادرست بودند. به عنوان مثال، بر خلاف دستگاه‌های صوتی انسان، که بسیار گسترده‌تر و از نظر شکل متغیرتر هستند، معمولاً صدای دیپ‌فیک به دستگاه‌های صوتی با قطر نسبی و قوام یک نی نوشیدنی منجر می‌شد.

این درک نشان می‌دهد که صدای عمیق جعلی، حتی زمانی که برای شنوندگان انسانی قانع‌کننده باشد، از گفتار تولید شده توسط انسان قابل تشخیص نیست. با تخمین آناتومی مسئول ایجاد گفتار مشاهده شده، می توان تشخیص داد که صدا توسط شخص یا رایانه تولید شده است.

چرا این مهم است

دنیای امروز با تبادل دیجیتالی رسانه ها و اطلاعات تعریف می شود. همه چیز از اخبار گرفته تا سرگرمی و گفتگو با عزیزان معمولاً از طریق صرافی های دیجیتال اتفاق می افتد. حتی در دوران طفولیت، ویدئو و صدا عمیق جعلی اعتماد مردم به این مبادلات را تضعیف می کند و به طور موثر مفید بودن آنها را محدود می کند.

اگر قرار است دنیای دیجیتال به عنوان منبعی حیاتی برای اطلاعات در زندگی مردم باقی بماند، تکنیک های موثر و ایمن برای تعیین منبع نمونه صوتی بسیار مهم است.
لوگان بلو دانشجوی دکترا در رشته علوم و مهندسی کامپیوتر و اطلاعات در دانشگاه فلوریدا است و پاتریک رینور استاد علوم و مهندسی کامپیوتر و اطلاعات در دانشگاه فلوریدا است..

این مقاله از The Conversation تحت مجوز Creative Commons بازنشر شده است. مقاله اصلی را بخوانید.


منبع: tarjome-news.ir

حتما بخوانید:
هکرهای مورد حمایت ملی زنجیره تأمین واکسن COVID را دنبال می کنند

دیدگاهتان را بنویسید

hacklink al hd film izle php shell indir siber güvenlik türkçe anime izle Fethiye Escort android rat duşakabin fiyatları fud crypter hack forum instagram beğeni bayan escort - vip elit escort https://www.fivesosyalmedya.com/garnet trade güvenilir mihtml nullednulled themesMobil Ödeme BozdurmaMobil Ödeme BozdurmaViagraMobil Ödeme BozdurmaMobil Ödeme BozdurmaVodafone Mobil Ödeme Bozdurma