تینا مزدکی_در دنیای عجیبی که کلاهبرداریهای اینترنتی، هویتهای جعلی و هزاران هزار جرم در فضای سایبری رخ میدهد، دیگر نمیتوان به هیچ چیز اعتماد کرد. زمانی نهچندان دور، فقط تعداد معدودی از صداپیشگان فوقحرفهای میتوانستند صدای کسی را آنقدر دقیق تقلید کنند که حتی اطرافیان فرد هم اشتباه بگیرند. به همین دلیل، احتمال اینکه نیمهشب این افراد به شما زنگ بزنند و از زبان نزدیکانتان بخواهند هزاران دلار پول وثیقه منتقل کنید، تقریباً صفر بود.
اما امروز، به لطف شبیهسازهای صوتی مبتنی بر هوش مصنوعی که همهجا در اینترنت پخش شدهاند، تقریباً هرکسی قادر است در چند دقیقه یک تقلب صوتی کامل بسازد. خوشبختانه برای تمام افرادی که میخواهند پولشان و همچنین سلامت انتخابشان را از دست خلافکاران سایبری و خرابکاران سیاسی حفظ کنند، یک پیشرفت مهم رخ داده است. فناوری جدیدی با نام «تمرین با نمونهگیری آگاهانه از دادههای کمکی» یا RAIS میتواند صداهای واقعی و جعلی را تشخیص دهد و با تکامل انواع پیشرفت هوش مصنوعی، عملکرد دقیق خود را حفظ کند.
همانطور که محققان توضیح میدهند، ابزارهای فعلی در برابر دیپفیکهای جدید شکست میخورند. این همان جایی است که RAIS اهمیت پیدا میکند. این ابزار از یادگیری پیوسته مبتنیبر تمرین استفاده میکند؛ به این معنا که مدلها را با مجموعهای محدود از نمونههای قدیمی بهروزرسانی میکند و به این ترتیب دانش قبلی را حفظ کرده و همزمان اطلاعات تازه را وارد سیستم میکند.
این پژوهش که در کنفرانس Interspeech بزرگترین رویداد جهانی در حوزه علم و فناوری پردازش گفتار ارائه شده، نشان میدهد چگونه پژوهشگران سازمان علمی ملی استرالیا (CSIRO)، دانشگاه فدریشن استرالیا و دانشگاه RMIT موفق شدهاند سلاحی تازه علیه جعل دیجیتالی صدا بسازند؛ جعلهایی که برای دورزدن سیستمهای احراز هویت صوتی، جعل هویت و تولید اطلاعات نادرست بهکار میروند.
بهدلیل ماهیت پیوسته تهدید هوش مصنوعی و لزوم دفاعی که همگام با آن تکامل پیدا کند، محققان میخواهند سیستمهای تشخیص بتوانند دیپفیکهای جدید را بشناسند بدون اینکه نیاز باشد مدل دوباره از صفر آموزش ببیند. اگر فقط روی نمونههای جدید مدل را فاینتیون کنیم، باعث میشود مدل دیپفیکهای قدیمی را فراموش کند.

تکنیکهای فعلی تمرین، انعطاف لازم را برای پوشش دادن تنوع گستردهی صداهای انسانی یا حتی تغییرات متعدد یک صدا ندارند. همین ضعف باعث ایجاد سوگیری و افزایش احتمال حذف اطلاعات حیاتی هنگام آموزش دوباره میشود. برای رفع این مشکل، RAIS از یک شبکه تولید برچسب برای ساخت برچسبهای کمکی استفاده میکند تا نمونههای متنوعتری برای حافظه انتخاب شوند. در نتیجه توانایی بالاتر در تشخیص صداهای جعلی، با دستیابی به میانگین نرخ خطای برابر (EER) برابر ۱.۹۵۳ درصد در پنج تجربه آزمایشی حاصل شد. نرخ EER یکی از معیارهای مهم در سیستمهای بیومتریک است و هرچه پایینتر باشد، سیستم قابلاعتمادتر است. کد RAIS نیز با وجود استفاده از حافظه کوچک، بسیار کارآمد بوده و روی گیتهاب منتشر شده است.
راهحل RAIS بهصورت خودکار مجموعهای کوچک اما متنوع از نمونههای گذشته، شامل ویژگیهایی از صدا که حتی انسانها هم متوجه آن نمیشوند ذخیره میکند. این مدل بهجای برچسبهای ساده «جعلی» یا «واقعی»، مجموعهای غنیتر از برچسبها تولید میکند و با تمرین دوباره روی این نمونهها، به هوش مصنوعی کمک میکند سبکهای جدید دیپفیک را یاد بگیرد بدون اینکه قبلیها را فراموش کند و در نتیجه ترکیب متنوعتری از داده آموزشی فراهم میشود که توانایی تطبیقپذیری و یادآوری مدل را افزایش میدهد.
ویدیوهای دیپفیک در شبکههای اجتماعی بهقدری واقعی شدهاند که حتی افراد شکاک هم فریب میخورند و دیگر صداهای عجیب یا چیز اشتباهی ندارند که انسان را به شک بیاندازد. این سطح جدید از باورپذیری بسیار خطرناکتر از تکنیکهای قدیمی جعل متنی است. به گفته AICompetence، مطالعات نشان دادهاند صداهای شبیهسازیشده با هوش مصنوعی واکنشهای احساسی قویتری نسبت به اطلاعات نادرست مبتنیبر متن ایجاد میکنند. وقتی صدایی آشنا واقعی بهنظر میرسد، تفکر انتقادی متوقف میشود. برای مثال، همان تماس رباتیک دیپفیکشده منتسب به جو بایدن که از رأیدهندگان نیوهمپشایر خواسته بود در انتخابات شرکت نکنند، نمونهای از همین خطر است. اگر یک صدای آشنا به شما بگوید رأی ندهید، آیا مکث میکنید تا صحتش را بررسی کنید؟
نمونههای دیگر جعل صوتی شامل مدیرعامل WPP، مارک رید است. کلاهبرداران با استفاده از عکس او یک حساب مایکروسافت تیمز ساختند و از طریق صدای جعلی رید در جلسهای آنلاین تلاش کردند یک کسبوکار ساختگی ایجاد کنند تا به پول و اطلاعات حساسی دست پیدا کنند. هرچند در این مورد موفق نشدند، اما در ایتالیا گروهی موفق شدند صدای وزیر دفاع را جعل کنند و از برخی رهبران کسبوکار یک میلیون یورو «باج» بگیرند و بعضی از آنها پول را پرداخت کردند.
در حوزه سیاست نیز، همانطور که بایدن هدف قرار گرفت، ایلان ماسک هم یک ویدیوی دیپفیک تحریفشده و تهمتآمیز از کامالا هریس را بدون توضیح بازنشر کرد؛ اقدامی برخلاف قوانین پلتفرمی که خودش مالک آن بود. حملات مشابهی علیه انتخابات در بنگلادش، مجارستان و اسلواکی هم انجام شده است؛ از جمله مورد انتخابات ۲۰۲۳ اسلواکی که در آن فایلهای صوتی جعلی از میخال شیمچکا منتشر شد که ظاهراً در حال توطئه برای تقلب انتخاباتی بود. این فایلها تنها چند روز مانده به رأیگیری بهطور ویروسی پخش شدند.
AICompetence هشدار میدهد: «خطر فقط در دروغها نیست، خطر در این است که چگونه اعتماد مردم را به حقیقتهای واقعی تخریب میکنند. هرچه افراد بیشتر در مورد دیپفیک آگاه شوند، سیاستمداران ممکن است رسواییهای واقعی را نیز به دروغ ساختگی هوش مصنوعی نسبت دهند. آگاهی بدون سواد رسانهای، خود به تقویت دروغ کمک میکند.
دانیل سیتترون، استاد حقوق و نویسنده کتاب Deep Fakes: The Coming Infocalypse نیز میگوید: «تهدید واقعی دیپفیک این نیست که مردم چیزهای غلط را باور کنند؛ بلکه این است که دیگر چیزهای درست را باور نکنند.» این پدیده «سود دروغگو» نام دارد.
منبع: newatlas
۵۸۳۲۳










