کدک صوتی متا مجهز به هوش مصنوعی، فشرده سازی 10 برابری را نسبت به MP3 نوید می دهد


تصویری مصور از داده ها در یک موج صوتی.
بزرگنمایی کنید / تصویری مصور از داده ها در یک موج صوتی.

هوش مصنوعی متا

هفته گذشته، متا یک روش فشرده‌سازی صوتی مبتنی بر هوش مصنوعی به نام «EnCodec» را معرفی کرد که طبق گزارش‌ها می‌تواند صدا را 10 برابر کوچک‌تر از فرمت MP3 با سرعت 64 کیلوبیت بر ثانیه بدون افت کیفیت فشرده کند. متا می‌گوید این تکنیک می‌تواند به طور چشمگیری کیفیت صدای گفتار را در اتصالات با پهنای باند کم، مانند تماس‌های تلفنی در مناطقی که خدمات نقطه‌ای دارند، بهبود بخشد. این تکنیک برای موسیقی هم کار می کند.

متا این فناوری را در 25 اکتبر در مقاله ای با عنوان “فشرده سازی صوتی عصبی با وفاداری بالا” که توسط محققین متا AI الکساندر نوشته شده بود، معرفی کرد. دفوسز، جید کوپت، گابریل سینایو و یوسی آدی. متا همچنین تحقیقات خود را در وبلاگ خود که به EnCodec اختصاص داده است، خلاصه کرد.

متا ادعا می کند که رمزگذار/رمزگشای صوتی جدیدش می تواند صدای 10 برابر کوچکتر از MP3 را فشرده کند.
بزرگنمایی کنید / متا ادعا می کند که رمزگذار/رمزگشای صوتی جدیدش می تواند صدای 10 برابر کوچکتر از MP3 را فشرده کند.

هوش مصنوعی متا

متا روش خود را به عنوان یک سیستم سه قسمتی توصیف می کند که برای فشرده سازی صدا به اندازه هدف مورد نظر آموزش دیده است. ابتدا، رمزگذار داده های فشرده نشده را به نمایش “فضای نهفته” با نرخ فریم پایین تر تبدیل می کند. سپس «کوانتایزر» نمایش را به اندازه هدف فشرده می‌کند و در عین حال مهم‌ترین اطلاعاتی را که بعداً برای بازسازی سیگنال اصلی استفاده می‌شود، پیگیری می‌کند. (این سیگنال فشرده همان چیزی است که از طریق شبکه ارسال می شود یا روی دیسک ذخیره می شود.) در نهایت، رمزگشا با استفاده از یک شبکه عصبی روی یک CPU، داده های فشرده شده را در زمان واقعی به صدا تبدیل می کند.

حتما بخوانید:
خطای بحرانی در Cobalt Strike سرورهای بات نت را برای بارگیری آسیب پذیر می کند
یک بلوک دیاگرام که نحوه عملکرد فشرده سازی EnCodec متا را نشان می دهد.
بزرگنمایی کنید / یک بلوک دیاگرام که نحوه عملکرد فشرده سازی EnCodec متا را نشان می دهد.

هوش مصنوعی متا

استفاده متا از تشخیص‌دهنده‌ها برای ایجاد روشی برای فشرده‌سازی صدا تا حد امکان بدون از دست دادن عناصر کلیدی سیگنال که آن را متمایز و قابل تشخیص می‌کند، کلیدی است:

“کلید فشرده سازی با تلفات، شناسایی تغییراتی است که توسط انسان قابل درک نیستند، زیرا بازسازی کامل در نرخ بیت پایین غیرممکن است. برای انجام این کار، ما از تمایز دهنده ها برای بهبود کیفیت ادراکی نمونه های تولید شده استفاده می کنیم. بازی و ماوس که در آن وظیفه تشخیص دهنده تمایز بین نمونه های واقعی و نمونه های بازسازی شده است. مدل فشرده سازی سعی می کند نمونه هایی را برای فریب دادن تمایزکنندگان با فشار دادن نمونه های بازسازی شده برای شبیه سازی ادراکی بیشتر با نمونه های اصلی تولید کند.

شایان ذکر است که استفاده از شبکه عصبی برای فشرده سازی و رفع فشرده سازی صدا بسیار جدید نیست – به ویژه برای فشرده سازی گفتار – اما محققان متا ادعا می کنند که آنها اولین گروهی هستند که این فناوری را برای صدای استریو 48 کیلوهرتز (کمی بهتر از نرخ نمونه برداری 44.1 کیلوهرتز CD) به کار می برند. ) که برای فایل های موسیقی توزیع شده در اینترنت معمول است.

در مورد برنامه‌های کاربردی، متا می‌گوید این «فشرده‌سازی صدا» مبتنی بر هوش مصنوعی می‌تواند از «تماس‌های سریع‌تر و با کیفیت بهتر» در شرایط بد شبکه پشتیبانی کند. و البته، به عنوان Meta، محققان همچنین به پیامدهای فرا وجهی EnCodec اشاره می‌کنند و می‌گویند که این فناوری در نهایت می‌تواند “تجارب متاورس غنی را بدون نیاز به بهبود پهنای باند عمده” ارائه دهد.

حتما بخوانید:
10 برترین توییت‌های تمام دوران درباره لباس بچگانه

فراتر از آن، شاید روزی فایل‌های صوتی موسیقی بسیار کوچکی را نیز از آن خارج کنیم. در حال حاضر، فناوری جدید متا در مرحله تحقیقاتی باقی مانده است، اما به آینده ای اشاره می کند که در آن صدای با کیفیت بالا می تواند از پهنای باند کمتری استفاده کند، که خبر خوبی برای ارائه دهندگان پهنای باند تلفن همراه با شبکه های پر بار از رسانه های جریانی است.


منبع: tarjome-news.ir

دیدگاهتان را بنویسید

hacklink al hd film izle php shell indir siber güvenlik türkçe anime izle Fethiye Escort android rat duşakabin fiyatları fud crypter hack forum bayan escort - vip elit escort lyft accident lawyer garnet trade güvenilir mihtml nullednulled themesViagragercekhoca.org