شرکت متا از کدک فشردهسازی صوتی جدیدی مبتنی بر هوش مصنوعی موسوم به EnCodec رونمایی کرده که میتواند حجم فایلهای صوتی را 10 برابر نسبت به فرمت MP3 در حالت 64kbps کمتر کند و افت کیفیت نداشته باشد. متا میگوید این تکنیک همچنین میتواند کیفیت صدا را در ارتباطاتی افزایش دهد که پهنای باند پایینی دارند.
متا در مقالهای با عنوان «فشردهسازی صدای عصبی با وفاداری بالا» از این فناوری پرده برداشت. این شرکت میگوید تکنیک آنها یک سیستم سه قسمتی است که آموزش داده شده تا فایلهای صوتی را به یک حجم مشخص برساند.
کدک صوتی جدید متا چگونه کار میکند؟
ابتدا انکودر دادههای غیرفشرده را به حالت «فضای نهفته» با نرخ فریم پایینتر میبرد. سپس کوانتایزر این اطلاعات را با فشردهسازی به حجم مورد نظر رسانده و در عین حال مهمترین بخش اطلاعات را حفظ میکند تا بعدا دوباره سیگنال اصلی را بسازد (این سیگنال فشرده همان چیزی است که در شبکه فرستاده یا روی دیسک ذخیره میشود). در نهایت، نرمافزار رمزگشا با استفاده از یک شبکه عصبی روی CPU اطلاعات فشرده را در لحظه به صدا تبدیل میکند.
استفاده از شبکههای عصبی برای فشردهسازی صوت اتفاق جدیدی نیست، اما محققان متا مدعیاند که آنها برای اولین بار به سراغ استفاده از این کدک برای اصوات استریوی 48khz رفتهاند. این نرخ نمونهبرداری همان نرخ رایج در فایلهای موسیقی در اینترنت است و میتواند کاربردهای خوبی در این زمینه داشته باشد.
متا میگوید این فناوری میتواند برای برقراری تماسهای صوتی بهتر و سریعتر در شرایط ارتباطی نامناسب هم استفاده شود. از آنجایی که با متا طرف هستیم، این شرکت به کاربردهای EnCodec در متاورس هم اشاره میکند و میگوید این فناوری میتواند بدون نیاز به ظرفیتهای بالای شبکه، تجربه حضور در محیطهای مجازی را ارتقا دهد.
کدک جدید متا فعلا همچنان در فاز تحقیقاتی باقی میماند، اما در آینده میتواند امکان دسترسی به صداهای باکیفیت را حتی در پهنای باند پایین ممکن کند.