کدک جدید متا به کمک هوش مصنوعی فایل‌های صوتی را 10 برابر فشرده‌تر از MP3 می‌کند

مهیار 11 آبان 1401 زمان مورد نیاز برای مطالعه: 2 دقیقه

کدک جدید متا به کمک هوش مصنوعی فایل‌های صوتی را 10 برابر فشرده‌تر از MP3 می‌کند

شرکت متا از کدک فشرده‌سازی صوتی جدیدی مبتنی بر هوش مصنوعی موسوم به EnCodec رونمایی کرده که می‌تواند حجم فایل‌های صوتی را 10 برابر نسبت به فرمت MP3 در حالت 64kbps کمتر کند و افت کیفیت نداشته باشد. متا می‌گوید این تکنیک همچنین می‌تواند کیفیت صدا را در ارتباطاتی افزایش دهد که پهنای باند پایینی دارند.

متا در مقاله‌ای با عنوان «فشرده‌سازی صدای عصبی با وفاداری بالا» از این فناوری پرده برداشت. این شرکت می‌گوید تکنیک آن‌ها یک سیستم سه قسمتی است که آموزش داده شده تا فایل‌های صوتی را به یک حجم مشخص برساند.

کدک صوتی جدید متا چگونه کار می‌کند؟

ابتدا انکودر داده‌های غیرفشرده را به حالت «فضای نهفته» با نرخ فریم پایین‌تر می‌برد. سپس کوانتایزر این اطلاعات را با فشرده‌سازی به حجم مورد نظر رسانده و در عین حال مهم‌ترین بخش اطلاعات را حفظ می‌کند تا بعدا دوباره سیگنال اصلی را بسازد (این سیگنال فشرده همان چیزی است که در شبکه فرستاده یا روی دیسک ذخیره می‌شود). در نهایت، نرم‌افزار رمزگشا با استفاده از یک شبکه عصبی روی CPU اطلاعات فشرده را در لحظه به صدا تبدیل می‌کند.

استفاده از شبکه‌های عصبی برای فشرده‌سازی صوت اتفاق جدیدی نیست، اما محققان متا مدعی‌اند که آن‌ها برای اولین بار به سراغ استفاده از این کدک برای اصوات استریوی 48khz رفته‌اند. این نرخ نمونه‌برداری همان نرخ رایج در فایل‌های موسیقی در اینترنت است و می‌تواند کاربردهای خوبی در این زمینه داشته باشد.

متا می‌گوید این فناوری می‌تواند برای برقراری تماس‌های صوتی بهتر و سریع‌تر در شرایط ارتباطی نامناسب هم استفاده شود. از آن‌جایی که با متا طرف هستیم، این شرکت به کاربردهای EnCodec در متاورس هم اشاره می‌کند و می‌گوید این فناوری می‌تواند بدون نیاز به ظرفیت‌های بالای شبکه، تجربه حضور در محیط‌های مجازی را ارتقا دهد.

کدک جدید متا فعلا همچنان در فاز تحقیقاتی باقی می‌ماند، اما در آینده می‌تواند امکان دسترسی به صداهای باکیفیت را حتی در پهنای باند پایین ممکن کند.