محققان MIT به وسیله صدا ، جهان را به تصویر می‌کشند؛ نابینایی به پایان می‌رسد؟

مهیار 14 آبان 1401 زمان مورد نیاز برای مطالعه: 3 دقیقه

محققان MIT به وسیله صدا ، جهان را به تصویر می‌کشند؛ نابینایی به پایان می‌رسد؟

محققان MIT با استفاده از هوش مصنوعی سیستم جدیدی ساخته‌اند که می‌تواند جهان را با استفاده از صدا، مدل‌سازی کند.

با توجه به نقشی اساسی MIT در توسعه بسیاری از جنبه‌های علوم مدرن، مهندسی، ریاضیات و فناوری، یکی از زمینه‌هایی که تاکنون مورد تحقیق و بررسی توسط این دانشگاه قرار نگرفته بود، به تصویر کشیدن محیط جهان به‌وسیله صدا است.

اکنون، محققان مؤسسه فناوری ماساچوست (Massachusetts Institute of Technology) یک مقاله تحقیقاتی در مورد ساخت یک مدل یادگیری ماشین (ML) آموزش دیده در این حوزه نوشته‌اند. یادگیری ماشین (Machine Learning) شاخه‌ای از هوش مصنوعی (AI) و مجموعه‌ای از تکنیک‌هاست که محققان از آن‌ها برای آموزش به سیستم‌ها استفاده می‌کنند.

اطلاعات موجود در یک پست در وب سایت MIT News نشان می‌دهد که محققان MIT برای ساخت یک مدل ML که از آکوستیک فضایی برای دیدن و مدل‌سازی محیط استفاده می‌کند، درحال همکاری با آزمایشگاه هوش مصنوعی MIT-IBM Watson هستند.

به بیان ساده، این مدل ارائه شده توسط محققان MIT با تشخیص اینکه چگونه صوت از یک نقطه‌ی مشخص به گوش شنونده می‌رسد و به موقعیت‌های مختلف منتشر می‌شود، مدل‌سازی را امکان‌پذیر می‌کند. از آنجایی که این تکنیک امکان تعیین هندسه سه بعدی زیربنایی اشیاء محیطی را با استفاده از صدا فراهم می‌کند، می‌تواند در موارد مختلف بسیار مفید واقع شود.

برنامه‌هایی مانند واقعیت مجازی نیز با عوامل هوش مصنوعی تقویت شده‌اند تا از صدا و بینایی برای تجسم بهتر محیط خود استفاده کنند. به عنوان مثال، یک ربات کاوشگر در اعماق آب می‌تواند از آکوستیک (اصوات) برای تعیین بهتر مکان اشیاء خاص در مقایسه با دید کامپیوتری استفاده کند.

محققان MIT می‌گویند ساخت مدل ML بر اساس صدا، بسیار پیچیده‌تر از مدل مبتنی بر بینایی کامپیوتری است. دلیل این موضوع این است که مدل‌های دید کامپیوتری از خاصیتی به نام سازگاری فتومتریک استفاده می‌کنند (به این معنا که یک شی در هنگام مشاهده از زوایای مختلف تقریباً یکسان به نظر می‌رسد). اما این ویژگی در مورد صدا صدق نمی‌کند؛ زیرا بسته به موقعیت مکانی شما و سایر موانع، آنچه از منبع می‌شنوید ممکن است بسیار متغیر باشد.

برای رفع این پیچیدگی، محققان MIT از دو ویژگی به نام‌ عمل متقابل و هندسه موضعی استفاده کردند. اولی اساساً به این معناست که حتی اگر مکان گوینده و شنونده را عوض کنید، صدا دقیقاً یکسان خواهد بود. نقشه‌برداری هندسه موضعی نیز شامل ترکیب دوطرفه در یک میدان صوتی عصبی (NAF) برای گرفتن اشیا و سایر اجزای معماری است.

محققان MIT خاطرنشان کردند برای اینکه مدل ML در محیط‌های آزمایشی کار کند، باید اطلاعات بصری و طیف‌نگاری‌هایی شامل نمونه‌های صوتی بر اساس مکان‌ منبع صدا و شنونده، به آن داده شود. با پیروی از این ورودی‌ها، مدل می‌تواند به دقت تعیین کند که چگونه صدا با حرکت شنونده در اطراف محیط تغییر می‌کند.

در گام‌های بعدی، محققان MIT قصد دارند با تقویت بیشتر این مدل، محیط‌های بزرگ‌تر و پیچیده‌تری مانند یک ساختمان یا حتی کل شهر را تجسم کنند. بنابراین، با اینکه این مدل اکنون تنها در مدل‌سازی و نقشه‌‌برداری‌های سه بعدی کاربرد دارد، اما ممکن است در آینده‌ای نزدیک از آن برای کمک به نابینایان استفاده شود.

منبعneowin