هرآنچه باید درباره هسته‌های تنسور بدانید

هرآنچه باید درباره هسته‌های تنسور بدانید

هسته‌های تنسور قطعات کوچکی هستند که می‌توانند انجام فعالیت‌های پردازشی بسیار سنگین و پیچیده را برای کارت‌های گرافیک‌ آسان‌تر کنند. این هسته‌ها می‌توانند برای افزایش وضوح جزئیات و رزولوشن تصاویر بازی‌ها نیز به کارت گرافیک کمک کنند.

انویدیا در چهار سال اخیر کارت‌های گرافیکی متفاوتی را عرضه کرده که علاوه بر هسته‌های معمولی که در اختیار شیدرها (سایه‌زن‌ها در صحنه‌های سه‌بعدی) قرار می‌گیرند، هسته‌های دیگری نیز دارند که تحت عنوان تنسور (Tensor) شناخته می‌شوند. این هسته‌های مرموز در دستگاه‌های مختلفی از جمله کامپیوترهای دسکتاپ، لپ‌تاپ‌ها، ورک‌استیشن‌ها و حتی پایگاه‌های داده در سراسر جهان مورداستفاده قرار می‌گیرند؛ اما هسته‌های تنسور چه هستند و چه کاربردی دارند و آیا واقعا وجود آن‌ها در کارت گرافیک ضروری است یا خیر؟ در این مقاله شما را با ساختار هسته تنسور آشنا می‌کنیم و در مورد نحوه استفاده از هسته‌های تنسور در دنیای گرافیک و یادگیری عمیق نیز توضیح می‌دهیم.

مفاهیم ریاضی تشکیل‌دهنده اساس ساختار هسته‌های تنسور

برای فهم بهتر عملکرد هسته‌های تنسور و کاربردهای این هسته‌ها ابتدا باید با یک سری از مفاهیم ریاضی که هسته‌های تنسور بر مبنای آن‌ها شکل گرفته‌اند، آشنا شویم. تمام ریزپردازنده‌ها با هر نوع عملکردی عملیات پردازشی را با استفاده از انجام چهار عمل ریاضی اصلی (جمع، تفریق و غیره) روی اعداد انجام می‌دهند.

گاهی اوقات این اعداد باید دسته‌بندی شوند، چون ارتباط خاصی با یکدیگر دارند؛ به‌عنوان‌ مثال زمانی که تراشه‌ای در حال پردازش داده‌ها برای رندر گرافیکی است، شاید برای عامل مقیاس به اعداد صحیح نیاز داشته باشد (اعدادی مثل +2 و +115)؛ اما برای دست یافتن به مختصات در فضای سه‌بعدی با اعداد اعشاری کار می‌کند (مثل اعدادی +0.1، -0.5، +0.6). در مورد دوم برای موقعیت‌یابی به سه مجموعه داده نیاز داریم. در کل می‌توانیم بگوییم نزدیک تنسور شیء ریاضیاتی است که بین دو شیء ریاضی که با یکدیگر ارتباط دارند، رابطه برقرار می‌کند. هسته‌های تنسور معمولا به شکل آرایه‌ای از اعداد نمایش داده می‌شوند. این آرایه با تعداد ابعاد مختلف می‌تواند به شکل زیر نمایش داده شود.

همان‌طور که در شکل بالا می‌بینید، آرایه اعداد هسته‌های تنسور در ساده‌ترین حالت می‌تواند بدون هیچ بعدی نمایش داده شود و در این حالت تنها یک مقدار دارد. نام دیگر چنین هسته تنسوری، اسکالر (عددی) است. با افزایش بعدها ساختارهای متداول ریاضی دیگری را می‌بینیم که شامل موارد زیر می‌شود:

  • تنسور یک‌ بعدی: برداری
  • تنسور دو بعدی: ماتریسی

به بیان ساده هر تنسور اسکالر دربردارنده ساختار 0x0، تنسور برداری دربردارنده ساختار 1x0، تنسور ماتریسی دربردارنده ساختار 1x1است. ما برای آسان‌تر کردن فهم این مفاهیم و مربوط کردن آن‌ها به هسته‌های تنسور مورد استفاده در کارت‌های گرافیک، تنها در مورد تنسورهایی که در قالب ماتریس مورد استفاده قرار می‌گیرند، توضیح می‌دهیم. عمل ضرب یکی از مهم‌ترین انواع عملیات ریاضی متداول با ماتریس‌هاست. اجازه دهید ببینیم چگونه دو ماتریس متشکل از چهار ردیف و چهار ستون در یکدیگر ضرب می‌شوند.

جواب نهایی ضرب ماتریس‌ها برابر با تعداد سطر در ماتریس اول و تعداد ستون در ماتریس دوم است. بنابراین چگونه باید این ماتریس‌ها را در یکدیگر ضرب کرد. راه‌حل انجام این کار در عکس زیر به تصویر کشیده شده است:

همان‌طور که می‌بینید برای ضرب دو ماتریس ساده در یکدیگر، عملیات ضرب و تقسیم زیادی انجام شده است. به دلیل اینکه امروزه هر پردازنده‌ای (CPU) می‌تواند این عملیات را انجام دهد؛ بنابراین هر دستگاه دارای پردازنده مرکزی از جمله تمام کامپیوترهای دسکتاپ و لپ‌تاپ‌ها و حتی تبلت‌ها می‌توانند در زمینه مدیریت تنسورهای ساده کاملا موفق عمل کنند و وظیفه محاسبه آن‌ها را برعهده گیرند.

به‌هرحال در مثال بالا ۶۴ عملیات ضرب و ۴۸ عملیات جمع اضافه شده. نتیجه هر ضرب کوچک عددی کوچک است که باید در فضایی نگهداری شود و پس از آن با جواب ضرب بعدی جمع شود. در نهایت تمام اعداد به‌دست‌آمده باید به تنسور نهایی تبدیل شوند که این تنسور هم در فضایی ذخیره می‌شود. اگرچه از دیدگاه علم ریاضی ضرب ماتریسی ساده است؛ اما از لحاظ پردازشی فعالیت سنگینی به شمار می‌رود. انجام این عمل ضرب مستلزم ساخت و ذخیره‌سازی تعداد زیادی عدد است و حافظه کش پردازنده باید اطلاعات زیادی را بخواند و بنویسد.

در سال‌های اخیر افزونه‌های متنوعی در پردازنده‌های AMD و اینتل ایجاد شده‌اند که امکان مدیریت و محاسبه تعداد زیادی از اعداد اعشاری به‌صورت هم‌زمان را برای این پردازنده‌ها فراهم کرده‌اند. از میان این افزونه‌ها می‌توان به MMX ،SSE و در حال حاضر AVX اشاره کرد. تمام این افزونه‌ها جزو گروه SIMD یا «یک دستورالعمل برای تمام داده‌ها» محسوب می‌شوند.

این افزونه‌ها تنها چیزی هستند که ما برای ضرب ماتریس‌ها به آن نیاز داریم؛ اما امروزه پردازنده‌هایی به‌صورت اختصاصی برای انجام عملیات مرتبط با وظایف SIMD طراحی شده‌اند. این پردازنده‌ها امروزه به‌عنوان پردازنده گرافیکی یا GPU در سیستم‌ها مورد استفاده قرار می‌گیرند.

 پردازنده‌ای بسیار هوشمندتر از ماشین‌حساب معمولی

در دنیای پردازش گرافیکی باید مجموعه گسترده‌ای از داده‌ها در آن واحد منتقل و هم‌زمان در قالب برداری پردازش شود. پردازنده‌های گرافیکی با برخورداری از قابلیت پردازش موازی برای مدیریت تنسورها، پردازنده‌های کاملا ایده‌آلی هستند و تمام پردازنده‌های گرافیکی جدید از مفهوم جدیدی تحت عنوان GEMM یا General Matrix Multiplication پشتیبانی می‌کنند.

در این عملیات دو ماتریس در یکدیگر ضرب و جواب ضرب با ماتریس دیگری جمع می‌شود؛ البته در مورد فرمتی که باید توسط ماتریس‌ها مورداستفاده قرار گیرد تعداد سطرها و ستون‌های هر یک از ماتریس‌ها محدودیت‌هایی وجود دارد که در تصویر زیر مشاهده می‌کنید:

به نظر می‌رسد الگوریتم‌های مورد استفاده برای انجام عملیات مرتبط با ماتریس‌ها، زمانی که ماتریس‌ها مربعی هستند، بهترین عملکرد را دارند (به‌عنوان‌مثال در صورت استفاده از ماتریسی با آرایه 10X10 در مقایسه با زمانی که از ماتریسی با آرایه 50X2 استفاده شود، نتیجه بهتری حاصل می‌شود؛ اما درصورتی‌که سیستم برای پردازش این محاسبات، سخت‌افزار اختصاصی در اختیار داشته باشد، این الگوریتم‌ها هنوز هم خوب عمل می‌کنند.)

انویدیا در دسامبر سال ۲۰۱۷ یک کارت گرافیک مجهز به پردازنده گرافیکی با معماری جدیدی تحت عنوان ولتا (Volta) وارد بازار کرده بود که برای گیمرهای حرفه‌ای طراحی شده بود و تا پیش از این هیچ یک از کارت‌های گرافیک جی‌فورس مجهز به این تراشه نبودند.

کارت گرافیک جدید انویدیا به دلیل اینکه نخستین کارت گرافیک مجهز به هسته‌های مختص انجام محاسبات تنسور بود، کارت گرافیک خاص و منحصربه‌فردی بود. در زمان عرضه این کارت گرافیک هیچ ‌کس نحوه کار آن را نمی‌دانست. هسته‌های تنسور این کارت گرافیک انویدیا برای انجام 64 عملیات GEMM در هر چرخه کلاک روی ماتریس 4X4 طراحی شده بود. این هسته‌ها دربردارنده مقادیر FP16 (اعداد اعشاری با سایز 16 بیتی) هستند. به‌عبارت‌ دیگر تنسورها قابلیت ضرب FB16 با جمع FB32 را دارند. اندازه چنین تنسورهایی واقعا کوچک است؛ بنابراین زمانی که دیتاسنتر‌ها را با اندازه واقعی پردازش می‌کنند، هسته‌ها در میان بلوک‌های کوچک ماتریس‌های بزرگ‌تر تقسیم می‌شوند تا به‌تدریج به پاسخ نهایی برسند.

نزدیک به دو سال پیش انویدیا از معماری تورینگ (Turing) رونمایی کرد. این بار هسته‌های تنسور به کارت‌های گرافیک مورد استفاده توسط کاربران عادی نیز راه پیدا کرد. این سیستم به گونه‌ای به‌روزرسانی شده که شکل دیگری از داده‌ها را نیز پشتیبانی می‌کند که از میان آن‌ها می‌توان به INT8 یا اعداد صحیح 8 بیتی اشاره کرد؛ البته تنها تفاوت معماری تورینگ با معماری ولتا، همین به‌روزرسانی‌هاست و تفاوت دیگری با یکدیگر ندارند.

انویدیا  در ابتدای سال میلادی گذشته معماری امپر (Ampere) را برای نخستین بار در کارت گرافیک A100 که برای استفاده در دیتاسنترها طراحی شده، به کار گرفت و اینبار انویدیا عملکرد کارت گرافیک خود را به میزان بسیار زیادی بهبود داد (تعداد عملیات GEMM در هر چرخه از ۶۴ عملیات به ۲۵۶ عملیات افزایش یافت) و این کارت گرافیک از فرمت داده‌های بیشتری نیز پشتیبانی می‌کند. در ضمن در این کارت‌های گرافیک توانایی پردازش و مدیریت سریع تنسورهای کم‌پشت (تنسورهایی که تعداد ارقام صفر آن‌ها زیاد است) نیز اضافه شد.

برنامه‌نویسان می‌توانند به هسته‌های تنسور در کارت‌های گرافیک دارای معماری تورینگ، ولتا و امپر به‌راحتی دسترسی پیدا کنند. کد برنامه باید با استفاده از یک نشان یا فلگ (Flag) به واسط برنامه‌نویسی کاربردی (API) و درایورها این پیام را بدهند که یرنامه‌نویس می‌خواهد از هسته‌های تنسور استفاده کند؛ البته نوع داده لزوما باید از انواع داده‌های قابل پشتیبانی توسط هسته باشد و ابعاد ماتریس‌ها نیز باید یکی از مضرب‌های عدد ۸ باشد. در صورت ایجاد شدن تمام شرایط، انجام کارهای دیگر برعهده سخت‌افزار خواهد بود.

با تمام این تفاسیر به نظر می‌رسد که هسته‌های تنسور عملکرد مناسبی دارند؛ اما شاید از خود بپرسید این هسته‌ها در انجام عملیات GEMM تا چه اندازه بهتر از هسته‌های معمولی پردازنده گرافیکی عمل می‌کنند؟

 زمانی که نخستین کارت گرافیک با معماری ولتا عرضه شد، آزمایشی ریاضی توسط وب‌سایت Anadtech انجام شد که با استفاده از ۳ کارت گرافیک متفاوت انویدیا که شامل یک کارت گرافیک با معماری ولتا، یک کارت مبتنی بر معماری پاسکال و یک کارت گرافیک قدیمی‌تر مبتنی بر معماری مکسول (Maxwell) صورت پذیرفت.

مفهوم Precision به تعداد بیت‌های مورد استفاده برای اعداد اعشاری در ماتریس‌ها اشاره می‌کند. کلمه Double به ۶۴ بیت، کلمه Single به 32 بیت و کلمه Half به 16 بیت اشاره دارد. محور افقی نشانگر حداکثر عملیات اعشاری قابل انجام در هر ثانیه است که به‌صورت اختصاری با مفهوم فلاپس (FLOPs) نمایش داده می‌شود (به خاطر داشته باشید هر عملیات GEMM معادل 3 فلاپس است).

با یک نگاه به نتایج زمانی که به‌جای هسته‌های معمولی که هسته‌های کودا (CUDA) نیز نامیده می‌شوند، از هسته‌های تنسور استفاده شده است، به‌خوبی متوجه می‌شویم که هسته‌های تنسور برای انجام محاسبات پیچیده ریاضی عملکرد موفق‌تری دارند. اکنون‌که با ساختار هسته‌های تنسور آشنا شدیم، اجازه دهید ببینیم این هسته‌ها چه کاربردی دارند.

کاربردهای هسته‌های تنسور

استفاده از ریاضی تنسور می‌تواند در حوزه فیزیک و مهندسی دستاوردهای زیادی را به ارمغان بیاورد. درضمن این شاخه از علم ریاضی در حل مشکلات بسیار پیچیده حوزه مکانیک سیالات، الکترومغناطیس و فیزیک نجومی مورد استفاده قرار می‌گیرد. البته همیشه کامپیوترهایی که برای پردازش این نوع از اعداد مورد استفاده قرار می‌گیرند، عملیات ماتریس را با استفاده از مجموعه عظیمی از پردازنده‌ها (سی‌پی‌یوها) انجام می‌دهند.

در حوزه یادگیری ماشینی نیز به میزان زیاد توانایی‌های بالقوه ریاضی تنسور استفاده می‌شود؛ مخصوصا در حیطه یادگیری عمیق. در تمام این حوزه‌ها مجموعه‌ای عظیم از داده‌ها در آرایه‌های متعددی که شبکه عصبی نام دارند، مدیریت می‌شوند. در این مفاهیم به ارتباطات بین مقادیر مختلف داده‌ها وزن خاصی داده می‌شود که نشان‌دهنده اهمیت زیاد این ارتباط است.

در این ساختار زمانی که می‌خواهید بدانید این ارتباطات را که تعداد آن‌ها به صدها یا هزاران ارتباط می‌رسد، چگونه با هم تعامل دارند، باید هر تکه از داده موجود در شبکه را با وزن‌های متفاوت وزن داده‌ها ضرب کنید. به‌عبارت‌دیگر این محاسبه همان ضرب دو ماتریس است که در ریاضی کلاسیک تنسور انجام می‌شود.

به همین دلیل در تمام ابرکامپیوترهای مورد استفاده برای بهره‌مندی از قابلیت‌های یادگیری عمیق از پردازنده گرافیکی استفاده می‌شود که تمام آن‌ها توسط انویدیا ساخته شده‌اند. لازم به ذکر است؛ بسیاری از شرکت‌های مطرح در حال ساخت پردازنده‌های تنسور اختصاصی خود هستند؛ به‌عنوان‌مثال گوگل خبر ساخت نخستین TPU یا همان پردازنده تنسور را در سال ۲۰۱۶ اعلام کرد؛ البته این پردازنده‌ها بسیار خاص هستند و به‌جز انجام عملیات ماتریس کار دیگری نمی‌تواند انجام دهد.

هسته‌های تنسور در کارت‌های گرافیک

اکنون‌که با ساختار و کاربردهای هفته‌های تنسور آشنا شده‌اید. به نظر شما این هسته‌ها در کارت‌های گرافیک چه استفاده‌ای می‌تواند داشته باشد و یا اینکه آیا کاربری که در حوزه فیزیک اختری فعالیت نمی‌کند و با حل مسئله‌های مرتبط با منیفلد ریمانی کاری ندارد یا آزمایش‌های مرتبط با سطوح مختلف شبکه عصبی پیچشی را انجام نمی‌دهد، واقعا به هسته‌های تنسور نیاز دارد؟ وجود هسته‌های تنسور در کارت‌های گرافیک برای انجام وظایف متداول این کارت‌ها مانند رندر گرافیکی و رمزگذاری و رمزگشایی ویدیوها لازم نیست و اگر برای چنین کارهایی می‌خواهید کارت گرافیک تنسور بخرید، عملا می‌خواهید پولتان را هدر دهید. با این وجود انویدیا در سال 2018 کارت گرافیک Turing GeForce RTX را با هسته‌های تنسور تولید کرد و در کنار آن قابلیت DLSS یا همان Deep Learning Super Sampling را معرفی کرد (این فناوری برای ارتقای موقتی وضوح تصاویر با استفاده از فناوری یادگیری عمیق کاربرد دارد).

اگر بخواهیم به‌طور ساده هدف از استفاده از هسته‌های تنسور و فناوری DLSS را در کارت‌های گرافیک جدید انویدیا بیان کنیم، باید بگوییم که انویدیا با عرضه کارت گرافیک فریمی را در ررزولوشن پایین رندر می‌کند و زمانی که رندر پایان یابد، رزولوشن تصویر افزایش پیدا می‌کند و ابعاد آن به ابعاد مانیتور می‌رسد (به‌عنوان‌مثال می‌توان با استفاده از کارت‌های گرافیک جدید فریمی را در رزولوشن 1080p رندر کرد و سپس ابعاد آن را به 1440pتغییر داد). با استفاده از این روش می‌توان حتی در مواردی که تصویر دارای رزولوشن و پیکسل‌های کمی است، تصویری با وضوح بالا ببینید.

کنسول‌ها سال‌هاست که از چنین رویکردی برای افزایش وضوح تصاویر استفاده می‌کنند و تعداد زیادی از کامپیوترهای گیمینگ امروزی نیز از این قابلیت برخوردارند.

در تصویر زیر که از بازی Assassin's Creed: Odyssey ساخت شرکت یوبی‌سافت انتخاب شده، رزولوشن رندر را می‌توان تنها تا 50 درصد رزولوشن مانیتور کاهش دهیم که متاسفانه نتیجه چندان خوبی ندارد. در این تصاویر می‌توانید صحنه‌ای از بازی با رزولوشن 4K با حداکثر تنظیمات گرافیکی را مشاهده کنید.

زمانی که رزولوشن بازی بالا باشد، بافت‌ها بسیار بهتر به نظر می‌رسند و جزئیات بازی وضوح بسیار بیشتری پیدا می‌کنند. متاسفانه پردازش تمام پیکسل‌ها که تعداد آن‌ها واقعا زیاد است، عملیات پردازشی گسترده‌ای را می‌طلبد. در تصویر زیر بازی در رزولوشن  1080p رندر شده است و تعداد پیکسل‌ها در این عملیات پردازشی تنها ۲۵ درصد عملیات پردازشی قبلی است؛ اما در پایان پردازش از هسته‌های سایه‌زن نیز استفاده شده تا رزولوشن تصویر به 4K برسد.

 تفاوت این دو تصویر که به دو شکل کاملا متفاوت پردازش شده‌اند، در نگاه اول مشخص نیست؛ چون تصویر با فرمت JPEG فشرده شده و روی وب‌سایت بارگذاری شده که کیفیت آن را کاهش می‌دهد؛ اما در تصویر دوم جزئیاتی مانند سلاح شخصیت بازی و شکل صخره‌ها در عمق تصویر کمی تار شده‌اند. در تصویر زیر بخشی از تصویر زوم و کراپ شده است که اگر به‌دقت به این تصاویر نگاه کنیم، بهتر متوجه این تفاوت‌ها می‌شویم.

تصویر سمت چپ با رزولوشن 4K رندر شده؛ اما تصویر دوم با رزولوشن 1080P رندر شده و پس از آن به رزولوشن 4K ارتقا داده شده است. تفاوت این دو تصویر زمانی بیشتر مشهود می‌شود که تصویر حرکت کند. در چنین حالاتی در تصویر دوم جزئیات کاهش می‌یابد و تار می‌شود؛ البته می‌توان با کمک ایجاد جلوه‌های افزایش وضوح  (شارپنینگ) که توسط کارت گرافیک انجام می‌شود، بخشی از جزئیات را برگرداند؛ اما استفاده از چنین قابلیتی چندان منطقی نیست.

در چنین مواقعی قابلیت DLSS وارد عمل می‌شود. پس از عرضه نخستین کارت‌های گرافیک انویدیا دارای این قابلیت، چند بازی هم با رزولوشن بالا و هم با رزولوشن پایین با استفاده از تکنیک Anti-Aliasing (تکنیکی برای صاف کردن لبه و سطح سطوح) و هم بدون استفاده از این قابلیت اجرا شدند. در تمام این حالات خروجی کاملا مطلوب بود و تصاویر خوبی ایجاد شدند. این تصاویر در ابرکامپیوترها بارگذاری شدند که تمام آن‌ها از شبکه‌های عصبی برای یافتن بهترین روش ممکن برای تبدیل تصویر 1080p به تصویری با رزولوشن بالاتر استفاده می‌کردند.

فناوری DLSS 1.0 عملکرد چندان خوبی نداشت زیرا در هنگام استفاده از آن جزئیات یا از بین می‌رفتند یا لرزش آزاردهنده‌ای داشتند. در ضمن این فناوری به‌طور کامل از هسته‌های تنسور استفاده نمی‌کرد و برای ارتقای جزئیات از شبکه متعلق به انویدیا استفاده می‌کرد و هر یک از بازی‌هایی که از DLSS پشتیبانی می‌کنند باید به‌صورت اختصاصی توسط شبکه انویدیا مورد بررسی قرار بگیرند تا الگوریتم اختصاصی هر یک از آن‌ها برای ارتقای وضوح تصویر آن‌ها ایجاد شود.

در سال 2020 نسخه 2.0 DLSS عرضه شد که نسبت به قبل به میزان قابل‌توجهی بهبود یافته بود. یکی از پیشرفت‌های قابل‌توجه این نسخه نسبت به قبل این است که ابرکامپیوترهای انویدیا تنها برای ایجاد الگوریتم‌های عمومی ارتقای وضوح تصویر مورد استفاده قرار می‌گرفتند؛ اما در نسخه جدید DLSS داده‌های به‌دست‌آمده از فریم رندر شده، با استفاده از مدل عصبی برای پردازش پیکسل‌ها مورد استفاده قرار می‌گیرد و برای انجام این کار از هسته‌های تنسور پردازنده‌های گرافیکی کمک می‌گیرد.

DLSS 2.0 توانایی‌های بالقوه زیادی دارد که بدون شک در آینده مشخص می‌شود؛ اما در حال حاضر تعداد کمی از بازی‌ها از آن پشتیبانی می‌کنند بسیاری از توسعه‌دهندگان به دنبال بهره‌مندی از توانایی‌های این قابلیت در بازی‌های آینده هستند. مطمئنا DLSS در حوزه ارتقای وضوح تصاویر تحولات گسترده‌ای را ایجاد خواهد کرد و سرمایه‌گذاری برای تکامل این قابلیت واقعا ارزش دارد.

اگرچه نتیجه بصری قابلیت DLSS همیشه عالی و بی‌نقص نیست؛ اما با افزایش توانایی رندرینگ این امکان را برای توسعه‌دهندگان فراهم می‌کند که بتوانند از جلوه‌های بصری بیشتری استفاده کنند و بازی‌های دارای گرافیک یکسان را برای پلتفرم‌های بیشتری ایجاد کنند.

در اغلب موارد قابلیت DLSS به همراه قابلیت‌های مرتبط با رهگیری پرتو یا Ray tracing (قابلیت‌هایی که برای افزایش دقت نوردهی و ایجاد سایه‌ها به شکل بهتر به کار گرفته می‌شوند) در بازی‌هایی که از این قابلیت پشتیبانی می‌کنند، به میزان زیادی مورد توجه قرار گرفته است.

پردازنده‌های گرافیکی سری جی‌فورس علاوه بر هسته‌های معمولی، دارای واحدهای پردازشی جدیدی تحت عنوان هسته‌های RT هستند. واحدهای منطقی اختصاصی برای سرعت بخشیدن به پردازش‌های Ray triangle و انجام محاسبات مربوط به BVH (اجسام هندسی گروه‌بندی‌شده مرتبط با یکدیگر) استفاده می‌شوند.

انجام این فرآیندها که با هدف تشخیص نقطه تماس نور با سایر اجسام فرآیندها موجود در صحنه صورت می‌پذیرد، فرآیند بسیار زمان‌بری است.

انجام محاسبات مربوط به رهگیری پرتو فعالیت بسیار پیچیده‌ای است؛ بنابراین توسعه‌دهندگان باید برای پیاده‌سازی قابلیت رهگیری پرتو در بازی‌ها، تعداد پرتوهای نور و همچنین حرکت نور در نقاط مختلف صحنه را محدود کنند.

از سوی دیگر انجام این کار نیز ممکن است باعث ایجاد نویز در تصویر شود و تصویر کمی برفکی به نظر برسد. به همین دلیل استفاده از یک الگوریتم حذف نویز ضرورت پیدا می‌کند که باعث پیچیده‌تر شدن محاسبات می‌شود. ممکن است هسته‌های تنسور برای بهبود عملکرد الگوریتم‌های حذف نویز که بر پایه استفاده از هوش مصنوعی طراحی شده‌اند، استفاده شوند؛ البته چنین کاربردی هنوز اجرایی نشده و برای انجام اکثر این فعالیت‌ها هنوز از هسته‌های کودا استفاده می‌شود. قابلیت DLSS در آینده رشد بیشتری پیدا خواهد کرد.

هسته‌های تنسور می‌توانند پس از اعمال قابلیت رهگیری پرتو در صحنه‌های بازی، به شیوه‌های موثری به افزایش میزان فریم‌ریت بازی کمک کنند. همچنین طراحان کارت‌های گرافیک جی‌فورس برای هسته‌های تنسور اهداف دیگری نیز دارند که از میان آن‌ها می‌توان به بهره‌گیری از آن‌ها برای پویانمایی بهتر شخصیت‌های بازی و شبیه‌سازی لباس اشاره کرد؛ اما نباید این نکته را فراموش کنیم که تا رسیدن به زمانی که صدها بازی از محاسبه‌گرهای ماتریس اختصاصی خود در پردازنده‌های گرافیکی به‌صورت معمول و متداول استفاده کنند، راه زیادی باقی‌ مانده است.

آینده هسته‌های تنسور

در حال حاضر هسته‌های تنسور تنها قطعات کوچک سخت‌افزاری هستند که فقط در تعداد معدودی از کارت‌های گرافیک استفاده می‌شوند. در آینده چه تغییراتی در انتظار هسته‌های  تنسور است؟ به دلیل اینکه انویدیا عملکرد تک هسته تنسور را در معماری امپر به میزان قابل‌توجهی بهبود داده، انتظار می‌رود در آینده کارت‌های میان‌رده و حتی کارت‌های گرافیک‌ ارزان‌قیمت نیز به هسته تنسور مجهز شود.

اگرچه هسته اینتل و AMD در پردازنده‌های گرافیکی خود از هسته یا هسته‌های تنسور استفاده نمی‌کنند، اما شاید در آینده شاهد قطعات سخت‌افزاری مشابهی در پردازنده‌های گرافیکی این دو شرکت باشیم. AMD  سیستمی را برای افزایش وضوح و نمایش بهترین جزئیات فریم‌های تکمیل شده پیشنهاد کرده که عملکرد کارت گرافیک را نیز کمی بهبود می‌دهد؛ بنابراین در حال حاضر AMD  استفاده از همین سیستم که مزایای زیادی دارد، اکتفا می‌کند؛ به عنوان مثال نیازی نیست توسعه‌دهندگان مبانی این سیستم را در کدهای خود ادغام کنند و تنها با کمی تغییر در درایور اجرا می‌شود.

همچنین برخی افراد معتقدند فضای خالی و بلااستفاده کارت‌های گرافیکی برای افزودن تعداد بیشتری از هسته‌های سایه‌زن، باید بهتر مورد استفاده قرار بگیرد. انویدیا در هنگام ساخت تراشه‌های اقتصادی دارای معماری تورینگ همین رویکرد را دنبال کرد. برخی از کارت‌های گرافیک مانند کارت گرافیک GeForce GTX 1650 فاقد هسته‌های تنسور هستند و در عوض به هسته‌های سایه‌زن FB16 مجهز شده‌اند.

در نهایت باید خاطرنشان کنیم که برای انجام عملیات GEMM با سرعت بسیار بالا باید یا از تعداد زیادی پردازنده (CPU) چندهسته‌ای یا از پردازنده گرافیکی مجهز به هسته‌های تنسور استفاده کنید.

افزودن دیدگاه جدید

محتوای این فیلد خصوصی است و به صورت عمومی نشان داده نخواهد شد.

HTML محدود

  • You can align images (data-align="center"), but also videos, blockquotes, and so on.
  • You can caption images (data-caption="Text"), but also videos, blockquotes, and so on.
6 + 7 =
Solve this simple math problem and enter the result. E.g. for 1+3, enter 4.