بررسی معماری تورینگ در کارت های گرافیک RTX 2080 ،RTX 2070 و RTX 2080 Ti انویدیا

سه‌شنبه ۱۰ مهر ۱۳۹۷ - ۱۷:۰۱

مطالعه 20 دقیقه

فرشید معتمد

در این مقاله به بررسیِ تفصیلیِ معماری تورینگ و قابلیت‌های اضافه شده در نسل جدید کارت‌های گرافیکِ انویدیا خواهیم پرداخت.

تبلیغات

کارت های گرافیک RTX 2080 و RTX 2080 Ti انویدیا رسما معرفی شدند

نگاهی به تاثیر Ray Tracing در کارت‌های گرافیک RTX انویدیا و بازی‌ها

کارکرد DLSS در کارت های گرافیک RTX انویدیا

معماری تورینگ در تراشه‌های گرافیکیِ جدید، یک تغییر بنیادین نسبت به نسل‌های گذشته و شروعی متفاوت برای آینده‌ی صنعت کارت‌های گرافیک محسوب می‌شود. آینده‌ای که فراتر از تصورِ کنونی ما از GPU و هسته‌های گرافیکیِ سایه‌زن (Shader Units) است و برای اولین بار تعاریفِ جدیدی را در بردارد.

در مقاله‌های قبلی از پیاده سازی RT یا همان Ray Tracing و Tensor در تراشه‌های جدیدِ نسل RTX 20 گفتیم و این که هسته‌های پردازشی مربوطه، به عنوانِ بخش‌های اصلی و همپای هسته‌های Shader به تراشه‌ی مبتنی بر معماری تورینگ اضافه شده‌اند. توسعه دهندگانِ بازی‌ها قرار است با استفاده از افزونه‌ی جدیدِ مایکروسافت برای دایرکت ایکس که DXR نامیده می‌شود، به استفاده از تکنیکِ پر قدرت و پیچیده‌ی رهگیری پرتو (Ray Tracing) در بازی‌های ساخته شده با تکنیکِ Rasterizationروی آورند و بُعدِ بصریِ واقع گرایانه‌تری به بازی‌های امروزی اضافه کنند. این نوآوری در مواردی نظیرِ نورپردازیِ محیطی، انعکاس و انکسارِ اشیا در موادِ صیقلی یا شفاف و سایه‌های تماسی تاثیراتِ شگرفی ایجاد می‌کند.

همچنین گفتیم که برای اولین بار استفاده از هوشِ مصنوعی (Artificial Intelligence) یا به اختصار AI در کنارِ یادگیری عمیق (Deep Learning) به خدمت گرفته شده تا تکنیک DLSS برای بهبودِ دقت و کیفیتِ بافت‌ها و پرهیز از Aliasing در بازی‌ها قابلِ اجرا باشد. تکنیکی که با سرعت بسیار بالاتر و کیفیتی هم تراز با بهترین تکنیک‌های قبلی مثل TAA روی هسته‌های واحدِ Tensor به صورت مستقل پردازش خواهد شد. در این مقاله به بررسی اجمالیِ جنبه‌های تکنیکی این معماری در تراشه‌های گرافیکی جدید و مشخصاتِ مدل‌های معرفی شده از سوی انویدیا خواهیم پرداخت.

کپی لینک

تورینگِ بزرگ: TU102

بزرگترین تراشه‌ی ساخته شده بر اساس تورینگ، TU102 مساحتی بالغ بر ۷۵۴ میلی‌متر مربع دارد که در قلبِ GeForce RTX 2080 Ti قرار داده شده است. تعدادِ ۱۸.۶ میلیارد ترانزیستورِ تشکیل دهنده‌ی آن با فناوریِ ساخت ۱۲ نانومتریِ کارخانه‌ی TSMC که 12nm FinFET نامگذاری شده تولید شده‌اند که یک بهبودِ تراکمِ آشکار را نسبت به فناوری قبلیِ ۱۶ نانومتری منعکس می‌کند.

در مقامِ مقایسه با بزرگ‌ترین تراشه‌ی ساخته شده با معماری پاسکال که GP102 بکار گرفته شده در GTX 1080 Ti بود، تراشه‌ی TU102 به اندازه‌ی ۶۰ درصد بزرگ‌تر است و تعداد ترانزیستورهای آن هم ۵۵ درصد بیشتر است. اما این بزرگ‌ترین تراشه‌ی ساخته شده توسط انویدیا نیست، چرا که پرچمدارِ تورینگ زیر سایه‌ی تراشه‌ی عظیمِ GV100 از نسلِ ولتا با ۲۱.۱ میلیارد ترانزیستور و مساحتِ ۸۱۵ میلی‌مترِ مربع قرار می‌گیرد. GV100 تراشه‌ای بود که در سال ۲۰۱۷ با تمرکز بر برنامه‌های کاربردی در دیتاسنترها معرفی شد و هنوز هم می‌توان آن را در کارتِ Titan V یافت.

TU102 بازارِ هدفِ متفاوتی را نسبت به GV100 نشانه گرفته است و در نتیجه فهرستی از منابع برای مطابقت با آن تدارک دیده شده است. در حالی که برخی از عناصرِ تورینگ از معماری ولتا قرض گرفته شدند، بخش‌هایی از این معماری که یا برای گیمرها منفعتی نداشتند یا برای سیستم‌های رومیزی مقرون به صرفه نبودند، به کلی از این طراحی حذف شدند.

برای مثال هر واحدِ Streaming Multiprocessor که به اختصار آن را SM می‌نامیم، در تراشه‌ی Voltaشاملِ ۳۲ واحدِ پردازشیِ FP64 برای تسریعِ محاسبات اعشاری با دقت‌ دو برابر می‌شد که در نتیجه به تعداد ۲۶۸۸ هسته‌ی پردازشی برای FP64 در کل تراشه‌ی GV100 بالغ می‌شد. ولی این واحدها در بازی‌‌ها واقعا کاربردِ خاصی ندارند و فضای زیادی از سطحِ تراشه را هم اشغال می‌کنند، در نتیجه انویدیا این قسمت را حذف کرده و تنها دو واحد از FP64 را برای هر SM باقی گذاشته است. نتیجه این شده که راندمانِ TU102 در محاسباتِ FP64 برابر با ۱&frasl;۳۲از نرخِ راندمان FP32 در آن است و تنها تعدادِ کافی برای سازگاری با نرم افزارهایی را که به عملکردِ این واحد وابستگی دارند در تراشه باقی گذاشته است. به طور مشابه، ۸ کنترلرِ حافظه‌ی ۵۱۲ بیتی که به ۴ پشته‌ی حافظه‌ی HBM2 در GV100 متصل بودند، برای تولید بسیار گران تمام می‌شدند که با تراشه‌های GDDR6 ساختِ شرکتِ میکرون جایگزین شدند. به این ترتیب راهکارِ ارزان‌تری مهیا شد که در عینِ حال می‌تواند ارتقای پهنای باندِ بزرگی نسبت به مدل‌های پیشینِ مبتنی بر پاسکال در اختیار قرار دهد.

یک پردازنده‌ی کاملِ TU102 شاملِ شش کلاسترِ پردازشِ گرافیکی یا GPC می‌شود که هر GPC هم به نوبه‌ی خود از یک Raster Engine و شش کلاسترِ پردازشِ بافت یا TPC تشکیل شده است. هر TPC هم از یک PolyMorph Engine (خط لوله‌ی پردازش‌ هندسی با تابعِ ثابت) و ۲ واحدِ SM ساخته می‌شود. در داخلِ هر SM هم می‌توان ۶۴ هسته‌ی CUDA، تعدادِ ۸ هسته‌ی Tensor، یک هسته‌ی RT برای ray tracing، تعدادِ ۴ واحد بافت، ۱۶ واحدِ load/store، میزانِ ۲۵۶ کیلوبایت فضای فایل رجیستر، ۴ حافظه‌ی کشِ L0 برای دستورالعمل و ۹۶ کیلوبایت حافظه‌ی کشِ سطح یک یا L1 و یا ساختارِ حافظه‌ی اشتراکی را مشاهده کرد.

اگر تمامِ ارقامِ فوق را محاسبه کنید، می‌توان یک تراشه‌ی گرافیکی با ۷۲ واحدِ SM، تعدادِ ۴۶۰۸ هسته‌ی CUDA، تعداد ۵۷۶ هسته‌ی Tensor، همچنین ۷۲ هسته‌ی RT، تعدادِ ۲۸۸ واحدِ بافت و ۳۶ موتور PolyMorph را بدست آورد.

کپی لینک

RTX 2080 Ti

اما RTX 2080 Ti یک تراشه‌ی کاملِ TU102 را در خود جای نداده، چرا که یا راندمانِ خطِ تولید برای تراشه‌های کامل احتمالا قابلِ قبول نبوده، یا تراشه‌ی کامل برایِ کارتی از کلاسِ تایتان کنار گذاشته شده است. در RTX 2080 Ti دو واحد از TPC-ها، یکی از کنترلر‌های ۳۲ بیتی حافظه‌ و در نتیجه بخشی از ROP-ها و حافظه‌ی کشِ L2 غیر فعال شده‌اند. در نتیجه مقادیرِ جدیدی به دست می‌آید که آنها را در جدولِ پایین می‌بینید:

GeForce	GTX 1080 Ti FE	RTX 2080 Ti FE
تراشه‌ی گرافیکی	GP102	TU102
معماری	Pascal	Turing
تعداد ترانزیستور	12 Billion	18.6 Billion
پروسه‌ی ساخت	TSMC 16 nm	TSMC 12 nm
تعداد هسته‌های CUDA	3584	4352
تعداد هسته‌های RT	N/A	68
تعداد هسته‌های Tensor	N/A	544
تعداد واحدهای بافت	224	272
تعداد واحدهای ROPs	88	88
فرکانس پایه‌ی تراشه	1,480 MHz	1,350 MHz
فرکانس توربوی تراشه	1,582 MHz	1,635 MHz
سرعت حافظه	11.00 Gbps	14.00 Gbps
اندازه‌ی حافظه	11GB GDDR5X	11GB GDDR6
عرض باند گذرگاه حافظه	352bit	352bit
پهنای باند حافظه	484 GB/s	616 GB/s
حافظه‌ی کش L2	2.75MB	5.5MB
فناوری اتصالی	SLI	NVLink
توان مصرفی	250 Watts	260 Watts
قیمت	۷۰۰ دلار	۹۹۹ دلار

کپی لینک

تورینگِ میانی: TU104

درست مثل TU102، کارخانه‌ی TSMC تراشه‌ی TU104 را با پروسه‌‌ی ساخت 12nm FinFet تولید می‌کند. اما تعدادِ ۱۳.۶ میلیارد ترانزیستور یک تراشه با بستری کوچک‌تر به ابعاد ۵۴۵ میلی‌مترِ مربع را نتیجه می‌دهد. البته صفت‌ "کوچک‌تر" در اینجا نسبی است، چرا که همین تورینگِ کوچک‌تر ابعادی بزرگ‌تر از تراشه‌ی پرچمدارِ نسل قبلی (GP102) با اندازه‌ی ۴۷۱ میلی‌مترِ مربع دارد و به ابعادِ تراشه‌ی GK110 که در سال ۲۰۱۳ در GeForce GTX Titan استفاده شده بود نزدیک می‌شود.

TU104 بر اساس بلوک‌های ساختمانیِ یکسان با TU102 بنا شده است، اما تعداد کمتری از آنها را در بر دارد. هر واحدِ Straming Multiprocessor یا SM هنوز ۶۴ هسته‌ی CUDA، تعدادِ ۸ هسته‌ی Tensor، یک هسته‌ی RT، چهار واحدِ بافت، ۱۶ واحدِ load/store، تعدادِ ۲۵۶ کیلوبایت فضای فایل رجیستر و ۹۶ کیلوبایت حافظه‌ی کشِ سطح یک یا ساختارِ حافظه‌ی اشتراکی را شامل می‌شود. هر واحد TPC هنوز هم از ترکیبِ دو واحد SM و یک PolyMorph Engine ساخته می‌شود. تفاوت این است که در اینجا هر GPC فقط دارای ۴ واحد TPC است و شش GPC در کلِ تراشه گسترده شده‌اند. بنابراین یک تراشه‌ی کاملا فعالِ TU104 دارای ۴۸ واحدِ SM، تعدادِ ۳۰۷۲ هسته‌ی CUDA، همین‌طور ۳۸۴ هسته‌ی Tensor، تعدادِ ۴۸ هسته‌ی RT، تعدادِ ۱۹۲ واحدِ بافت و ۲۴ موتور PolyMorph می‌شود.

متقابلا یک پایانه‌ی باریک‌تر هم منابع پردازشی را توسطِ ۸ مسیرِ ۳۲ بیتیِ GDDR6 (جمعا ۲۵۶ بیت) در کنترلرِ حافظه تغذیه می‌کند که خود این کنترلر هم به ۶۴ واحد ROP و ۴ مگابایت حافظه‌ی کشِ L2 متصل شده است. همچنین TU104 نیمی از مسیر ارتباطی NVLink را از دست داده و به یک مسیر x8 با ۵۰ گیگابایت ظرفیتِ دو طرفه محدود شده است.

کپی لینک

RTX 2080

بعد از این که دیدیم RTX 2080 Ti در بازیِ Battlefield V و رزولوشن 1080p می‌تواند راندمانِ قابل توجهی را در پردازشِ Ray Tracing از خود به نمایش بگذارد، نگران این هستیم که GeForce RTX 2080 به اندازه‌ی کافی سریع هست که بتواند نرخِ فریم قابل قبولی را با فعال بودنِ این قابلیت به اجرا درآورد یا خیر. حتی یک تراشه‌ی TU104 با واحدهای کاملا فعال هم فقط به ۴۸ واحد RT محدود شده‌اند. اما از آنجایی که انویدیا یکی از واحد‌های TPC موجود در TU104 را برای استفاده در RTX 2080 غیرِ فعال کرده، یک جفتِ دیگر از واحد‌های RT هم از دست رفته‌اند و به ۴۶ واحد RT رسیده‌ایم. به علاوه ۱۲۸ هسته‌ی CUDA، تعدادِ ۸ واحد بافت و ۱۶ هسته‌ی Tensor هم غیر فعال شده‌اند. در پایان آنچه را که از بخش‌های مختلف باقی مانده در جدولِ زیر می‌بینید:

GeForce	GTX 1080 FE	RTX 2080 FE
تراشه‌ی گرافیکی	GP104	TU104
معماری	Pascal	Turing
تعداد ترانزیستور	7.2 Billion	13.6 Billion
پروسه‌ی ساخت	TSMC 16 nm	TSMC 12 nm
تعداد هسته‌های CUDA	2560	2944
تعداد هسته‌های RT	N/A	46
تعداد هسته‌های Tensor	N/A	368
تعداد واحدهای بافت	160	184
تعداد واحدهای ROPs	64	64
فرکانس پایه‌ی تراشه	1,607 MHz	1,515 MHz
فرکانس توربوی تراشه	1,733 MHz	1,800 MHz
سرعت حافظه	11.00 Gbps	14.00 Gbps
اندازه‌ی حافظه	8GB GDDR5X	8GB GDDR6
عرض باند گذرگاه حافظه	256bit	256bit
پهنای باند حافظه	320 GB/s	448 GB/s
حافظه‌ی کش L2	2MB	4MB
فناوری اتصالی	SLI	NVLink
توان مصرفی	180 Watts	225 Watts
قیمت	۶۰۰ دلار	۷۰۰ دلار

کپی لینک

تورینگِ کوچک: TU106

GeForce RTX 2070 سومین و آخرین کارتی بود که انویدیا در رویدادِ اختصاصی گیمزکام ۲۰۱۸ معرفی کرد. برعکسِ RTX 2080 و GeForce RTX 2080 Ti، کارتِ RTX 2070 تا تاریخ ۲۶ مهر (۱۸ اکتبر) در دسترس نخواهد بود. گیمرهایی که منتظرش باشند، می‌توانند انتظار پیدا کردن مدل‌های مرجع را با شروع از قیمتِ ۵۰۰ دلار داشته باشند و مدل‌های خود انویدیا از سری Founders Edition هم ۱۰۰ دلار بیشتر قیمت خواهند داشت.

کارت RTX 2070 بر پایه‌ی یک تراشه‌ی TU106 کاملا فعال بنیان شده که از سه واحد GPC و هر GPC با شش واحد TPC تشکیل شده است. هر TPC هم ۲ واحد SM دارد که در مجموع به ۳۶ واحد SM در کلِ تراشه منجر می‌شود. این بلاک‌ها در بین تراشه‌های تورینگ یکسان هستند و تفاوتی ندارند، بنابراین RTX 2070 به ۲۰۳۴ هسته‌ی CUDA، تعدادِ ۲۸۸ هسته‌ی Tensor، تعدادِ ۳۶ هسته‌ی RT و ۱۴۴ واحدِ بافت (Texture Unit) محدود می‌شود. رابطِ حافظه مثل TU104 بدون تغییر و ۲۵۶ بیتی مانده و به ۸ گیگابایت حافظه‌ی GDDR6 با همان سرعتِ ۱۴ گیگابیت بر ثانیه مجهز شده است. در نتیجه پهنای باندِ حافظه هم ۴۴۸ گیگابایت بر ثانیه است. یک حافظه‌ی کش سطح دوم یا L2 به اندازه‌ی ۴ مگابایت و ۶۴ واحدِ ROP هم به آن متصل هستند و تنها قابلیتی که در اینجا حذف شده NVLink است که در RTX 2070 پشتیبانی نشده است.

با این که TU106 کمترین پیچیدگی در بین تراشه‌های گرافیکی تورینگ را در زمانِ عرضه دارد، بسترِ ۴۴۵ میلی‌مترِ مربعیِ آن، ترانزیستورهایی به تعدادِ ۱۰.۸ میلیارد را در دلِ خود جای داده است که هنوز هم تعدادِ عظیمی است برای آنچه که زمانی برای انویدیا رده میانی محسوب می‌شد. در مقایسه با نسلِ قبلی، تراشه‌ی GP106 یا همان پاسکالِ رده میانی مساحتِ ۲۰۰ میلی‌متر مربعی داشت و تنها ۴.۴ میلیارد ترانزیستور را در خود جای داده بود. حتی GP104 هم با ۳۱۴ میلی‌مترِ مربع دارای ۷.۲ میلیارد ترانزیستور بود. با هدفِ دسترسی به راندمانی بهتر از GTX 1080، کارتِ RTX 2070 تلاش دارد تا ضمنِ حفظ هسته‌های RT و Tensor، استفاده‌ی کارآمد از قابلیت‌ِ آنها را هم امکان‌پذیر کند. جالب توجه خواهد بود که میزانِ کارآمدیِ واحد‌های RT و Tensor را در شرایطی که TU106 تقریبا فقط نیمی از واحدهای مذکور در RTX 2080 Ti را در اختیار دارد، در زمانی که نرم افزارهای بهینه در دسترس قرار گرفتند ببینیم.

GeForce	GTX 1070 FE	RTX 2070 FE
تراشه‌ی گرافیکی	GP104	TU106
معماری	Pascal	Turing
تعداد ترانزیستور	7.2 Billion	10.8 Billion
پروسه‌ی ساخت	TSMC 16 nm	TSMC 12 nm
تعداد هسته‌های CUDA	1920	2304
تعداد هسته‌های RT	N/A	36
تعداد هسته‌های Tensor	N/A	288
تعداد واحدهای بافت	120	144
تعداد واحدهای ROPs	64	64
فرکانس پایه‌ی تراشه	1,506 MHz	1,410 MHz
فرکانس توربوی تراشه	1,683 MHz	1,710 MHz
سرعت حافظه	11.00 Gbps	14.00 Gbps
اندازه‌ی حافظه	8GB GDDR5	8GB GDDR6
عرض باند گذرگاه حافظه	256bit	256bit
پهنای باند حافظه	256 GB/s	448 GB/s
حافظه‌ی کش L2	2MB	4MB
فناوری اتصالی	SLI	N/A
توان مصرفی	150 Watts	185 Watts
قیمت	۴۰۰ دلار	۶۰۰ دلار

کپی لینک

بهبودِ راندمانِ تورینگ در بازی‌های روز

قبل از انتشارِ بررسی‌ها، بعضی از حرفه‌ای‌ها نگرانیِ خود را از افزایشِ نه چندان قابلِ توجهِ تعداد هسته‌های CUDA در کارت‌های تورینگ نسبت به همتایانِ نسل قبلی ابراز کرده بودند. بردهای قدیمی‌تر حتی فرکانس‌های بوستِ بالاتری هم داشتند. انویدیا حتی با اشاره نکردن به بهبود‌های نسلی در بازی‌های روز در مراسمِ معرفیِ کارت‌های جدید در شهرِ کلنِ آلمان، به نوعی بی‌ اهمیت بودنِ این موضوع را القا می‌کند. اما در واقع انویدیا تلاشِ زیادی را در بازطراحیِ معماریِ تورینگ برای بهبود راندمان به ازای هر هسته کرده است.

برای شروع، تورینگ پشتیبانی از اجرای همزمانِ دستورالعمل‌های محاسباتیِ FP32 و عملیاتِ INT32 را از ولتا قرض گرفته است. FP32 بیشترین حجمِ پردازشی در واحدهای سایه‌زن (Shader) را تشکیل می‌دهد و INT32 هم برای عملیاتی نظیرِ آدرس‌دهی، گرفتنِ داده‌ها، ماکزیمم و مینی‌مم اعشاری، مقایسه و مانندِ آن استفاده می‌شود. این قابلیت بیشترینِ نقشِ افزایشِ راندمان در تورینگ نسبت به پاسکال را مرهونِ خود کرده است.

در نسل‌های گذشته، دستورالعمل‌‌‌‌هایی از انواعِ متفاوت نمی‌توانستند همزمان اجرا شوند که این خود باعثِ بیکار ماندنِ خطِ لوله‌ی اعشاری در هنگامِ اجرای دستورالعمل‌های غیرِ اعشاری می‌شد. معماریِ ولتا به دنبالِ تغییرِ این رویه با ساختنِ خطِ لوله‌های مجزا برای هر یک از آنها برآمد. به این ترتیب بازدهی اجرای دستورات افزایش پیدا کرد و این مهم با تغییر در ترکیبِ ساختاری هر واحدِ SMیا Streaming Multiprocessorممکن شد.

انعطافِ تورینگ از داشتنِ دو برابر واحدِ زمان‌بندِ بیشتر (scheduler) نسبت به پاسکال است که اکنون به یک زمان‌بند به ازای هر ۱۶ هسته‌ی CUDA رسیده است، در حالی که در پاسکال یک زمان‌بند به ازای هر ۳۲ واحدِ CUDA بود. افزایش و یکپارچه سازیِ ظرفیتِ حافظه‌های کشِ L1 به ازای هر SM و L2 که اکنون به دو برابرِ میزانِ تعبیه شده در معماری پاسکال رسیده است هم نقشِ کلیدی در بهبودِ راندمان بازی می‌کند. به لطفِ این تعادلِ بهبود یافته، معماری تورینگ اکنون می‌تواند از منابع استفاده‌ی بهتری داشته باشد.

کپی لینک

واحدِ Tensor

اگر چه معماری ولتا تغییراتِ عمده‌ی زیادی را در مقایسه با معماری پاسکال در بر داشت، اضافه شدنِ هسته‌های Tensor، بزرگترین نشانه از هدفِ نهایی تراشه‌ی GV100 بود: شتابدهیِ ماتریسی ۴×۴ از عملیات با ورودی‌های FP16 (فرمتِ عددِ اعشاری با استفاده از ۱۶ بیتِ باینری) که اساسِ استنتاج و آموزشِ شبکه‌های عصبی را تشکیل می‌دهد.

درست مانند ولتا، معماری تورینگ هم ۸ هسته‌ی Tensor به ازای هر SM در اختیار دارد. البته TU102 شامل SM-های کمتری نسبت به GV100 است و خودِ GeForce RTX 2080 Ti هم واحدهای فعالِ کمتری از TU102 را در مقایسه با TItan V در اختیار دارد (۶۸ در برابر ۸۰). در نتیجه این کارت در کل ۵۴۴ هسته‌ی Tensor دارد که ۹۶ واحد کمتر از ۶۴۰ هسته‌ی کارت Titan V است. اما نکته‌ی مهم این است که هسته‌های Tensor در TU102 به شکلِ متفاوتی از هسته‌های ولتا پیاده سازی شده‌اند و عملیاتِ INT4 و INT8 را هم پشتیبانی می‌کنند که البته دلیلِ موجهی دارد: GV100 ساخته شده بود که شبکه‌های عصبی را درک کند و یاد بگیرد، در حالی که TU102 یک تراشه‌ی گیمینگ است و قرار است توانایی استفاده از الگوریتم‌های فرا گرفته شده برای استنتاج را هم داشته باشد. انویدیا ادعا دارد که هسته‌های Tensor در TU102 تا ۱۱۴ ترافلاپس برای عملیات FP16، تا ۲۲۸ میلیارد عملیات برای INT8 و تا ۴۵۵ میلیارد عملیات برای INT4 ارائه می‌کنند.

بیشترِ برنامه‌های فعلی انویدیا برای واحدِ Tensorپیرامونِ گرافیکِ عصبی (neural graphics) سیر می‌کند. با این همه این کمپانی در موردِ کاربردهای دیگرِ یادگیری عمیق در کارت‌های گرافیکِ رومیزی هم در حال تحقیق است. برای نمونه دشمنانِ هوشمند می‌توانند به کلی رویکردِ گیمرها در نبردهای نهایی (Boss Fights) در بازی‌ها را دگرگون کنند. درکِ گفتار، تشخیصِ صدا، ترمیمِ هنری، تشخیصِ تقلب و انیمیشنِ کاراکترها همه حوزه‌هایی هستند که هوش مصنوعی در آنها کاربرد دارد و یا انویدیا در آنها زمینه‌هایی را برای کاربردِ مناسب می‌بیند.

اما البته GeForce RTX روی DLSS یا همان Deep Learning Super Sampling تمرکز دارد. شیوه‌ی پیاده سازیِ DLSS به پشتیبانیِ سازنده از طریقِ NGX API انویدیا نیاز دارد. انویدیا می‌گوید که مشارکت در این طرح آسان است و قبلا هم فهرستی از بازی‌هایی را که برای پشتیبانی از DLSS برنامه ریزی شده‌اند منتشر کرده است تا اشتیاقِ این صنعت را به کاری که DLSS با کیفیتِ تصاویر می‌کند به رخ بکشد. احتمالا سهولتِ کار برای بازی‌سازان به این دلیل است که بخشِ اعظمِ کار بر عهده‌ی خودِ انویدیا است. این کمپانی تصاویرِ واقع گرایانه از بازی را با بالاترین کیفیتِ ممکن تولید می‌کند. این کار از طریقِ بهره گیری از نمونه‌هایی با رزولوشنِ فوقِ العاده بالا در هر فریم، یا تعداد‌ زیادی فریم که با هم ترکیب شده‌اند میسر می‌شود. سپس به یک مدلِ هوش مصنوعی در سرورِ SaturnV (دارای ۶۶۰ نود DGX-1) تعلیم داده می‌شود که تا جای ممکن نزدیک‌ترین تصاویرِ به تصاویرِ واقع گرایانه با کیفیتِ پایین‌تر را تشخیص دهد. این مدل‌های AI از طریقِ درایورِ انویدیا دانلود شده و در هسته‌های Tensor روی هر کارت گرافیک GeForce RTX قابلِ دسترسی خواهند بود. انویدیا می‌گوید که حجم این مدل‌های AI بر اساس مگابایت قابلِ اندازه گیری خواهد بود که در نتیجه آنها را نسبتا سبک وزن و کم حجم می‌کند.

با این که امیدوار بودیم که نرم افزارِ جانبی GeForce Experince یا (GFE) یکی از ملزوماتِ DLSS نباشد، اما اکنون تردید داریم که ممکن است به آن هم نیاز باشد. انویدیا تایید کرده که ویژگی‌های NGX در GFE تنیده شده‌اند. اگر این نرم افزار یک تراشه‌ی گرافیکی بر مبنای تورینگ را شناسایی کند، یک پکیج به نام NGX Core را دانلود می‌کند که بازی‌ها یا اپلیکیشن‌های مرتبط با NGX را تشخیص می‌دهد. اگر موردِ مطابقی روی سیستم پیدا شود، NGX Core هر گونه اطلاعاتِ مربوط به شبکه‌های عصبی و یادگیریِ عمیق را برای استفاده‌ی بعدی بازیابی می‌کند.

تصویری از دموی پردازش شده با تکنیکِ TAA برای Anti-Aliasing، به گسستگیِ متن توجه کنید

محو شدگیِ متن با تکنیکِ DLSS در همان صحنه برطرف شده است و کیفیتِ به مراتب بالاتری دارد

آیا DLSS ارزش این تلاش را خواهد داشت؟ فعلا سخت است که قضاوت کنیم. ما یک نمونه از DLSS در دموی Infiltrator ساخته‌ی Epic را دیده‌ایم که بسیار خوب به نظر می‌رسید. اما مشخص نیست که انویدیا بتواند همین سطح از نتایج را برای هر بازی دیگری فارغ از سبک، سرعت و جزئیاتِ محیطیِ آن بدست آورد. چیزی که اکنون می‌دانیم این است که DLSS یک یادگیری پیچشی (تعریفی در شبکه‌ی عصبی پیچشی یا convolutional neural network: رده‌ای از شبکه‌های عصبیِ عمیق هستند که معمولاً برای انجام تحلیل‌های تصویری یا گفتاری در یادگیریِ ماشین استفاده می‌شوند) به صورتِ real-time و رمزگذارِ اتوماتیکی است که از تصاویری که ۶۴ برابر نمونه برداری شده‌اند، استخراج شده است. در واقع به DLSS از طریقِ رابطِ نرم افزاری NGX API یک فریم با دقتِ معمولی می‌دهند و به جای آن یک نسخه‌ی با کیفیتِ بالاتر از همان فریم را برمی‌گرداند.

اما کمی بعدتر مشخص شد که DLSS می‌تواند با کاستن از بارِ کاریِ سایه‌زن‌ها یا همان Shader-ها به افزایشِ راندمان کمک کند. تورینگ می‌تواند خروجیِ با کیفیت‌تری از نمونه‌های ورودی در مقایسه با یک الگوریتمِ پس پردازش مانندِ Temporal Anti-Aliasing یا همان TAA تولید کند. با این که تورینگ زمانِ قابل توجهی را صرفِ اجرای شبکه‌ی عصبی می‌کند، میزانِ صرفه جویی شده به خاطرِ کارِ کمتر در هسته‌های سایه‌زن قابل توجه‌تر است. همچنین با استفاده از DLSS، از عارضه‌ها و محو شدگی‌هایی که گاهی اوقات با بکارگیریِ تکنیکِ TAA ایجاد می‌شوند هم اجتناب می‌شود. انویدیا قبلا فهرست بازی‌هایی که از فناوری RTX و DLSS پشتیبانی می‌کنند را اعلام کرده بود.

کپی لینک

واحدِ RT

فهرست بازی هایی که از فناوری RTX انویدیا پشتیبانی می کنند

فراتر از محدوه‌ی آنچه که‌ معماری ولتا به آن رسیده بود و احتمالا امیدوار کننده‌ترین بخش در داستانِ تورینگ، هسته‌های RT برای محاسباتِ رهگیری پرتو (Ray Tracing) هستند که به انتهای هر واحدِ SM در تراشه‌ی TU102 ضمیمه شده‌اند. هسته‌های RT انویدیا لزوما شتابدهنده‌های تک منظوره‌ای برای عملیاتِ Bounding Volume Hierarchyیا اختصارا BVH و همین‌طور به منظورِ تشخیصِ برخورد پرتو با مثلث‌ها هستند (مثلث کوچک‌ترین واحدِ تشکیل دهنده‌ی چند ضلعی‌هایی است که در گرافیکِ سه بعدی برای ترسیمِ اشکالِ مختلف استفاده می‌شوند، زیرا یک مثلث هرگز نمی‌تواند غیر مسطح باشد. هر چندضلعی با داشتنِ بیشتر از ۳ راس به مثلث قابل تجزیه است). قبل از این طی مقاله‌ای جداگانه به Ray Tracing و کارکرد و تاثیرِ آن در بازی‌ها پرداخته بودیم، اما حالا به شیوه‌ی پیاده سازی و پردازشِ فنی آن در هسته‌های RT خواهیم پرداخت.

به طور خلاصه، BVH جعبه‌های فرضیِ هندسی را در صحنه‌ی داده شده شکل می‌دهد. این جعبه‌ها کمک می‌کنند که موقعیتِ مثلث‌های قرار گرفته در مسیرِ پرتو را در طیِ یک ساختارِ درختی (مطابق شکل‌های بالا) مرحله به مرحله محدودتر کنند. هر زمان که یک مثلث در یک جعبه‌ای پیدا شود، آن جعبه به جعبه‌های کوچک‌تر تقسیم می‌شود و این کار تا زمان‌ پیدا شدن‌ جعبه‌ی نهایی ادامه پیدا می‌کند. جعبه‌ی نهایی هم جعبه‌ای است که قابلِ تقسیم به مثلث‌ها باشد. بدونِ BVH-ها، یک الگوریتم مجبور بود تا تمامِ صحنه را در جستجوی مثلث‌ها پیمایش کند و هزاران سیکلِ پردازشی برای آزمایشِ برخوردِ یک پرتو با هر مثلث از بین می‌رفت.

امروزه اجرای این الگوریتم با استفاده از لایه‌های بازگشتی در API یا‌ رابطِ برنامه‌سازیِ Ray tracing اضافه شده به دایرکت ایکس 12 مایکروسافت به صورت کامل امکان‌پذیر است. در این شیوه از هسته‌های مرسومِ سایه‌زن برای شبیه سازیِ تکنیکِ رهگیریِ پرتو روی دستگاه‌های بدون پشتیبانیِ سخت افزاری از Ray tracing استفاده می‌شود. به عنوان نمونه روی تراشه‌های گرافیکی پاسکال، اسکن به روشِ BVH روی هسته‌های قابل برنامه ریزی اتفاق می‌افتد که هر جعبه را دریافت، رمزگشایی و برای وجود یا عدمِ وجودِ تلاقی با پرتو آزمایش می‌کنند و تعیین می‌کنند که جعبه‌ی کوچک‌تر یا مثلث در داخل‌ آنها وجود دارد یا خیر. این پروسه تا پیدا شدنِ محلِ تلاقی پرتو با مثلثِ نهایی تکرار می‌شود. همان‌طور که ممکن است تصور کنید، این عملیات برای اجرا در سطحِ نرم افزاری بسیار پر هزینه و زمان‌بر است و از اجرای روانِ تکنیکِ رهگیریِ پرتو به صورتِ Real-time روی پردازنده‌های گرافیکیِ امروزی جلوگیری می‌کند.

با ساختنِ شتاب‌دهنده‌های تک منظوره برای مراحلِ آزمایشِ تلاقی با جعبه و مثلث، واحدِ SM یک پرتو را به کمکِ یک سایه‌زنِ مولدِ پرتو به صحنه می‌تاباند و ادامه‌ی کار را به گذرگاهِ شتابدهنده در هسته‌ی RT واگذار می‌کند. در نتیجه تمامِ ارزیابی‌های مربوط به تلاقی یا برخورد بسیار سریع‌تر اتفاق می‌افتد و منابعِ دیگرِ واحدِ SM در معماری تورینگ (شکلِ بالا) برای کارهای معمولِ این واحد به روشِ مرسومِ rasterization آزاد می‌شود.

به گفته‌ی انویدیا، یک GeForce GTX 1080 Ti می‌تواند حدودِ ۱.۱ میلیارد پرتو در ثانیه را با استفاده از هسته‌های CUDA در حالتِ نرم افزاری پردازش کند. در مقایسه، GeForce RTX 2080 Ti می‌تواند حدودِ ۱۰ میلیارد پرتو در ثانیه را با بهره گیری از توانایی ۶۸ هسته‌ی RT محاسبه کند. لازم به یادآوری است که مقادیرِ راندمان بر حسبِ Gigarays، بر اساسِ میانگینِ هندسیِ بدست آمده از خروجی‌های متعدد محاسبه و اعلام شده است.

کپی لینک

Mesh Shading

بهبودهای معماری معمولا بین تغییراتی که بازی‌های کنونی را متاثر می‌کند و امکاناتِ جدیدی که به پشتیبانی از بازی‌های آینده احتیاج دارند تقسیم می‌شود. حداقل در هنگام‌ عرضه، کارت‌های GeForce RTX انویدیا بر اساسِ موردِ اولی مورد قضاوت قرار خواهند گرفت. راندمانِ آنها تنها در بازی‌های فعلی قابلِ سنجش است. با این که کار کشته‌های حوزه‌ی سخت افزار هر یک دیدگاه‌های خود را در موردِ تاثیر Ray Tracing در ایجادِ یک تجربه‌ی ناب در بازی‌ها دارند، با تجربه‌ی من سخت افزار را نمی‌توان تنها بر اساسِ وعده‌‌هایی که برای آینده داده شده است ( در اینجا منظور امکاناتِ RT و DLSS است) پیشنهاد کرد.

با این حال معماری تورینگ دارای تعدادی ویژگیِ گرافیکی پیشرفته است که به قابلیت‌هایی که هنوز در دسترس نیستند مجهز شده است. به عنوان مثل mesh shader-ها خط لوله‌های پردازشی فعلی دایرکت ایکس 11 و دایرکت ایکس 12 را تقویت می‌کنند. بر این اساس در مدلِ فعلی، پردازنده‌های میزبان مسئولیتِ محاسبه‌ی Level of Detail یا LOD، جمع آوری آبجکت‌هایی که در دیدرَس نیستند و صدورِ درخواستِ ترسیم (Draw call) را برای هر آبجکت بر عهده دارند. پردازنده‌ها تا حدِ معینی برای این کار مناسب هستند، اما در صحنه‌های پیچیده با صدها هزار آبجکت، وضعیت بغرنجی برای رسیدگی به این کارها خواهند داشت.

در عوض با استفاده از یک mesh shader، سازندگان بازی می‌توانند محاسباتِ LOD و جمع آوری آبجکت‌ها را به یک task shader واگذار کنند که جای مراحلِ vertex shader و hull shader را می‌گیرد (تصویرِ بالا). از آنجا که task shader عمومی‌تر از vertex shader است، قادر است فهرستی از آبجکت‌ها را از CPU گرفته و در یک برنامه‌ی پردازشی اجرا کند و جای آبجکت‌ها، نسخه‌ی هر آبجکت بر اساس LOD و این که آبجکت نیاز به جمع آوری قبل از ارسال به خط لوله دارد را تعیین کند.

کپی لینک

Variable Rate Shading

اضافه بر بهینه سازیِ روشی که تورینگ داده‌های هندسی را پردازش می‌کند، انویدیا همچنین از مکانیزمی برای انتخابِ کیفیتِ سایه‌زنی یا shading پشتیبانی می‌کند. در این شیوه بلاک‌هایی متشکل از ۱۶ در ۱۶ پیکسل در قسمت‌های مختلفِ صحنه با نرخ‌های متفاوت سایه‌زنی می‌شوند تا راندمان را افزایش دهند. به طور طبیعی سخت افزار هنوز هم می‌تواند هر پیکسل را در الگوی ۱×۱ سایه‌زنی کند. اما این معماری استفاده از گزینه‌های دیگری مثل الگوهای ۲×۱، ۱×۲ و ۴×۴ را هم تسهیل می‌کند.

Full-rate Shading یا سایه‌زنی با نرخِ کامل (تصویرِ بالا)

Content-adaptive shading یا سایه‌زنیِ وابسته به محتوا - کدگذاری شده با رنگ‌

Content-adaptive shading یا سایه‌زنیِ وابسته به محتوا - خروجی نهایی

انویدیا مواردِ استفاده‌ی متعددی را برای سایه‌زنی با نرخِ متغیر (variable rate shading) در عمل معرفی کرده است. اولین کاربرد در content-adaptive shading یا سایه‌زنیِ سازگار با محتوا است، جایی که قسمت‌های دارای جزئیاتِ کمتر در صحنه تغییرِ زیادی نمی‌کنند و می‌توانند با نرخِ کمتری سایه‌زنی شوند.

motion-adaptive shading هم کاربردِ جالبِ دیگری از فناوریِ سایه‌زنی با نرخِ متغیرِ انویدیا است که در آن آبجکت‌های در حالِ حرکت در دقت پایین‌تری نسبت به موضوعی که روی آن تمرکز داریم به نظر می‌رسند. بازی‌سازان می‌توانند نرخِ سایه‌زنی را بر اساسِ بردارِ حرکتیِ هر پیکسل به دلخواه تعیین کنند و الگوهای همسان با مثالی را که در استفاده‌ی اولی از این روش دیدیم پیاده سازی کنند. در کارت‌های گرافیکِ نسبتا ضعیف و بازی‌های سنگین‌تر دستیابی به ۲۰ درصد راندمانِ بالاتر با استفاده از این روش امکان‌پذیر خواهد بود. مهم‌تر این که افتِ کیفیتِ تصویریِ محسوسی هم نخواهیم داشت. استفاده از این فناوری مستلزمِ گنجانده شدنِ آن در API است و انویدیا برای فعال شدنِ پشتیبانی دایرکت ایکس از سایه زنی با نرخِ متغیر در حالِ کار با مایکروسافت است. اما تا آن زمان، عملکردِ adaptive shading را در کیتِ توسعه‌ی نرم افزارِ NVAPI در اختیار قرار خواهد داد که دسترسیِ مستقیم به قابلیت‌های تراشه‌ی گرافیکی را فراتر از بازه‌ی کاریِ دایرکت ایکس و OpenGL فراهم خواهد کرد.

کپی لینک

جمع بندی

انویدیا برای پیشبردِ فناوری گرافیکی، ریسکِ حساب شده‌ای را با پیاده سازیِ واحدهای RT و Tensorمتقبل شد

انویدیا می‌توانست به جای تقسیمِ تمرکزش بینِ افزایشِ راندمان و سرمایه گذاری برای آینده، تمامِ تلاش‌هایش را تنها مصروفِ قابلیت‌هایی کند که معماری تورینگ را در بازی‌های امروزی سریع‌تر از پاسکال می‌سازد. اما در عوض این کمپانی فرصتی را برای هدایتِ نوآوریِ آینده دید و ریسکِ حساب شده‌ای را تقبل کرد. چرا که در حالِ حاضر برتریِ راندمان و بهره‌وری در محصولاتش نسبت به سری Vega RX از ای‌ام‌دی، موقعیتِ ایجادِ یک فاصله‌ی ایمن برای ارائه‌ی فناوری نسلِ بعدی بیش از آنچه که در سال‌های اخیر شاهد بوده‌ایم را فرآهم کرده است.

ray tracing in Shadow of the Tomb raider

اختصاصِ تعدادِ زیادی از ترانزیستورها به هسته‌های RT و Tensor برای دیدنِ نتیجه در امروز و فردا نیست و ممکن است در ماه‌ها و حتی سال‌های آتی ثمر بخش باشد. زمانی که سازندگان با بهینه سازیِ بازی‌هایشان برای استفاده‌ی ترکیبی از ray tracing در زمانِ واقع و rasterizationراحت‌تر شوند. انویدیا نیاز دارد که آنها برای کسبِ تجربه با گرافیک‌های عصبی و هوشِ مصنوعی زمانِ بیشتری را صرف کنند. فناوری‌هایی مثل mesh shading و variable rate shading هنوز هیچ کجا استفاده نشده‌اند و نیاز به توسعه و پشتیبانی دارند. با همه‌ی این گفته‌ها، اشتیاقِ سازندگان به استفاده از ray tracing یکپارچه به نظر می‌رسد و این حقیقتا همان چشم اندازی است که هر کسی می‌خواهد محقق شدنش را ببیند.

مقاله رو دوست داشتی؟

نظرت چیه؟

فرشید معتمد

داغ‌ترین مطالب روز

بررسی معماری تورینگ در کارت های گرافیک RTX 2080 ،RTX 2070 و RTX 2080 Ti انویدیا

تورینگِ بزرگ: TU102

RTX 2080 Ti

تورینگِ میانی: TU104

RTX 2080

تورینگِ کوچک: TU106

بهبودِ راندمانِ تورینگ در بازی‌های روز

واحدِ Tensor

واحدِ RT

Mesh Shading

Variable Rate Shading

جمع بندی

نظرات