در نمایشگاه فناوری اطلاعات 2024 (ITT 2024)، اینتل به تمامی شایعات دربارهی لغو یا تأخیر پردازندههای گرافیکی و سری Arc خود پایان داد. اینتل برای سادهسازی نامگذاری، دیگر از الگوهای LP و LPG و HP و HPG استفاده نمیکند و بهجای آن، نسل بعدی محصولات خود را بهسادگی Xe2 مینامد. البته این کدها همچنان در خود شرکت استفاده میشوند؛ اما دیگر برای مشتریان نهایی بهکار نمیروند.
Wccftech مینویسد که اهداف اینتل با Xe2 دستیابی به بهرهوری بیشتر و توزیع بهتر کار و سربار نرمافزاری کمتر است. این معماری از ابتدا بازطراحی شده و مشکلات اصلی مشاهدهشده در پردازندههای گرافیکی Xe «آلکمیست» را برطرف میکند. اینتل با ارائهی نموداری از کارایی عملکرد آیپی که تا ۱۲/۵ برابر افزایش را نشان میدهد، توجه مخاطبان را جلب کرده است.
اینتل اعلام میکند که معماری Xe2 مانند Xe، قابلیت ارتقای فراوانی دارد و این امر به یکپارچهسازی آن در تراشههای سیستم روی تراشه (SoC) کممصرف موبایل مانند Lunar Lake و کارتهای گرافیک Arc پرچمدار با گزینههای مجزایی که بعداً عرضه میشوند، منجر میشود.
بررسی عمیق معماری Xe2 اینتل
هستهی Xe نسل دوم یا Xe2 با چندین منبع محاسباتی همراه است که برای افزایش کارایی، به موتورهای SIMD16 بومی مجدداً تقسیم شدهاند.
ویژگیهای هستهی Xe2 عبارتاند از:
- ۸ موتور برداری ۵۱۲ بیتی
- ۸ موتور XMX با ظرفیت ۲۰۴۸ بیت
- پشتیبانی از عملیات اتمی ۶۴ بیتی
- حافظهی نهان مشترک L1$ / SLM به ظرفیت ۱۹۲ کیلوبایت
موتور برداری (Vector Engine) نیز با این قابلیتها بهروزرسانی شده است:
- واحدهای حسابی منطقی (ALU) بومی SIMD16 و پشتیبانی از عملیات SIMD16 و SIMD32
- پسوندهای ماتریس Xe (پشتیبانی از INT2 و INT4 و INT8 و FP16 و BF16)
- ریاضیات و FP64 توسعهیافته و توابع استعلایی SIN و COS و LOG و EXP
- صدور همزمان سهحالتهی FP + INT/EM + XMX
واحدهای ماتریس Xe یا واحدهای XMX که در پردازندههای گرافیکی Xe آلکمیست نیز وجود داشتند، حالا از انواع داده بیشتری پشتیبانی میکنند و بسیار سریعتر اجرا میشوند؛ بهطوریکه FP16 با سرعت ۲۰۴۸ عملیات در هر کلاک و INT8 با سرعت ۴۰۹۶ عملیات در هر کلاک کار میکند.
این بخشهای رندر را میتوان درصورت نیاز رویهم قرار داد و مقیاسگذاری کرد و برای کاهش تأخیر و حذف توقفها و بهبود تعامل سختافزار و نرمافزار بهینه شدهاند. این بخشهای رندر به رابط کاربری دستوری متصل هستند که بهطور طبیعی از دستورالعمل Execute Indirect پشتیبانی میکند.
بخش رندر نیز شامل موتور هندسهی جدید با ۳ برابر توان عملیاتی واکشی (Fetch) رئوس و ۳ برابر عملکرد سایهزنی مش (با استفادهی مجدد از رئوس)، حافظهی نهان جدید L1$ / SLM برای نمونهبرداری خارج از دستور (با بافتهای فشرده)، ۲ برابر توان عملیاتی برای نمونهبرداری بدون فیلتر و آفستهای برنامهریزیشدنی، یک واحد HiZ جدید با ۵۰ درصد حافظهی نهان بیشتر و پشتیبانی از حذف زودهنگام اجسام کوچک (Early HiZ culling) است.
در نهایت، دو Pixel Backend جدید وجود دارد که دو برابر توان عملیاتی ترکیب (blending) و ۳۳ درصد افزایش حافظهی نهان رنگ پیکسل و ارائهی پیشخوانش هدف به L2$ را ارائه میدهند.
واحد رهگیری پرتو نسل جدید Xe2 ارتقایافته درمقایسهبا Xe1
یکی از بلوکهای اصلی هستهی Xe2، واحد رهگیری پرتو (RTU) است که ۳ خط لوله پیمایش و ۱۸ تقاطع جعبهای (۶ تا برای هر تقاطع جعبهای و ۳ جعبه برای هر RTU) و ۲ تقاطع مثلثاتی دارد.
ویژگیهای معماری پردازندهی گرافیکی Xe2 اینتل ازاینقرارند:
- هستههای نسل دوم Xe2
- موتورهای برداری بهبودیافته
- حافظهی نهان عمیقتر
- موتورهای XMX جدید
- بخش جلویی بهینهسازیشده
- پشتیبانی سختافزاری بومی برای دستورهای غیرمستقیم اجرا (Execute Indirect)
- واحدهای رهگیری پرتو بزرگتر
درمجموع، معماری پردازندهی گرافیکی Xe2 اینتل بهگونهای طراحی شده است که سازگاری بیشتری با بازیها داشته باشد و به نهایت عملکرد برسد. بازیها از بلوک جدید Execute Indirect برای تسریع فراخوانیهای ترسیم استفاده میکنند و جهش ۱۲/۵ برابری آن برای گیمرها نویدبخش است؛ زیرا این دستورالعمل بهطور گسترده در موتورهایی مانند آنریل انجین استفاده میشود.
Lunar Lake، اینتل اولین پردازنده با واحد گرافیکی Xe2
اولین محصولی که از پردازندههای گرافیکی Xe2 استفاده میکند، Lunar Lake است که در پیکربندی یکپارچه عرضه میشود. چندین بلوک در Lunar Lake به واحد گرافیکی متصل هستند؛ مانند موتور رسانهای و موتور نمایشگر.
مشخصات پیکربندی Xe2 برای Lunar Lake عبارتاند از:
- ۸ هستهی Xe2
- ۶۴ موتور برداری
- ۲ خط لولهی هندسه
- ۸ نمونه بردار
- ۴ Pixel Backend
- ۸ واحد رهگیری پرتو
- ۸ مگابایت حافظهی کش L2$
پردازندهی گرافیکی Xe2 در Lunar Lake از ۸ هستهی Xe2 برخوردار و هر هسته Xe2 به ۸ واحد XMX و ۸ واحد برداری، یک واحد بارگذاری/ذخیرهسازی، یک واحد مرتبسازی رشته و یک حافظهی نهان اختصاصی L1/L$ مجهز است. هر چهار هستهی Xe2 یک بخش رندر (Render Slice) را تشکیل میدهند.
اینتل ادعا میکند که پردازندههای گرافیکی Xe2 در لونار لیک درمقایسهبا میتیور لیک به عملکرد ۵۰ درصد بیشتر در ایزو (ISO) و مصرف برق بسیار کمتر با همان سطح عملکرد دست یافتهاند.
بلوک XMX نیز بخش مهمی است که شاهد ۷۷ ترافلاپ (TOPS) پیک در INT8 است که به توانایی کلی هوش مصنوعی ارائهشدهی پردازندههای مرکزی Lunar Lake میافزاید. این تراشه درمجموع ۱۲۰ ترافلاپ پلتفرم ارائه میدهد که شامل ۴۸ ترافلاپ از NPU4 و ۵ ترافلاپ از خود پردازندهی مرکزی میشود.
موتور نمایشگر Xe برای Lunar Lake
موتور نمایشگر با ۳ درگاه خروجی (Display Pipe) با پشتیبانی از ۸K60 HDR و پشتیبانی از حداکثر سه خروجی ۴K60 HDR و پشتیبانی از ۱۰۸۰p360 یا ۱۴۴۰p360 ارائه میشود. موتور نمایشگر از HDMI 2.1 و DisplayPort 2.1 و قابلیتهای جدید eDP 1.5 پشتیبانی میکند.
بخش جلویی موتور نمایشگر شامل رمزگشایی/رمزنگاری و ناحیهی بافر استریمینگ است. برای خط لولهی پردازش پیکسل بهازای هر خط لوله، ۶ صفحه با پشتیبانی سختافزاری برای تبدیل رنگ و ترکیب رنگ و درعینحال انعطافپذیر و کممصرف دریافت میکنید.
همچنین، خط لولهی بهینهسازیشدهی کممصرف دیگری با Panel Replay (خاموشکردن قطعات در فریمهای غیرفعال) و حسگر روشنایی جدید با LACE (تقویت کنتراست محلی تطبیقی) وجود دارد.
در بخش فشردهسازی و کدگذاری نیز، موتور فشردهسازی جریان نمایشگر با ۳۱ فشردهسازی بدون افت کیفیت بصری و کدگذاری انتقال (کدگذاری جریان برای پروتکلهای HDMI و DisplayPort) دریافت میکنید. مسیریاب و پورتها شامل مجموعهسازی جریان و مسیریابی پورت با پشتیبانی از حداکثر ۴ پورت برای انعطافپذیری بیشتر است.
موتور رسانهای Xe برای Lunar Lake
آخرین بلوک از تراشهی سیستم روی تراشه (SoC) Lunar Lake که به پردازندهی گرافیکی Xe2 متصل است، موتور رسانهای است که اکنون با ۸ مگابایت حافظهی نهان جانبی مشترک اختصاصی خود ارائه میشود. این حافظهی نهان جدید میتواند بهواسطهی سایر اجزای تراشه استفاده شود، اما نیازی به آن وجود ندارد؛ زیرا سایر هستهها خودشان حافظهی نهان اختصاصی دارند.
این حافظهی نهان جانبی باعث صرفهجویی چشمگیری در پهنای باند برای Lunar Lake میشود؛ زیرا ترافیک به حافظهی سیستم در کل کارهای مرتبط با رسانه کاهش مییابد. این امر امکان کاهش درخورتوجه مصرف انرژی را برای کارهای کدگذاری نیز فراهم میکند.
با بررسی عمیق موتور رسانهای، درمییابیم که این موتور از رمزگشایی 8k60 10-bit HDR، رمزگذاری 8k60 10-bit HDR و AVC و VP9 و H.265 HEVC و AV1 و موتوری کاملاً جدید VVC پشتیبانی میکند. موتور VVC نرخ بیت را کاهش چشمگیری میدهد؛ درحالیکه همان کیفیت AV1 (تا ۱۰ درصد کاهش حجم فایل) را ارائه میدهد. همچنین از Adaptive Resolution Streaming و کدگذاری محتوای صفحهنمایش پشتیبانی میکند.
اینتل اعلام کرده است که زمان زیادی را صرف تنظیم عملکرد سطح API پردازندههای گرافیکی Xe آلکمیست خود کرده است؛ بهخصوص DX9. بااینحال، تمام این کارهای نرمافزاری به Xe2 با پشتیبانی از تمام آخرین APIها و فریمورکها بههمراه زمانهای اجرای آنها منتقل میشود.