Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Trong thế giới GPU, năm 2022 là một cột mốc quan trọng theo cả cách tốt và xấu. Intel đã thực hiện tốt lời hứa tái gia nhập thị trường card đồ họa rời, Nvidia đẩy kích thước và giá card lên cao ngất ngưởng, còn AMD đưa công nghệ CPU vào lĩnh vực đồ họa. Các tiêu đề đầy rẫy những câu chuyện về hiệu suất đáng thất vọng, dây cáp nóng chảy và khung hình giả mạo.

Sự cuồng nhiệt xung quanh GPU tràn ngập các diễn đàn trực tuyến, khiến những người đam mê PC vừa kinh ngạc vừa kinh hoàng trước sự biến đổi của thị trường card đồ họa. Trong bối cảnh hỗn loạn này, thật dễ dàng để quên rằng các sản phẩm mới nhất đang chứa những con chip mạnh mẽ và phức tạp nhất từng được trang bị cho máy tính gia đình.

Trong bài viết này, chúng ta sẽ thảo luận về tất cả các nhà cung cấp và đi sâu vào kiến trúc của họ. Hãy bóc tách các lớp để xem có gì mới, điểm chung của chúng và bất kỳ điều gì trong số này có ý nghĩa gì đối với người dùng bình thường.

Đây là một bài đọc kỹ thuật và toàn diện, vì vậy chúng tôi đã chia nó thành một số phần như được hiển thị trong chỉ mục bên dưới để dễ theo dõi và điều hướng hơn. Để tận dụng tối đa cuộc thảo luận này, bạn có thể muốn tìm hiểu về kiến trúc RDNA 2 và Ampere trước khi bắt đầu tại đây.

Hãy bắt đầu với một khía cạnh quan trọng của bài viết này – đây không phải là một so sánh hiệu suất. Thay vào đó, chúng tôi xem xét cách mọi thứ được sắp xếp bên trong GPU, kiểm tra thông số kỹ thuật và số liệu để hiểu sự khác biệt trong cách tiếp cận của AMD, Intel và Nvidia khi thiết kế bộ xử lý đồ họa của họ.

Chúng ta sẽ bắt đầu xem xét các thành phần GPU tổng thể cho các chip lớn nhất hiện có sử dụng kiến trúc mà chúng ta đang kiểm tra. Điều quan trọng cần nhấn mạnh là sản phẩm của Intel không nhắm vào cùng một thị trường như của AMD hay Nvidia, vì đây là một bộ xử lý đồ họa tầm trung.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Cả ba đều có kích thước khá khác nhau, không chỉ với nhau mà còn với các chip tương tự sử dụng kiến trúc trước đó. Tất cả các phân tích này hoàn toàn là để hiểu chính xác những gì nằm dưới mui xe trong cả ba bộ xử lý. Chúng tôi sẽ kiểm tra các cấu trúc tổng thể, trước khi chia nhỏ các phần cơ bản của từng GPU – lõi đổ bóng, khả năng dò tia, phân cấp bộ nhớ cũng như công cụ hiển thị và phương tiện.

Lấy mọi thứ theo thứ tự bảng chữ cái, cái đầu tiên trên bàn là Navi 31 của AMD, chip hỗ trợ RDNA 3 lớn nhất của họ được công bố cho đến nay. So với Navi 21, chúng ta có thể thấy sự tăng trưởng rõ rệt về số lượng linh kiện so với GPU cao cấp trước đây của họ…

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Shader Engines (SE) chứa ít Đơn vị tính toán (CU) hơn, 16 so với 200, nhưng hiện có tổng cộng 6 SE – nhiều hơn hai so với trước đây. Điều này có nghĩa là Navi 31 có tới 96 CU, cung cấp tổng cộng 6144 Bộ xử lý luồng (SP). AMD đã thực hiện nâng cấp đầy đủ các SP cho RDNA 3 và chúng tôi sẽ giải quyết vấn đề đó ở phần sau của bài viết.

Mỗi Shader Engine cũng chứa một đơn vị chuyên dụng để xử lý rasterization, một công cụ nguyên thủy để thiết lập tam giác, 32 đơn vị kết xuất đầu ra (ROP) và hai bộ đệm L1 256kB. Khía cạnh cuối cùng hiện có kích thước gấp đôi nhưng số lượng ROP trên mỗi SE vẫn như cũ.

AMD cũng không thay đổi nhiều bộ tạo rasterizer và các công cụ nguyên thủy – những cải tiến đã nêu là 50% dành cho khuôn hoàn chỉnh, vì nó có nhiều SE hơn 50% so với chip Navi 21. Tuy nhiên, có những thay đổi đối với cách SE xử lý các lệnh, chẳng hạn như xử lý nhiều lệnh vẽ nhanh hơn và quản lý tốt hơn các giai đoạn quy trình, điều này sẽ giảm thời gian CU cần đợi trước khi có thể chuyển sang tác vụ khác.

Thay đổi rõ ràng nhất là thay đổi thu hút nhiều tin đồn và bàn tán nhất trước khi ra mắt vào tháng 11 – cách tiếp cận chiplet đối với gói GPU. Với nhiều năm kinh nghiệm trong lĩnh vực này, việc AMD chọn làm điều này là hợp lý, nhưng đó hoàn toàn là vì lý do chi phí/sản xuất, thay vì hiệu suất.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Chúng ta sẽ xem xét chi tiết hơn về vấn đề này ở phần sau của bài viết, vì vậy hiện tại, chúng ta hãy tập trung vào vị trí của các bộ phận. Trong Navi 31, bộ điều khiển bộ nhớ và các phân vùng liên kết của chúng trong bộ nhớ đệm cấp cuối cùng được đặt trong các chiplet riêng biệt (được gọi là MCD hoặc Bộ đệm bộ nhớ cache) bao quanh bộ xử lý chính (GCD, Bộ xử lý điện toán đồ họa).

Với số lượng SE lớn hơn để cung cấp, AMD cũng tăng số lượng MC lên 50%, do đó, tổng chiều rộng bus cho bộ nhớ chung GDDR6 hiện là 384 bit. Tổng bộ nhớ cache vô cực ít hơn trong thời gian này (96 MB so với 128 MB), nhưng băng thông bộ nhớ lớn hơn sẽ bù đắp cho điều này.

Trở đi với Intel và ACM-G10 chết (trước đây gọi là DG2-512). Mặc dù đây không phải là GPU lớn nhất mà Intel sản xuất, nhưng đó là đồ họa tiêu dùng lớn nhất của họ.

Sơ đồ khối là một sự sắp xếp khá chuẩn, mặc dù trông giống của Nvidia hơn là của AMD. Với tổng cộng 8 Render Slices, mỗi Render Slice chứa 4 Xe-Core, với tổng số 512 Vector Engines (tương đương với Bộ xử lý dòng của AMD và lõi CUDA của Nvidia).

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Cũng được đóng gói trong mỗi Render Slice là một đơn vị nguyên thủy, rasterizer, bộ xử lý bộ đệm độ sâu, 32 đơn vị kết cấu và 16 ROP. Thoạt nhìn, GPU này có vẻ khá lớn, chẳng hạn như 256 TMU và 128 ROP nhiều hơn so với Radeon RX 6800 hoặc GeForce RTX 2080.

Tuy nhiên, chip RNDA 3 của AMD chứa 96 Đơn vị tính toán, mỗi đơn vị có 128 ALU, trong khi ACM-G10 có tổng cộng 32 Lõi Xe, với 128 ALU trên mỗi lõi. Vì vậy, chỉ xét về số lượng ALU, GPU do Alchemist cung cấp của Intel có kích thước bằng một phần ba so với AMD. Nhưng như chúng ta sẽ thấy ở phần sau, một lượng đáng kể khuôn của ACM-G10 được giao cho một đơn vị xử lý số khác.

So với GPU Alchemist đầu tiên mà Intel phát hành thông qua các nhà cung cấp OEM, con chip này có tất cả các đặc điểm của một kiến trúc trưởng thành, xét về số lượng thành phần và cách sắp xếp cấu trúc.

Chúng tôi kết thúc phần tổng quan mở đầu về các bố cục khác nhau với AD102 của Nvidia, GPU đầu tiên của họ sử dụng kiến trúc Ada Lovelace. So với người tiền nhiệm của nó, Ampere GA102, nó dường như không có nhiều khác biệt, chỉ lớn hơn rất nhiều. Và với tất cả ý định và mục đích, nó là như vậy.

Nvidia sử dụng hệ thống phân cấp thành phần của Cụm xử lý đồ họa (GPU) chứa 6 Cụm xử lý kết cấu (TPC), với mỗi cụm chứa 2 Bộ đa xử lý truyền phát (SM). Sự sắp xếp này không thay đổi với Ada, nhưng tổng số chắc chắn có…

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Trong khuôn AD102 đầy đủ, số lượng GPC đã tăng từ 7 lên 12, do đó hiện có tổng cộng 144 SM, mang lại tổng số 18432 lõi CUDA. Đây có vẻ là một con số cao đến nực cười khi so sánh với 6144 SP trong Navi 31, nhưng AMD và Nvidia tính các thành phần của họ theo cách khác.

Mặc dù điều này hoàn toàn đơn giản hóa vấn đề, nhưng một Nvidia SM tương đương với một AMD CU – cả hai đều chứa 128 ALU. Vì vậy, trong đó Navi 31 có kích thước gấp đôi Intel ACM-G10 (chỉ tính ALU), thì AD102 lớn hơn 3,5 lần.

Đây là lý do tại sao thật không công bằng khi thực hiện bất kỳ so sánh hiệu suất hoàn toàn nào của các chip khi chúng quá khác biệt về quy mô. Tuy nhiên, một khi chúng nằm trong card đồ họa, được định giá và bán trên thị trường, thì đó lại là một câu chuyện khác.

Đọc thêm:  Cấu tạo của Bộ cấp nguồn (PSU)

Nhưng những gì chúng ta có thể so sánh là những phần lặp lại nhỏ nhất trong ba bộ xử lý.

Từ cái nhìn tổng quan về toàn bộ bộ xử lý, bây giờ chúng ta hãy đi sâu vào trung tâm của các con chip và xem xét các bộ phận xử lý số liệu cơ bản của bộ xử lý: các lõi đổ bóng.

Ba nhà sản xuất sử dụng các thuật ngữ và cụm từ khác nhau khi mô tả chip của họ, đặc biệt là khi nói đến sơ đồ tổng quan của họ. Vì vậy, đối với bài viết này, chúng tôi sẽ sử dụng hình ảnh của chính chúng tôi, với màu sắc và cấu trúc phổ biến, để dễ dàng nhận ra điểm giống và điểm khác nhau.

Cấu trúc thống nhất nhỏ nhất của AMD trong phần bóng của GPU được gọi là Đơn vị tính toán kép (DCU). Trong một số tài liệu, nó vẫn được gọi là Bộ xử lý nhóm làm việc (WGP), trong khi những tài liệu khác gọi nó là Cặp đơn vị điện toán.

Xin lưu ý rằng nếu thứ gì đó không được hiển thị trong các sơ đồ này (ví dụ: bộ đệm hằng số, đơn vị chính xác kép) thì điều đó không có nghĩa là chúng không có trong kiến trúc.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Theo nhiều cách, bố cục tổng thể và các thành phần cấu trúc không thay đổi nhiều so với RDNA 2. Hai Đơn vị Điện toán chia sẻ một số bộ đệm và bộ nhớ, đồng thời mỗi đơn vị bao gồm hai bộ 32 Bộ xử lý luồng (SP).

Điểm mới của phiên bản 3 là mỗi SP hiện chứa gấp đôi số đơn vị logic số học (ALU) so với trước đây. Hiện có hai dãy đơn vị SIMD64 trên mỗi CU và mỗi dãy có hai cổng dữ liệu – một cổng dành cho các phép toán dấu phẩy động, số nguyên và ma trận, cổng còn lại chỉ dành cho dấu phẩy động và ma trận.

AMD sử dụng các SP riêng biệt cho các định dạng dữ liệu khác nhau – Đơn vị Điện toán trong RDNA 3 hỗ trợ hoạt động sử dụng các giá trị FP16, BF16, FP32, FP64, INT4, INT8, INT16 và INT32.

Việc sử dụng SIMD64 có nghĩa là mỗi bộ lập lịch luồng có thể gửi một nhóm gồm 64 luồng (được gọi là mặt sóng) hoặc nó có thể đồng phát hành hai mặt sóng gồm 32 luồng trên mỗi chu kỳ đồng hồ. AMD đã giữ lại các quy tắc hướng dẫn tương tự từ các kiến trúc RDNA trước đó, vì vậy đây là thứ do GPU/trình điều khiển xử lý.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Một tính năng mới quan trọng khác là sự xuất hiện của cái mà AMD gọi là Bộ gia tốc ma trận AI.

Không giống như kiến trúc của Intel và Nvidia mà chúng ta sẽ sớm thấy, chúng không hoạt động như các đơn vị riêng biệt – tất cả các hoạt động của ma trận đều sử dụng các đơn vị SIMD và bất kỳ phép tính nào như vậy (được gọi là Tích lũy nhân ma trận sóng, WMMA) sẽ sử dụng toàn bộ ngân hàng gồm 64 ALU .

Tại thời điểm viết bài, bản chất chính xác của Máy gia tốc AI vẫn chưa rõ ràng, nhưng có lẽ đó chỉ là mạch liên quan đến việc xử lý các hướng dẫn và lượng dữ liệu khổng lồ liên quan, để đảm bảo thông lượng tối đa. Nó cũng có thể có chức năng tương tự như chức năng của Bộ tăng tốc bộ nhớ Tensor của Nvidia, trong kiến trúc Hopper của họ.

So với RDNA 2, các thay đổi tương đối nhỏ – kiến trúc cũ hơn cũng có thể xử lý 64 mặt sóng luồng (còn gọi là Wave64), nhưng chúng được phát hành trong hai chu kỳ và sử dụng cả hai khối SIMD32 trong mỗi Đơn vị tính toán. Bây giờ, tất cả điều này có thể được thực hiện trong một chu kỳ và sẽ chỉ sử dụng một khối SIMD.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Trong tài liệu trước đây, AMD đã tuyên bố rằng Wave32 thường được sử dụng cho bộ đổ bóng điện toán và đỉnh (và có thể cả bộ đổ bóng tia), trong khi Wave 64 chủ yếu dành cho bộ đổ bóng pixel, với các trình điều khiển biên dịch bộ tạo bóng tương ứng. Vì vậy, việc chuyển sang vấn đề hướng dẫn Wave64 một chu kỳ sẽ mang lại sự thúc đẩy cho các trò chơi phụ thuộc nhiều vào trình đổ bóng pixel.

Tuy nhiên, tất cả nguồn năng lượng bổ sung này cần được sử dụng đúng cách để tận dụng tối đa lợi ích của nó. Đây là điều đúng với tất cả các kiến trúc GPU và tất cả chúng đều cần được tải rất nhiều luồng để làm được điều này (nó cũng giúp che giấu độ trễ cố hữu có liên quan đến DRAM).

Vì vậy, với việc tăng gấp đôi ALU, AMD đã thúc đẩy nhu cầu của các lập trình viên sử dụng cơ chế song song ở cấp độ lệnh càng nhiều càng tốt. Đây không phải là điều gì mới trong thế giới đồ họa, nhưng một lợi thế đáng kể mà RDNA có được so với kiến trúc GCN cũ của AMD là nó không cần nhiều luồng trong chuyến bay để đạt được mức sử dụng đầy đủ. Dựa vào mức độ phức tạp của việc dựng hình hiện đại trong trò chơi, các nhà phát triển sẽ phải làm nhiều việc hơn một chút khi nói đến việc viết mã đổ bóng của họ.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Bây giờ, hãy chuyển sang Intel và xem xét DCU tương đương trong kiến trúc Nhà giả kim, được gọi là Xe Core (chúng tôi sẽ viết tắt là XEC). Thoạt nhìn, những thứ này trông rất lớn so với cấu trúc của AMD.

Trong trường hợp một DCU duy nhất trong RDNA 3 chứa bốn khối SIMD64, thì XEC của Intel chứa mười sáu đơn vị SIMD8, mỗi khối được quản lý bởi hệ thống điều phối và lập lịch luồng riêng. Giống như Bộ xử lý phát trực tuyến của AMD, cái gọi là Công cụ Vector trong Nhà giả kim có thể xử lý các định dạng dữ liệu số nguyên và số thực. Không có hỗ trợ cho FP64, nhưng đây không phải là vấn đề lớn khi chơi game.

Intel luôn sử dụng các SIMD tương đối hẹp – những SIMD được sử dụng như Gen11 chỉ có 4 chiều rộng (tức là xử lý 4 luồng đồng thời) và chỉ có chiều rộng gấp đôi với Gen 12 (chẳng hạn như được sử dụng trong CPU Rocket Lake của họ).

Nhưng do ngành công nghiệp trò chơi đã quen với GPU SIMD32 trong nhiều năm và do đó, các trò chơi được mã hóa tương ứng, nên quyết định giữ các khối thực thi hẹp có vẻ phản tác dụng.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Trong khi RDNA 3 của AMD và Ada Lovelace của Nvidia có các khối xử lý có thể tạo ra 64 hoặc 32 luồng trong một chu kỳ, kiến trúc của Intel yêu cầu 4 chu kỳ để đạt được kết quả tương tự trên một VE – đó là lý do tại sao có 16 đơn vị SIMD trên mỗi XEC.

Tuy nhiên, điều này có nghĩa là nếu các trò chơi không được mã hóa theo cách như vậy để đảm bảo VE được sử dụng hoàn toàn, SIMD và các tài nguyên liên quan (bộ đệm, băng thông, v.v.) sẽ không hoạt động. Một chủ đề phổ biến trong kết quả điểm chuẩn với dòng card đồ họa Arc của Intel là chúng có xu hướng hoạt động tốt hơn ở độ phân giải cao hơn và/hoặc trong các trò chơi có nhiều quy trình đổ bóng hiện đại, phức tạp.

Điều này một phần là do mức độ cao của việc chia nhỏ đơn vị và chia sẻ tài nguyên diễn ra. Phân tích điểm chuẩn vi mô của trang web Chips and Cheese cho thấy rằng đối với tất cả sự phong phú của ALU, kiến trúc gặp khó khăn trong việc sử dụng hợp lý.

Chuyển sang các khía cạnh khác trong XEC, không rõ bộ đệm hướng dẫn Cấp 0 lớn đến mức nào nhưng nếu AMD là 4 chiều (vì nó phục vụ bốn khối SIMD), thì Intel sẽ phải là 16 chiều, điều này làm tăng thêm sự phức tạp của hệ thống bộ đệm.

Intel cũng chọn cung cấp cho bộ xử lý các đơn vị chuyên dụng cho hoạt động ma trận, một đơn vị cho mỗi Công cụ Vector. Có nhiều đơn vị này có nghĩa là một phần đáng kể của khuôn được dành riêng để xử lý toán học ma trận.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Trong trường hợp AMD sử dụng các đơn vị SIMD của DCU để thực hiện việc này và Nvidia có bốn đơn vị tensor/ma trận tương đối lớn trên mỗi SM, thì cách tiếp cận của Intel có vẻ hơi quá mức, do chúng có một kiến trúc riêng biệt, được gọi là X e -HP, dành cho các ứng dụng điện toán.

Đọc thêm:  Tuổi thọ pin điện thoại thông minh Android tốt nhất

Một thiết kế kỳ lạ khác dường như là các đơn vị tải/lưu trữ (LD/ST) trong khối xử lý. Không được hiển thị trong sơ đồ của chúng tôi, chúng quản lý các hướng dẫn bộ nhớ từ các luồng, di chuyển dữ liệu giữa tệp thanh ghi và bộ đệm L1. Ada Lovelace giống hệt với Ampere với bốn trên mỗi phân vùng SM, tổng cộng là 16. RDNA 3 cũng giống như phiên bản tiền nhiệm của nó, với mỗi CU có mạch LD/ST chuyên dụng như một phần của đơn vị kết cấu.

Bản trình bày Xe-HPG của Intel chỉ hiển thị một LD/ST trên mỗi XEC nhưng trên thực tế, nó có thể bao gồm các đơn vị riêng biệt khác bên trong. Tuy nhiên, trong hướng dẫn tối ưu hóa của họ cho OneAPI, một sơ đồ gợi ý rằng LD/ST quay vòng qua các tệp đăng ký riêng lẻ tại một thời điểm. Nếu đúng như vậy, thì Nhà giả kim sẽ luôn phải vật lộn để đạt được hiệu quả băng thông bộ đệm tối đa, bởi vì không phải tất cả các tệp đều được cung cấp cùng một lúc.

Khối xử lý cuối cùng cần xem xét là Bộ đa xử lý phát trực tuyến (SM) của Nvidia – phiên bản GeForce của DCU/XEC. Cấu trúc này không thay đổi nhiều so với kiến trúc Turing 2018. Trên thực tế, nó gần giống với Ampe.

Một số đơn vị đã được điều chỉnh để cải thiện hiệu suất hoặc bộ tính năng của chúng, nhưng phần lớn, không có nhiều điều mới mẻ để nói về. Trên thực tế, có thể có, nhưng Nvidia nổi tiếng là ngại tiết lộ nhiều về hoạt động bên trong và thông số kỹ thuật của chip của họ. Intel cung cấp thêm một chút chi tiết, nhưng thông tin thường được chôn trong các tài liệu khác.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Nhưng để tóm tắt cấu trúc, SM được chia thành bốn phân vùng. Mỗi cái có bộ đệm hướng dẫn L0, bộ lập lịch luồng và đơn vị điều phối riêng và một phần 64 kB của tệp đăng ký được ghép nối với bộ xử lý SIMD32.

Giống như trong RDNA 3 của AMD, SM hỗ trợ các lệnh được phát hành kép, trong đó mỗi phân vùng có thể xử lý đồng thời hai luồng, một luồng có lệnh FP32 và luồng kia có lệnh FP32 hoặc INT32.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Các lõi Tensor của Nvidia hiện đang ở phiên bản thứ 4 nhưng lần này, thay đổi đáng chú ý duy nhất là việc đưa Công cụ biến áp FP8 vào chip Hopper của họ – số liệu thông lượng thô vẫn không thay đổi.

Việc bổ sung định dạng float có độ chính xác thấp có nghĩa là GPU sẽ phù hợp hơn cho các mô hình đào tạo AI. Các lõi Tensor vẫn cung cấp tính năng thưa thớt từ Ampere, có thể cung cấp thông lượng lên gấp đôi.

Một cải tiến khác nằm ở công cụ Máy gia tốc dòng quang (OFA) (không được hiển thị trong sơ đồ của chúng tôi). Mạch này tạo ra một trường dòng quang, được sử dụng như một phần của thuật toán DLSS. Với hiệu suất gấp đôi của OFA trong Ampere, thông lượng bổ sung được sử dụng trong phiên bản mới nhất của trình nâng cấp khử răng cưa theo thời gian, DLSS 3.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

DLSS 3 đã phải đối mặt với rất nhiều lời chỉ trích, tập trung vào hai khía cạnh: các khung hình do DLSS tạo ra không phải là ‘thực’ và quá trình này bổ sung thêm độ trễ cho chuỗi kết xuất. Đầu tiên không phải là hoàn toàn không hợp lệ, vì hệ thống hoạt động bằng cách đầu tiên GPU hiển thị hai khung hình liên tiếp, lưu trữ chúng trong bộ nhớ, trước khi sử dụng thuật toán mạng thần kinh để xác định khung hình trung gian sẽ trông như thế nào.

Sau đó, chuỗi hiện tại quay trở lại khung được hiển thị đầu tiên và hiển thị khung đó, tiếp theo là khung DLSS và sau đó là khung thứ hai được hiển thị. Do công cụ của trò chơi chưa quay vòng ở khung giữa nên màn hình đang được làm mới mà không có bất kỳ thông tin đầu vào tiềm năng nào. Và bởi vì hai khung hình liên tiếp cần phải được dừng lại, thay vì được trình bày, nên bất kỳ đầu vào nào đã được thăm dò cho các khung hình đó cũng sẽ bị đình trệ.

Liệu DLSS 3 có bao giờ trở nên phổ biến hay phổ biến hay không vẫn còn phải xem.

Mặc dù SM của Ada rất giống với Ampere, nhưng có những thay đổi đáng chú ý đối với lõi RT và chúng tôi sẽ sớm giải quyết những thay đổi đó. Hiện tại, hãy tóm tắt khả năng tính toán của các cấu trúc lặp lại GPU của AMD, Intel và Nvidia.

Chúng ta có thể so sánh các khả năng của SM, XEC và DCU bằng cách xem số lượng hoạt động, đối với các định dạng dữ liệu tiêu chuẩn, trên mỗi chu kỳ xung nhịp. Lưu ý rằng đây là những con số cao nhất và không nhất thiết phải đạt được trong thực tế.

Con số của Nvidia không thay đổi so với Ampere, trong khi con số của RDNA 3 đã tăng gấp đôi ở một số khu vực. Tuy nhiên, Nhà giả kim ở một cấp độ khác khi nói đến các phép toán ma trận, mặc dù thực tế rằng đây là những giá trị lý thuyết đỉnh cao cần được nhấn mạnh lại.

Do bộ phận đồ họa của Intel chủ yếu hướng tới trung tâm dữ liệu và tính toán, giống như Nvidia, không có gì ngạc nhiên khi thấy kiến trúc dành quá nhiều không gian chết cho các hoạt động của ma trận. Việc thiếu khả năng FP64 không phải là vấn đề, vì định dạng dữ liệu đó không thực sự được sử dụng trong chơi game và chức năng này có trong kiến trúc X e -HP của họ.

Về mặt lý thuyết, Ada Lovelace và Alchemist mạnh hơn RDNA 3 khi nói đến hoạt động của ma trận/tensor, nhưng vì chúng ta đang xem xét các GPU chủ yếu được sử dụng cho khối lượng công việc chơi game, nên các đơn vị chuyên dụng hầu như chỉ cung cấp khả năng tăng tốc cho các thuật toán liên quan đến DLSS và XeSS – chúng sử dụng mạng nơ-ron bộ mã hóa tự động tích chập (CAENN) để quét hình ảnh để tìm tạo tác và sửa chúng.

Bộ nâng cấp tạm thời của AMD (FidelityFX Super Resolution, FSR) không sử dụng CAENN, vì nó chủ yếu dựa trên phương pháp lấy mẫu lại Lanczos, sau đó là một số quy trình chỉnh sửa hình ảnh, được xử lý thông qua DCU. Tuy nhiên, trong lần ra mắt RDNA 3, phiên bản tiếp theo của FSR đã được giới thiệu ngắn gọn, trích dẫn một tính năng mới có tên là Khung chuyển động linh hoạt. Với hiệu suất tăng lên gấp đôi so với FSR 2.0, sự đồng thuận chung là điều này có khả năng liên quan đến việc tạo khung, như trong DLSS 3, nhưng liệu điều này có liên quan đến bất kỳ hoạt động ma trận nào hay không vẫn chưa rõ ràng.

Với việc ra mắt dòng card đồ họa Arc, sử dụng kiến trúc Alchemist, Intel đã cùng với AMD và Nvidia cung cấp GPU cung cấp bộ tăng tốc chuyên dụng cho các thuật toán khác nhau liên quan đến việc sử dụng dò tia trong đồ họa. Cả Ada và RNDA 3 đều chứa các đơn vị RT được cập nhật đáng kể, do đó, thật hợp lý khi xem xét những gì mới và khác biệt.

Bắt đầu với AMD, thay đổi lớn nhất đối với Máy gia tốc tia của họ là bổ sung phần cứng để cải thiện khả năng truyền tải của hệ thống phân cấp âm lượng giới hạn (BVH). Đây là những cấu trúc dữ liệu được sử dụng để tăng tốc độ xác định bề mặt mà tia sáng chiếu vào, trong thế giới 3D.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Trong RDNA 2, tất cả công việc này được xử lý thông qua Đơn vị tính toán và ở một mức độ nhất định, nó vẫn như vậy. Tuy nhiên, đối với DXR, API dò tia của Microsoft, có hỗ trợ phần cứng để quản lý cờ tia.

Việc sử dụng những thứ này có thể giảm đáng kể số lần BVH cần được duyệt qua, giảm tải tổng thể cho băng thông bộ đệm và các đơn vị tính toán. Về bản chất, AMD đã tập trung vào việc cải thiện hiệu quả tổng thể của hệ thống mà họ đã giới thiệu trong kiến trúc trước đó.

Đọc thêm:  Trò chơi điện tử có khiến bạn trở nên bạo lực không? Cái nhìn sâu sắc về mọi thứ chúng ta biết ngày nay

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Ngoài ra, phần cứng đã được cập nhật để cải thiện khả năng sắp xếp hộp (giúp quá trình duyệt nhanh hơn) và thuật toán loại bỏ (để bỏ qua việc kiểm tra các hộp trống). Cùng với những cải tiến đối với hệ thống bộ đệm, AMD tuyên bố rằng hiệu suất dò tia cao hơn tới 80%, ở cùng tốc độ xung nhịp, so với RDNA 2.

Tuy nhiên, những cải tiến như vậy không chuyển thành nhiều hơn 80% số khung hình mỗi giây trong các trò chơi sử dụng tính năng dò tia – hiệu suất trong những tình huống này bị chi phối bởi nhiều yếu tố và khả năng của các thiết bị RT chỉ là một trong số đó.

Với việc Intel mới tham gia trò chơi dò tia, không có cải tiến nào như vậy. Thay vào đó, chúng tôi chỉ đơn giản nói rằng các đơn vị RT của họ xử lý các phép tính giao nhau và giao điểm của BVH, giữa các tia và hình tam giác. Điều này làm cho chúng giống với hệ thống của Nvidia hơn là của AMD, nhưng không có nhiều thông tin về chúng.

Nhưng chúng tôi biết rằng mỗi đơn vị RT có một bộ đệm có kích thước không xác định để lưu trữ dữ liệu BVH và một đơn vị riêng biệt để phân tích và sắp xếp các luồng đổ bóng tia, nhằm cải thiện việc sử dụng SIMD.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Mỗi XEC được ghép nối với một đơn vị RT, cung cấp tổng cộng bốn cho mỗi Render Slice. Một số thử nghiệm ban đầu của A770 với tính năng dò tia được kích hoạt trong trò chơi cho thấy rằng bất kể cấu trúc nào mà Intel có, khả năng dò tia tổng thể của Alchemist ít nhất cũng tốt như khả năng tìm thấy với chip Ampere và tốt hơn một chút so với các mẫu RDNA 2.

Nhưng chúng ta hãy nhắc lại một lần nữa rằng tính năng dò tia cũng gây áp lực nặng nề lên các lõi tạo bóng, hệ thống bộ đệm và băng thông bộ nhớ, do đó, không thể trích xuất hiệu suất của thiết bị RT từ các điểm chuẩn như vậy.

Đối với kiến trúc Ada Lovelace, Nvidia đã thực hiện một số thay đổi, với những tuyên bố lớn phù hợp để nâng cao hiệu suất so với Ampere. Các máy gia tốc cho phép tính giao điểm tia-tam giác được tuyên bố là có thông lượng gấp đôi và chuyển động ngang của BVH đối với các bề mặt không mờ đục hiện được cho là nhanh gấp đôi. Cái sau rất quan trọng đối với các đối tượng sử dụng kết cấu có kênh alpha (độ trong suốt), chẳng hạn như lá trên cây.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Một tia chiếu vào một phần hoàn toàn trong suốt của một bề mặt như vậy sẽ không dẫn đến kết quả va chạm – tia phải đi thẳng qua. Tuy nhiên, để xác định chính xác điều này trong các trò chơi hiện tại có dò tia, cần phải xử lý nhiều trình đổ bóng khác. Công cụ Micromap Opacity mới của Nvidia chia các bề mặt này thành các hình tam giác khác và sau đó xác định chính xác điều gì đang diễn ra, giảm số lượng bộ tạo bóng tia cần thiết.

Hai bổ sung nữa cho khả năng dò tia của Ada là giảm thời gian xây dựng và dung lượng bộ nhớ của BVH (với tuyên bố lần lượt là nhanh hơn 10 lần và nhỏ hơn 20 lần) và cấu trúc để sắp xếp lại các luồng cho trình đổ bóng tia, mang lại hiệu quả tốt hơn. Tuy nhiên, trong trường hợp cái trước không yêu cầu các nhà phát triển thay đổi phần mềm, thì cái sau hiện chỉ được truy cập bởi một API từ Nvidia, vì vậy nó không có lợi cho các trò chơi DirectX 12 hiện tại.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Khi chúng tôi kiểm tra hiệu suất dò tia của GeForce RTX 4090, tốc độ khung hình giảm trung bình khi bật dò tia chỉ dưới 45%. Với GeForce RTX 3090 Ti chạy bằng Ampere, mức giảm là 56%. Tuy nhiên, cải tiến này không thể chỉ được quy cho các cải tiến lõi RT, vì 4090 có thông lượng đổ bóng và bộ nhớ cache nhiều hơn đáng kể so với mẫu trước đó.

Chúng tôi vẫn chưa biết các cải tiến dò tia của RDNA 3 khác biệt như thế nào, nhưng điều đáng chú ý là không nhà sản xuất GPU nào mong muốn RT được sử dụng riêng lẻ – tức là việc sử dụng nâng cấp vẫn được yêu cầu để đạt được tốc độ khung hình cao .

Những người hâm mộ tính năng dò tia có thể hơi thất vọng vì không có bất kỳ thành tựu lớn nào trong lĩnh vực này, với vòng bộ xử lý đồ họa mới, nhưng rất nhiều tiến bộ đã đạt được kể từ khi nó xuất hiện lần đầu tiên, vào năm 2018 với kiến trúc Turing của Nvidia .

GPU xử lý dữ liệu không giống bất kỳ con chip nào khác và việc giữ cho ALU được cung cấp các con số là rất quan trọng đối với hiệu suất của chúng. Trong những ngày đầu của bộ xử lý đồ họa PC, hầu như không có bất kỳ bộ đệm nào bên trong và bộ nhớ chung (RAM được sử dụng bởi toàn bộ chip) là DRAM cực kỳ chậm chạp. Thậm chí chỉ 10 năm trước, tình hình cũng không khá hơn là bao.

Vì vậy, hãy đi sâu vào tình trạng hiện tại, bắt đầu với hệ thống phân cấp bộ nhớ của AMD trong kiến trúc mới của họ. Kể từ lần lặp đầu tiên, RDNA đã sử dụng hệ thống phân cấp bộ nhớ đa cấp phức tạp. Những thay đổi lớn nhất diễn ra một năm trước đó khi một lượng lớn bộ đệm L3 được thêm vào GPU, lên tới 128 MB ở một số kiểu máy nhất định.

Đây vẫn là trường hợp của vòng ba, nhưng với một số thay đổi tinh tế.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Các tệp đăng ký hiện lớn hơn 50% (chúng phải như vậy để đối phó với sự gia tăng ALU) và ba cấp bộ đệm đầu tiên đều lớn hơn. L0 và L1 đã tăng gấp đôi kích thước và bộ đệm L2 lên tới 2 MB, tổng cộng là 6 MB trong khuôn Navi 31.

Bộ nhớ cache L3 thực sự đã giảm xuống còn 96 MB, nhưng có một lý do chính đáng cho việc này – nó không còn nằm trong GPU chết nữa. Chúng ta sẽ nói thêm về khía cạnh đó trong phần sau của bài viết này.

Với độ rộng bus rộng hơn giữa các mức bộ đệm khác nhau, băng thông bên trong tổng thể cũng cao hơn rất nhiều. Theo đồng hồ, có thêm 50% giữa L0 và L1 và mức tăng tương tự giữa L1 và L2. Nhưng cải tiến lớn nhất là giữa L2 và L3 bên ngoài – giờ đây nó rộng hơn tổng cộng 2,25 lần.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Navi 21, như được sử dụng trong Radeon RX 6900 XT, có tổng băng thông tối đa từ L2 đến L3 là 2,3 TB/s; Navi 31 trong Radeon RX 7900 XT tăng tốc độ đó lên 5,3 TB/s, do sử dụng các liên kết quạt ra Infinity của AMD.

Việc tách bộ đệm L3 khỏi khuôn chính sẽ làm tăng độ trễ, nhưng điều này được bù đắp bằng việc sử dụng xung nhịp cao hơn cho hệ thống Infinity Fabric – nhìn chung, thời gian trễ của L3 đã giảm 10% so với RDNA 2.

RDNA 3 vẫn được thiết kế để sử dụng GDDR6, thay vì GDDR6X nhanh hơn một chút, nhưng chip Navi 31 cao cấp nhất chứa thêm hai bộ điều khiển bộ nhớ để tăng độ rộng bus bộ nhớ toàn cầu lên 384 bit.

Hệ thống bộ đệm của AMD chắc chắn phức tạp hơn của Intel và Nvidia, nhưng điểm chuẩn vi mô của RDNA 2 của Chips and Cheese cho thấy đó là một hệ thống rất hiệu quả. Độ trễ xung quanh thấp và nó cung cấp hỗ trợ cơ bản cần thiết để CU đạt được mức sử dụng cao, vì vậy chúng ta có thể mong đợi điều tương tự của hệ thống được sử dụng trong RDNA 3.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Hệ thống phân cấp bộ nhớ của Intel có phần đơn giản hơn, chủ yếu là một hệ thống hai tầng (bỏ qua các bộ đệm nhỏ hơn, chẳng hạn như bộ đệm dành cho hằng số). Không có bộ đệm dữ liệu L0, chỉ có một lượng kha khá 192kB dữ liệu L1 và bộ nhớ dùng chung.

Cũng như với Nvidia, bộ đệm này có thể được phân bổ động, với tối đa 128kB có sẵn dưới dạng bộ nhớ dùng chung. Ngoài ra, còn có bộ đệm kết cấu 64kB riêng biệt (không được hiển thị trong sơ đồ của chúng tôi).

Đối với chip (DG2-512 như được sử dụng trong A770) được thiết kế để sử dụng trong cạc đồ họa dành cho thị trường tầm trung, bộ nhớ đệm L2 có tổng dung lượng rất lớn là 16 MB. Độ rộng dữ liệu cũng lớn phù hợp, với tổng số 2048 byte trên mỗi đồng hồ, giữa L1 và L2. Bộ đệm này bao gồm tám phân vùng, với mỗi phân vùng phục vụ một bộ điều khiển bộ nhớ GDDR6 32 bit duy nhất.

Đọc thêm:  Ép xung CPU Intel Non-K: Core i3-12100, Core i5-12400 và Core i7-12700

Tuy nhiên, phân tích đã chỉ ra rằng mặc dù có rất nhiều bộ nhớ đệm và băng thông khi chạm, nhưng kiến trúc Nhà giả kim không đặc biệt giỏi trong việc sử dụng hết tất cả, yêu cầu khối lượng công việc có số lượng luồng cao để che đi độ trễ tương đối thấp của nó.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Nvidia đã giữ lại cấu trúc bộ nhớ giống như được sử dụng trong Ampere, với mỗi SM có bộ đệm 128kB hoạt động như một kho lưu trữ dữ liệu L1, bộ nhớ dùng chung và bộ đệm kết cấu. Số tiền có sẵn cho các vai trò khác nhau được phân bổ động. Chưa có gì được nói về bất kỳ thay đổi nào đối với băng thông L1, nhưng trong Ampere, nó là 128 byte trên mỗi xung nhịp trên mỗi SM. Nvidia chưa bao giờ rõ ràng liệu con số này là tích lũy, kết hợp giữa đọc và ghi hay chỉ cho một hướng.

Nếu Ada ít nhất giống với Ampere, thì tổng băng thông L1, cho tất cả các SM kết hợp, là 18 kB khổng lồ trên mỗi đồng hồ – lớn hơn nhiều so với RDNA 2 và Nhà giả kim.

Nhưng phải nhấn mạnh lại rằng các chip này không thể so sánh trực tiếp, vì Intel được định giá và bán trên thị trường như một sản phẩm tầm trung, còn AMD đã nói rõ rằng Navi 31 không bao giờ được thiết kế để cạnh tranh với AD102 của Nvidia. Đối thủ cạnh tranh của nó là AD103 nhỏ hơn đáng kể so với AD102.

Thay đổi lớn nhất đối với hệ thống phân cấp bộ nhớ là bộ nhớ đệm L2 đã tăng lên 96MB, trong khuôn AD102 đầy đủ – gấp 16 lần so với người tiền nhiệm của nó, GA102. Cũng như hệ thống của Intel, L2 được phân vùng và ghép nối với bộ điều khiển bộ nhớ GDDR6X 32 bit, cho độ rộng bus DRAM lên tới 384 bit.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Kích thước bộ đệm lớn hơn thường có độ trễ dài hơn so với kích thước bộ đệm nhỏ hơn, nhưng do tốc độ xung nhịp tăng lên và một số cải tiến với các bus, Ada Lovelace hiển thị hiệu suất bộ đệm tốt hơn Ampere.

Nếu chúng ta so sánh cả ba hệ thống, thì Intel và Nvidia có cách tiếp cận giống nhau đối với bộ đệm L1 – nó có thể được sử dụng làm bộ đệm dữ liệu chỉ đọc hoặc bộ nhớ dùng chung điện toán. Trong trường hợp thứ hai, GPU cần được hướng dẫn rõ ràng, thông qua phần mềm, để sử dụng nó ở định dạng này và dữ liệu chỉ được giữ lại miễn là các luồng sử dụng nó đang hoạt động. Điều này làm tăng thêm độ phức tạp của hệ thống, nhưng nó tạo ra một sự gia tăng hữu ích cho hiệu năng tính toán.

Trong RDNA 3, bộ nhớ đệm dữ liệu ‘L1’ và bộ nhớ dùng chung được tách thành hai bộ đệm vectơ L0 32kB và bộ nhớ chia sẻ dữ liệu cục bộ 128kB. Cái mà AMD gọi là bộ đệm L1 thực sự là một bước đệm được chia sẻ, dành cho dữ liệu chỉ đọc, giữa một nhóm bốn DCU và bộ đệm L2.

Mặc dù không có băng thông bộ đệm nào cao bằng của Nvidia, nhưng cách tiếp cận nhiều tầng giúp khắc phục điều này, đặc biệt là khi các DCU không được sử dụng hết.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Các hệ thống bộ đệm khổng lồ, trên toàn bộ bộ xử lý thường không phải là tốt nhất cho GPU, đó là lý do tại sao chúng tôi không thấy nhiều hơn 4 hoặc 6 MB trong các kiến trúc trước đó, nhưng đó là lý do tại sao AMD, Intel và Nvidia đều có số lượng đáng kể trong tầng cuối cùng là để chống lại sự thiếu tăng trưởng tương đối về tốc độ DRAM.

Thêm nhiều bộ điều khiển bộ nhớ vào GPU có thể cung cấp nhiều băng thông, nhưng với chi phí tăng kích thước khuôn và chi phí sản xuất, và các giải pháp thay thế như HBM3 đắt hơn rất nhiều khi sử dụng.

Chúng tôi vẫn chưa thấy hệ thống của AMD cuối cùng hoạt động tốt như thế nào nhưng cách tiếp cận bốn tầng của họ trong RDNA 2 đã hoạt động tốt so với Ampere và về cơ bản nó tốt hơn so với của Intel. Tuy nhiên, với việc Ada đóng gói nhiều L2 hơn đáng kể, sự cạnh tranh không còn đơn giản nữa.

Có một điểm chung mà AMD, Intel và Nvidia đều có – tất cả họ đều sử dụng TSMC để chế tạo GPU của mình.

AMD sử dụng hai nút khác nhau cho GCD và MCD trong Navi 31, với nút trước được tạo bằng nút N5 và nút sau trên N6 (phiên bản nâng cao của N7). Intel cũng sử dụng N6 cho tất cả các chip Alchemist của mình. Với Ampere, Nvidia đã sử dụng quy trình 8nm cũ của Samsung, nhưng với Ada, họ đã quay lại TSMC và quy trình N4, một biến thể của N5.

N4 có mật độ bóng bán dẫn cao nhất và tỷ lệ hiệu năng trên công suất tốt nhất trong tất cả các nút, nhưng khi AMD ra mắt RDNA 3, họ nhấn mạnh rằng chỉ mạch logic mới có mật độ tăng đáng kể.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

SRAM (được sử dụng cho bộ đệm) và các hệ thống tương tự (được sử dụng cho bộ nhớ, hệ thống và các mạch báo hiệu khác) đã bị thu hẹp tương đối ít. Cùng với việc tăng giá mỗi tấm wafer đối với các nút quy trình mới hơn, AMD đã quyết định sử dụng N6 cũ hơn và rẻ hơn một chút để chế tạo MCD, vì các bộ ba này chủ yếu là SRAM và I/O.

Về kích thước khuôn, GCD nhỏ hơn 42% so với Navi 21, ở mức 300 mm 2 . Mỗi MCD chỉ là 37mm 2 , do đó, diện tích khuôn kết hợp của Navi 31 gần giống như người tiền nhiệm của nó. AMD chỉ công bố số lượng bóng bán dẫn kết hợp cho tất cả các bộ ba, nhưng với 58 tỷ, GPU mới này là bộ xử lý đồ họa tiêu dùng ‘lớn nhất’ của họ từ trước đến nay.

Để kết nối từng MCD với GCD, AMD đang sử dụng cái mà họ gọi là Quạt hiệu suất cao – các dấu vết được đóng gói dày đặc, chiếm một lượng không gian rất nhỏ. Infinity Links – hệ thống tín hiệu và kết nối độc quyền của AMD – chạy với tốc độ lên tới 9,2Gb/giây và với mỗi MCD có độ rộng liên kết là 384 bit, băng thông MCD-to-GCD đạt tới 883GB/giây (hai chiều).

Điều đó tương đương với băng thông bộ nhớ toàn cầu của một card đồ họa cao cấp, chỉ với một MCD. Với tất cả sáu trong Navi 31, băng thông L2-to-MCD kết hợp đạt 5,3TB/s.

Việc sử dụng các phân bố phức tạp có nghĩa là chi phí đóng gói khuôn, so với chip nguyên khối truyền thống, sẽ cao hơn nhưng quy trình có thể mở rộng – các SKU khác nhau có thể sử dụng cùng một GCD nhưng số lượng MCD khác nhau. Kích thước nhỏ hơn của các khuôn chiplet riêng lẻ sẽ cải thiện năng suất của tấm wafer, nhưng không có dấu hiệu nào cho thấy liệu AMD có kết hợp bất kỳ dự phòng nào vào thiết kế của MCD hay không.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Nếu không có, điều đó có nghĩa là bất kỳ chiplet nào có lỗi trong SRAM, khiến phần đó của mảng bộ nhớ không được sử dụng, thì chúng sẽ phải được chuyển sang SKU kiểu máy cấp thấp hơn hoặc hoàn toàn không được sử dụng.

Cho đến nay, AMD mới chỉ công bố hai card đồ họa RDNA 3 (Radeon RX 7900 XT và XTX), nhưng trong cả hai mẫu, MCD đều chứa 16MB bộ nhớ cache cho mỗi mẫu. Nếu vòng tiếp theo của thẻ Radeon có bus bộ nhớ 256 bit và 64 MB bộ đệm L3, thì chúng cũng sẽ cần sử dụng khuôn 16 MB ‘hoàn hảo’.

Tuy nhiên, vì chúng có diện tích quá nhỏ nên một tấm wafer 300mm có khả năng tạo ra hơn 1500 MCD. Ngay cả khi 50% trong số đó phải bị loại bỏ, thì số khuôn đó vẫn đủ để cung cấp cho 125 gói Navi 31.

Đọc thêm:  Khoa học giữ cho nó mát mẻ

Sẽ mất một thời gian trước khi chúng ta có thể biết thiết kế của AMD thực sự tiết kiệm chi phí như thế nào, nhưng công ty hoàn toàn cam kết sử dụng phương pháp này ngay bây giờ và trong tương lai, mặc dù chỉ dành cho các GPU lớn hơn. Các mẫu RNDA 3 giá rẻ, với số lượng bộ nhớ đệm nhỏ hơn nhiều, sẽ tiếp tục sử dụng phương pháp chế tạo nguyên khối vì sẽ tiết kiệm chi phí hơn khi chế tạo chúng theo cách đó.

Bộ xử lý ACM-G10 của Intel có kích thước 406mm 2 , với tổng số lượng bóng bán dẫn là 21,7 tỷ, nằm ở đâu đó giữa Navi 21 của AMD và GA104 của Nvidia, xét về số lượng linh kiện và diện tích khuôn.

Điều này thực sự làm cho nó trở thành một bộ xử lý khá lớn, đó là lý do tại sao việc Intel lựa chọn lĩnh vực thị trường cho GPU có vẻ hơi kỳ quặc. Card đồ họa Arc A770, sử dụng khuôn ACM-G10 đầy đủ, được đặt cạnh tranh với GeForce RTX 3060 của Nvidia – một card đồ họa sử dụng chip có kích thước và số lượng bóng bán dẫn bằng một nửa so với Intel.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Vậy tại sao nó lại lớn như vậy? Có hai nguyên nhân có thể xảy ra: bộ nhớ đệm L2 16MB và số lượng đơn vị ma trận rất lớn trong mỗi XEC. Quyết định sử dụng cái trước là hợp lý, vì nó giảm bớt áp lực lên băng thông bộ nhớ toàn cầu, nhưng cái sau có thể dễ dàng bị coi là quá mức đối với lĩnh vực mà nó được bán. RTX 3060 có 112 lõi Tensor, trong khi A770 có 512 đơn vị XMX.

Một lựa chọn kỳ lạ khác của Intel là sử dụng TSMC N6 để sản xuất khuôn Nhà giả kim, thay vì các cơ sở của riêng họ. Một tuyên bố chính thức được đưa ra về vấn đề này đã trích dẫn các yếu tố như chi phí, công suất fab và tần suất hoạt động của chip.

Điều này cho thấy rằng các cơ sở sản xuất tương đương của Intel (sử dụng nút Intel 7 đã được đổi tên) sẽ không thể đáp ứng nhu cầu dự kiến, với các CPU Alder và Raptor Lake của họ chiếm phần lớn công suất.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Họ sẽ so sánh sự sụt giảm tương đối về sản lượng CPU và điều đó sẽ ảnh hưởng đến doanh thu như thế nào so với những gì họ sẽ đạt được với Nhà giả kim. Nói tóm lại, tốt hơn là nên trả tiền cho TSMC để tạo ra GPU mới của mình.

Trong khi AMD sử dụng chuyên môn đa chip của mình và phát triển các công nghệ mới để sản xuất GPU RDNA 3 lớn, thì Nvidia lại mắc kẹt với thiết kế nguyên khối cho dòng Ada. Công ty GPU có kinh nghiệm đáng kể trong việc tạo ra các bộ xử lý cực lớn, mặc dù AD102 có kích thước 608mm 2 không phải là chip lớn nhất về mặt vật lý mà hãng đã phát hành (vinh dự đó thuộc về GA100 có kích thước 826mm 2 ). Tuy nhiên, với 76,3 tỷ bóng bán dẫn, Nvidia đã vượt xa số lượng thành phần này so với bất kỳ GPU cấp tiêu dùng nào từng thấy cho đến nay.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

GA102, được sử dụng trong GeForce RTX 3080 trở lên, có vẻ nhẹ so với chỉ 26,8 tỷ. Mức tăng 187% này hướng tới mức tăng 71% về số lượng SM và mức tăng 1500% về dung lượng bộ đệm L2.

Một con chip lớn và phức tạp như thế này sẽ luôn phải vật lộn để đạt được năng suất tấm wafer hoàn hảo, đó là lý do tại sao các GPU Nvidia cao cấp nhất trước đây đã tạo ra vô số SKU. Thông thường, khi ra mắt kiến trúc mới, dòng card đồ họa chuyên nghiệp của họ (ví dụ: A-series, Tesla, v.v.) sẽ được công bố trước.

Khi Ampere được công bố, GA102 đã xuất hiện trong hai loại thẻ dành cho người tiêu dùng khi ra mắt và cuối cùng đã tìm được chỗ đứng trong 14 sản phẩm khác nhau. Cho đến nay, Nvidia đã chọn sử dụng AD102 chỉ trong hai: GeForce RTX 4090 và RTX 6000.

RTX 4090 sử dụng các khuôn hướng tới phần cuối tốt hơn của quá trình tạo thùng, với 16 SM và 24 MB bộ đệm L2 bị vô hiệu hóa, trong khi RTX 6000 chỉ có hai SM bị vô hiệu hóa. Điều này khiến người ta phải đặt câu hỏi: phần còn lại của những cái chết ở đâu?

Không có sản phẩm nào khác sử dụng AD102, chúng tôi cho rằng Nvidia đang dự trữ chúng, có thể dành cho khách hàng doanh nghiệp.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

GeForce RTX 4080 sử dụng AD103, có kích thước 379mm 2 và 45,9 tỷ bóng bán dẫn, không giống như người anh lớn của nó – khuôn nhỏ hơn nhiều (80 SM, bộ đệm L2 64 MB) sẽ mang lại hiệu suất tốt hơn nhiều.

RTX 4070 cũng đang sử dụng AD104 nhỏ hơn và mặc dù Nvidia có rất nhiều GPU khác được lên kế hoạch trên kiến trúc Ada, nhưng hãng đã miễn cưỡng xuất xưởng chúng sớm. Thay vào đó, họ đã đợi hàng tháng trời để các card đồ họa chạy bằng Ampere bán hết hàng.

Với sự cải thiện đáng kể về khả năng tính toán thô mà cả AD102 và 103 mang lại, thật khó hiểu khi có quá ít thẻ chuyên nghiệp của Ada – lĩnh vực này luôn khao khát có thêm sức mạnh xử lý.

Khi nói đến phương tiện & công cụ hiển thị của GPU, chúng thường nhận được phương pháp tiếp thị hậu trường, so với các khía cạnh như tính năng DirectX 12 hoặc số lượng bóng bán dẫn. Tuy nhiên, với việc ngành phát trực tuyến trò chơi tạo ra doanh thu hàng tỷ đô la, chúng tôi bắt đầu thấy nhiều nỗ lực hơn đang được thực hiện để phát triển và quảng bá các tính năng hiển thị mới.

Đối với RDNA 3, AMD đã cập nhật một số thành phần, đáng chú ý nhất là hỗ trợ DisplayPort 2.1 và HDMI 2.1a. Do VESA, tổ chức giám sát thông số kỹ thuật của DisplayPort, chỉ công bố phiên bản 2.1 vào cuối năm 2022, nên việc một nhà cung cấp GPU áp dụng hệ thống nhanh như vậy là một động thái bất thường.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Chế độ truyền DP nhanh nhất mà công cụ hiển thị mới hỗ trợ là UHBR13.5, cho tốc độ truyền 4 làn tối đa là 54 Gbps. Điều này đủ tốt cho độ phân giải 4K, ở tốc độ làm mới 144Hz, không có bất kỳ nén nào, theo thời gian tiêu chuẩn.

Sử dụng DSC (Display Stream Compression), các kết nối DP2.1 cho phép lên tới 4K@480Hz hoặc 8K@165Hz – một cải tiến đáng chú ý so với DP1.4a, như được sử dụng trong RDNA 2.

Kiến trúc Alchemist của Intel có một công cụ hiển thị với đầu ra DP 2.0 (UHBR10, 40 Gbps) và HDMI 2.1, mặc dù không phải tất cả các card đồ họa dòng Arc sử dụng chip này đều có thể sử dụng tối đa khả năng.

Mặc dù ACM-G10 không nhắm mục tiêu chơi game độ phân giải cao, nhưng việc sử dụng các thông số kỹ thuật kết nối màn hình mới nhất có nghĩa là có thể sử dụng các màn hình thể thao điện tử (ví dụ: 1080p, 360Hz) mà không cần nén. Con chip có thể không thể hiển thị tốc độ khung hình cao như vậy trong các loại trò chơi đó, nhưng ít nhất công cụ hiển thị có thể.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Sự hỗ trợ của AMD và Intel đối với các chế độ truyền tải nhanh trong DP và HDMI là thứ mà bạn mong đợi từ các kiến trúc hoàn toàn mới, do đó, hơi phi lý khi Nvidia chọn không làm như vậy với Ada Lovelace.

AD102, đối với tất cả các bóng bán dẫn của nó (gần giống như Navi 31 và ACM-G10 được cộng lại), chỉ có một công cụ hiển thị với đầu ra DP1.4a và HDMI 2.1. Với DSC, cái trước đủ tốt cho 4K @ 144Hz, nhưng khi đối thủ hỗ trợ điều đó mà không cần nén, thì đó rõ ràng là một cơ hội bị bỏ lỡ.

Công cụ truyền thông trong GPU chịu trách nhiệm mã hóa và giải mã luồng video và cả ba nhà cung cấp đều có bộ tính năng đầy đủ trong kiến trúc mới nhất của họ.

Trong RDNA 3, AMD đã thêm mã hóa/giải mã đồng thời, đầy đủ cho định dạng AV1 (nó chỉ được giải mã trong RDNA 2 trước đó). Không có nhiều thông tin về các công cụ truyền thông mới, ngoài việc nó có thể xử lý hai luồng H.264/H.265 cùng lúc và tốc độ tối đa cho AV1 là 8K@60Hz. AMD cũng đã đề cập ngắn gọn về giải mã video ‘AI Enhanced’ nhưng không cung cấp thêm thông tin chi tiết.

Đọc thêm:  Thử nghiệm mini PlayerUnknown's Battlegrounds

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

ACM-G10 của Intel có nhiều khả năng tương tự, mã hóa/giải mã có sẵn cho AV1, H.264 và H.265, nhưng giống như với RDNA 3, rất ít thông tin chi tiết. Một số thử nghiệm ban đầu về chip Alchemist đầu tiên trong cạc đồ họa máy tính để bàn Arc cho thấy rằng công cụ truyền thông kém tốt nhất bằng những công cụ do AMD và Nvidia cung cấp trong kiến trúc trước đây của họ.

Ada Lovelace làm theo với mã hóa và giải mã AV1, và Nvidia tuyên bố rằng hệ thống mới mã hóa hiệu quả hơn 40% so với H.264 – rõ ràng là chất lượng video tốt hơn 40% khi sử dụng định dạng mới hơn.

Các card đồ họa dòng GeForce RTX 40 cao cấp nhất sẽ đi kèm với GPU có hai bộ mã hóa NVENC, cung cấp cho bạn tùy chọn mã hóa 8K HDR ở 60Hz hoặc khả năng xuất video song song được cải thiện, với mỗi bộ mã hóa hoạt động trên nửa khung hình cùng một lúc.

Với nhiều thông tin hơn về các hệ thống, có thể so sánh tốt hơn, nhưng với các công cụ truyền thông vẫn được coi là có mối quan hệ kém với các công cụ kết xuất và tính toán, chúng ta sẽ phải đợi cho đến khi mọi nhà cung cấp có thẻ với kiến trúc mới nhất của họ trên kệ, trước khi chúng ta có thể xem xét các vấn đề hơn nữa.

Đã lâu rồi chúng ta mới có ba nhà cung cấp trên thị trường GPU dành cho máy tính để bàn và rõ ràng là mỗi nhà cung cấp đều có cách tiếp cận riêng để thiết kế bộ xử lý đồ họa, mặc dù Intel và Nvidia có cùng một suy nghĩ.

Đối với họ, Ada và Alchemist là một phần của tất cả các ngành nghề, được sử dụng cho tất cả các loại khối lượng công việc trò chơi, khoa học, phương tiện và dữ liệu. Việc nhấn mạnh nhiều vào tính toán ma trận và tensor trong ACM-G10 và việc miễn cưỡng thiết kế lại hoàn toàn bố cục GPU cho thấy Intel đang nghiêng nhiều hơn về khoa học và dữ liệu, thay vì chơi game, nhưng điều này có thể hiểu được do tiềm năng tăng trưởng trong các lĩnh vực này.

Với ba kiến trúc cuối cùng, Nvidia đã tập trung vào việc cải thiện những gì đã tốt và giảm các nút cổ chai khác nhau trong thiết kế tổng thể, chẳng hạn như băng thông nội bộ và độ trễ. Nhưng trong khi Ada là một cải tiến tự nhiên của Ampere, một chủ đề mà Nvidia đã theo đuổi trong nhiều năm nay, thì AD102 lại nổi bật như một sự kỳ lạ về mặt tiến hóa khi bạn nhìn vào quy mô tuyệt đối của số lượng bóng bán dẫn.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Sự khác biệt so với GA102 không có gì đáng chú ý, nhưng bước nhảy vọt khổng lồ này đặt ra một số câu hỏi. Đầu tiên là, liệu AD103 có phải là lựa chọn tốt hơn để Nvidia sử dụng cho sản phẩm tiêu dùng cao cấp nhất của họ, thay vì AD102?

Như được sử dụng trong RTX 4080, hiệu suất của AD103 là một cải tiến đáng kể so với RTX 3090 và giống như người anh lớn hơn của nó, bộ nhớ đệm L2 64 MB giúp bù đắp chiều rộng bus bộ nhớ toàn cầu 256 bit tương đối hẹp. Và ở 379mm 2 , nó nhỏ hơn GA104 được sử dụng trong GeForce RTX 3070, do đó, việc chế tạo sẽ có lợi hơn nhiều so với AD102. Nó cũng chứa cùng số lượng SM như GA102 và con chip đó cuối cùng đã tìm thấy một ngôi nhà trong 15 sản phẩm khác nhau.

Một câu hỏi khác đáng đặt ra là, Nvidia sẽ đi đâu từ đây về mặt kiến trúc và chế tạo? Liệu họ có thể đạt được mức độ mở rộng quy mô tương tự, trong khi vẫn sử dụng khuôn nguyên khối không?

Các lựa chọn của AMD với RDNA 3 nêu bật một lộ trình tiềm năng để cạnh tranh đi theo. Bằng cách chuyển các bộ phận của khuôn có tỷ lệ kém nhất (trong các nút quy trình mới) thành các bộ ba riêng biệt, AMD đã có thể tiếp tục thành công bước nhảy vọt về thiết kế và chế tạo lớn được thực hiện giữa RDNA và RDNA 2.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Mặc dù không lớn bằng AD102 của Nvidia, nhưng AMD Navi 31 vẫn có 58 tỷ bóng bán dẫn silicon – nhiều hơn gấp đôi so với Navi 21 và hơn 5 lần so với những gì chúng tôi có trong GPU RDNA gốc, Navi 10 (mặc dù đó không phải là không nhằm mục đích trở thành một sản phẩm hào quang).

Những thành tựu của AMD và Nvidia không được thực hiện một cách cô lập. Sự gia tăng lớn như vậy về số lượng bóng bán dẫn GPU chỉ có thể xảy ra do sự cạnh tranh khốc liệt giữa TSMC và Samsung để trở thành nhà sản xuất thiết bị bán dẫn hàng đầu. Cả hai đều hướng tới việc cải thiện mật độ bóng bán dẫn của các mạch logic, đồng thời tiếp tục giảm mức tiêu thụ điện năng. TSMC có lộ trình rõ ràng cho các tinh chỉnh nút hiện tại và các quy trình chính tiếp theo của họ.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Liệu Nvidia có sao chép cuốn sách của AMD và chuyển sang cách bố trí chiplet trong người kế nhiệm Ada hay không vẫn chưa rõ ràng, nhưng một hoặc hai năm sau có lẽ sẽ mang tính quyết định. Nếu RDNA 3 chứng tỏ là một thành công tài chính, có thể là về doanh thu hoặc tổng số đơn vị được xuất xưởng, thì có khả năng rõ ràng là Nvidia sẽ làm theo.

Tuy nhiên, con chip đầu tiên sử dụng kiến trúc Ampere lại là GA100 – GPU trung tâm dữ liệu, kích thước 829mm 2 và có 54,2 tỷ bóng bán dẫn. Nó được chế tạo bởi TSMC, sử dụng nút N7 của họ (giống như RDNA và hầu hết dòng sản phẩm RDNA 2). Việc sử dụng N4, để tạo ra AD102, cho phép Nvidia thiết kế một GPU với mật độ bóng bán dẫn gần như gấp đôi so với người tiền nhiệm của nó.

GPU tiếp tục là một trong những kỳ công kỹ thuật đáng chú ý nhất từng thấy trên máy tính để bàn.

Điều này có thể đạt được khi sử dụng N2 cho kiến trúc tiếp theo không? Có thể, nhưng sự tăng trưởng lớn về bộ nhớ đệm (tỷ lệ rất kém) cho thấy rằng ngay cả khi TSMC đạt được một số con số đáng chú ý với các nút trong tương lai của họ, thì việc kiểm soát kích thước GPU sẽ ngày càng khó khăn hơn.

Intel đã sử dụng chiplet, nhưng chỉ với GPU trung tâm dữ liệu Ponte Vecchio khổng lồ của họ. Bao gồm 47 ô khác nhau, một số do TSMC chế tạo và một số khác do chính Intel chế tạo, các thông số của nó quá cao một cách phù hợp. Ví dụ: với hơn 100 tỷ bóng bán dẫn cho cấu hình GPU kép, đầy đủ, nó làm cho Navi 31 của AMD trông mảnh dẻ. Tất nhiên, nó không dành cho bất kỳ loại máy tính để bàn nào cũng như không nói đúng ra là “chỉ” GPU – đây là bộ xử lý trung tâm dữ liệu, tập trung vào khối lượng công việc ma trận và tensor.

svg+xml,%3Csvg%20xmlns= Tìm hiểu sâu về kiến trúc GPU: Nvidia Ada Lovelace, AMD RDNA 3 và Intel Arc Alchemist

Với kiến trúc Xe-HPG được nhắm mục tiêu cho ít nhất hai bản sửa đổi nữa trước khi chuyển sang “Xe Next”, chúng ta có thể thấy rõ việc sử dụng xếp lớp trong cạc đồ họa tiêu dùng của Intel.

Tuy nhiên, hiện tại, chúng ta sẽ có Ada và Alchemist sử dụng khuôn nguyên khối truyền thống, trong khi AMD sử dụng hỗn hợp các hệ thống chiplet cho thẻ cao cấp và trung cấp, và khuôn đơn cho SKU ngân sách của họ.

Vào cuối thập kỷ này, chúng ta có thể thấy hầu hết tất cả các loại bộ xử lý đồ họa, được xây dựng từ sự lựa chọn các khối xếp và bộ ba khác nhau, tất cả đều được tạo ra bằng cách sử dụng các nút quy trình khác nhau. GPU tiếp tục là một trong những kỳ tích kỹ thuật đáng chú ý nhất được thấy trong máy tính để bàn – số lượng bóng bán dẫn không có dấu hiệu giảm tốc độ tăng trưởng và khả năng tính toán của một card đồ họa trung bình ngày nay chỉ có thể được mơ ước khoảng 10 năm trước.

Chúng tôi nói, hãy mang đến trận chiến kiến trúc 3 chiều tiếp theo!