Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Đối với những người đam mê GPU, đã phải chờ đợi rất lâu. Nvidia đã duy trì dòng Turing trong hai năm trước khi thay thế nó bằng Ampere vào tháng 9 năm 2020. AMD tử tế hơn một chút, để lại khoảng cách 15 tháng giữa các thiết kế mới của họ, nhưng hầu hết mọi người không quan tâm đến điều đó.

Những gì họ muốn thấy là AMD tung ra một mô hình cao cấp nhất để cạnh tranh trực tiếp với những gì tốt nhất từ Nvidia. Họ đã làm điều đó và bây giờ chúng ta đã thấy kết quả, các game thủ PC giờ đây tha hồ lựa chọn (ít nhất là về mặt lý thuyết), khi chi tiêu đô la của họ cho các card đồ họa hoạt động tốt nhất.

Nhưng còn những con chip cung cấp năng lượng cho chúng thì sao? Là một trong số họ về cơ bản tốt hơn so với khác?
Đọc tiếp để xem Ampere và RDNA 2 chiến đấu với nó như thế nào!

GPU cao cấp đã lớn hơn đáng kể so với CPU trong một số năm và chúng đang tăng dần về kích thước. Sản phẩm mới nhất của AMD có diện tích khoảng 520 mm 2 , hơn gấp đôi kích thước của chip Navi trước đây của họ. Tuy nhiên, đây không phải là chiếc lớn nhất của họ – vinh dự đó thuộc về GPU trong bộ tăng tốc Instinct MI100 mới của họ, vào khoảng 750 mm 2 .

Lần cuối cùng AMD sản xuất bộ xử lý chơi game có kích thước gần bằng Navi 21 là dành cho thẻ Radeon R9 Fury và Nano, sử dụng kiến trúc GCN 3.0 trong chip Fiji. Nó có diện tích khuôn là 596 mm 2 , nhưng nó được sản xuất trên nút quy trình 28HP của TSMC.

AMD đã sử dụng quy trình N7 nhỏ hơn nhiều của TSMC kể từ năm 2018 và con chip lớn nhất từ dây chuyền sản xuất đó là Vega 20 (như trong Radeon VII), với diện tích 331 mm 2 . Tất cả các GPU Navi của họ đều được tạo trên phiên bản cập nhật một chút của quy trình đó, được gọi là N7P, vì vậy cần so sánh các sản phẩm này.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Nhưng khi nói đến kích thước khuôn tuyệt đối, Nvidia chiếm ngôi vương, không phải điều này nhất thiết phải là một điều tốt. Chip dựa trên Ampere mới nhất, GA102, có kích thước 628 mm 2 . Nó thực sự nhỏ hơn khoảng 17% so với người tiền nhiệm của nó, TU102 – GPU đó có diện tích khuôn 754 mm 2 đáng kinh ngạc.

Cả hai đều có kích thước nhạt nhòa khi so sánh với con chip GA100 khổng lồ của Nvidia – được sử dụng trong AI & trung tâm dữ liệu, GPU này là 826 mm 2 và là chip TSMC N7. Mặc dù chưa bao giờ được thiết kế để cung cấp năng lượng cho card đồ họa máy tính để bàn, nhưng nó cho thấy quy mô sản xuất GPU có thể thực hiện được.

Đặt tất cả chúng cạnh nhau làm nổi bật GPU lớn nhất của Nvidia cồng kềnh như thế nào. Navi 21 trông khá mảnh dẻ, mặc dù có nhiều thứ liên quan đến bộ xử lý hơn là chỉ khu vực chết. GA102 đang đóng gói khoảng 28,3 tỷ bóng bán dẫn, trong khi chip mới của AMD có ít hơn 5%, ở mức 26,8 tỷ.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Những gì chúng ta không biết là mỗi GPU được xây dựng từ bao nhiêu lớp, vì vậy tất cả những gì chúng ta có thể so sánh là tỷ lệ bóng bán dẫn trên diện tích khuôn, thường được gọi là mật độ khuôn . Navi 21 có khoảng 51,5 triệu bóng bán dẫn trên mỗi mm vuông, nhưng GA102 thấp hơn đáng kể ở mức 41,1 – có thể chip của Nvidia cao hơn một chút so với của AMD, nhưng nhiều khả năng đó là dấu hiệu của nút xử lý.

Như đã đề cập, Navi 21 được sản xuất bởi TSMC, sử dụng phương pháp sản xuất N7P của họ, giúp tăng hiệu suất một chút so với N7; nhưng đối với sản phẩm mới của họ, GA102, Nvidia đã chuyển sang Samsung để đảm nhận nhiệm vụ sản xuất. Gã khổng lồ bán dẫn Hàn Quốc đang sử dụng một phiên bản tinh chỉnh, dành riêng cho Nvidia, của cái gọi là nút 8 nm (được gọi là 8N hoặc 8NN) của họ.

Các giá trị nút này, 7 và 8, ít liên quan đến kích thước thực tế của các thành phần với chip: chúng chỉ đơn giản là các thuật ngữ tiếp thị, được sử dụng để phân biệt giữa các kỹ thuật sản xuất khác nhau. Điều đó nói rằng, ngay cả khi GA102 có nhiều lớp hơn Navi 21, kích thước khuôn vẫn có một tác động cụ thể.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Bộ vi xử lý và các con chip khác được chế tạo từ các đĩa lớn, hình tròn bằng silicon tinh chế cao và các vật liệu khác, được gọi là tấm bán dẫn . TSMC và Samsung sử dụng tấm bán dẫn 300 mm cho AMD và Nvidia, và mỗi đĩa sẽ tạo ra nhiều chip hơn bằng cách sử dụng khuôn nhỏ hơn so với khuôn lớn hơn.

Sự khác biệt dường như không lớn, nhưng khi mỗi tấm wafer tiêu tốn hàng ngàn đô la để sản xuất, AMD có một lợi thế nhỏ so với Nvidia, khi nói đến việc giảm chi phí sản xuất. Tất nhiên, đó là giả định rằng Samsung hoặc TSMC không thực hiện một số thỏa thuận tài chính nào đó với AMD/Nvidia.

Tất cả những trò tai quái về kích thước khuôn và số lượng bóng bán dẫn này sẽ là vô ích, nếu bản thân các con chip không làm tốt những gì chúng được thiết kế để làm. Vì vậy, hãy tìm hiểu sâu về bố cục của từng GPU mới và xem bên dưới lớp vỏ bọc của chúng có gì.

Chúng tôi bắt đầu khám phá kiến trúc bằng cách xem xét cấu trúc tổng thể của GPU Ampere GA102 và RDNA 2 Navi 21 – những sơ đồ này không nhất thiết cho chúng ta thấy mọi thứ được bố trí vật lý như thế nào, nhưng chúng cho biết rõ ràng có bao nhiêu các thành phần mà bộ vi xử lý có.

Trong cả hai trường hợp, bố cục đều rất quen thuộc, vì về cơ bản chúng là phiên bản mở rộng của người tiền nhiệm. Việc thêm nhiều đơn vị hơn để xử lý các lệnh sẽ luôn tăng hiệu suất của GPU, bởi vì ở độ phân giải cao trong các bộ phim bom tấn 3D mới nhất, khối lượng công việc kết xuất liên quan đến một số lượng lớn các phép tính song song.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Các sơ đồ như vậy rất hữu ích, nhưng đối với phân tích cụ thể này, thực sự thú vị hơn khi xem xét vị trí của các thành phần khác nhau trong GPU tự chết. Khi thiết kế bộ xử lý quy mô lớn, bạn thường muốn các tài nguyên được chia sẻ, chẳng hạn như bộ điều khiển và bộ đệm ở vị trí trung tâm, để đảm bảo mọi thành phần đều có cùng một đường dẫn đến chúng.

Các hệ thống giao diện, chẳng hạn như bộ điều khiển bộ nhớ cục bộ hoặc đầu ra video, nên nằm trên các cạnh của chip để giúp kết nối chúng dễ dàng hơn với hàng nghìn dây riêng lẻ liên kết GPU với phần còn lại của cạc đồ họa.

Dưới đây là hình ảnh sai màu của khuôn Navi 21 của AMD và khuôn GA102 của Nvidia. Cả hai đều đã được chạy qua một số xử lý hình ảnh để làm sạch hình ảnh và cả hai đều thực sự chỉ hiển thị một lớp bên trong chip; nhưng chúng cho chúng ta cái nhìn tuyệt vời về các bộ phận bên trong của GPU hiện đại.

Đọc thêm:  Đã thử nghiệm GeForce GTX 1660: 33 Game Benchmark feat. Sư đoàn 2

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Sự khác biệt rõ ràng nhất giữa các thiết kế là Nvidia đã không tuân theo cách tiếp cận tập trung đối với cách bố trí chip – tất cả bộ điều khiển hệ thống và bộ đệm chính đều ở dưới cùng, với các đơn vị logic chạy trong các cột dài. Trước đây họ đã làm điều này, nhưng chỉ với các mẫu trung cấp/cấp thấp.

Ví dụ: Pascal GP106 (được sử dụng tương tự như GeForce GTX 1060) theo đúng nghĩa đen là một nửa GP104 (từ GeForce GTX 1070). Cái sau là con chip lớn hơn, có bộ đệm và bộ điều khiển ở giữa; những thứ này đã di chuyển sang một bên trong người anh em của nó, nhưng chỉ vì thiết kế đã bị tách ra.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Đối với tất cả các bố cục GPU hàng đầu trước đây của họ, Nvidia đã sử dụng một tổ chức tập trung cổ điển. Vậy tại sao lại có sự thay đổi ở đây? Không thể vì lý do giao diện, vì bộ điều khiển bộ nhớ và hệ thống PCI Express đều chạy xung quanh mép khuôn.

Nó cũng sẽ không phải vì lý do nhiệt, bởi vì ngay cả khi phần bộ đệm/bộ điều khiển của khuôn chạy nóng hơn phần logic, bạn vẫn muốn nó ở giữa có nhiều silicon hơn xung quanh để giúp hấp thụ và tản nhiệt. . Mặc dù chúng tôi không hoàn toàn chắc chắn về lý do của sự thay đổi này, nhưng chúng tôi nghi ngờ rằng đó là do những thay đổi mà Nvidia đã thực hiện với các đơn vị ROP ( kết xuất đầu ra ) trong chip.

Chúng ta sẽ xem xét những điều đó chi tiết hơn sau, nhưng bây giờ, hãy chỉ nói rằng mặc dù thay đổi về bố cục có vẻ kỳ lạ nhưng nó sẽ không tạo ra sự khác biệt đáng kể đối với hiệu suất. Điều này là do kết xuất 3D có nhiều độ trễ dài, thường là do phải chờ dữ liệu. Vì vậy, các nano giây bổ sung được thêm vào bằng cách có một số đơn vị logic ở xa bộ đệm hơn các đơn vị khác, tất cả đều bị ẩn trong sơ đồ tổng thể của mọi thứ.

Trước khi chúng tôi tiếp tục, cần lưu ý về những thay đổi kỹ thuật mà AMD đã triển khai trong bố cục Navi 21, so với Navi 10 cung cấp năng lượng cho Radeon RX 5700 XT. Mặc dù chip mới có kích thước gấp đôi, cả về diện tích và số lượng bóng bán dẫn, so với chip trước đó, nhưng các nhà thiết kế cũng đã cố gắng cải thiện tốc độ xung nhịp mà không làm tăng đáng kể mức tiêu thụ điện năng.

Ví dụ: Radeon RX 6800 XT có xung nhịp cơ bản và xung nhịp tăng cường lần lượt là 1825 và 2250 MHz, cho TDP là 300 W; các chỉ số tương tự cho Radeon RX 5700 XT là 1605 MHz, 1905 MHz và 225 W. Nvidia cũng tăng tốc độ xung nhịp với Ampere, nhưng một số trong số đó có thể là do sử dụng nút quy trình nhỏ hơn và hiệu quả hơn.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Kiểm tra hiệu suất trên mỗi watt của chúng tôi đối với thẻ Ampere và RDNA 2 cho thấy cả hai nhà cung cấp đã có những cải tiến đáng kể trong lĩnh vực này, nhưng AMD và TSMC đã đạt được một điều khá đáng chú ý – so sánh sự khác biệt giữa Radeon RX 6800 và Radeon VII trong biểu đồ bên trên.

Cái sau là lần hợp tác GPU đầu tiên của họ sử dụng nút N7 và trong khoảng thời gian chưa đầy hai năm, họ đã tăng hiệu suất trên mỗi watt lên 64%. Nó đặt ra câu hỏi là Ampere GA102 có thể tốt hơn đến mức nào nếu Nvidia ở lại với TSMC để thực hiện nhiệm vụ sản xuất của họ.

Khi nói đến việc xử lý các hướng dẫn và quản lý truyền dữ liệu, cả Ampere và RDNA 2 đều tuân theo một mô hình tương tự như cách mọi thứ được tổ chức bên trong chip. Các nhà phát triển trò chơi viết mã tiêu đề của họ bằng API đồ họa để tạo tất cả các hình ảnh; nó có thể là Direct3D, OpenGL hoặc Vulkan. Về cơ bản, đây là những thư viện phần mềm, chứa đầy ‘sách’ về các quy tắc, cấu trúc và hướng dẫn đơn giản hóa.

Trình điều khiển mà AMD và Nvidia tạo cho chip của họ về cơ bản hoạt động như một trình dịch: chuyển đổi các quy trình được đưa ra thông qua API thành một chuỗi hoạt động mà GPU có thể hiểu được. Sau đó, việc quản lý mọi thứ hoàn toàn thuộc về phần cứng, liên quan đến hướng dẫn nào được thực hiện trước, phần nào của chip thực hiện chúng, v.v.

Giai đoạn quản lý hướng dẫn ban đầu này được xử lý bởi một tập hợp các đơn vị, tập trung hợp lý trong chip. Trong RDNA 2, các shader đồ họa và tính toán được định tuyến thông qua các đường ống riêng biệt, lên lịch trình và gửi các hướng dẫn đến phần còn lại của chip; cái trước được gọi là Bộ xử lý lệnh đồ họa , cái sau là Công cụ tính toán không đồng bộ (viết tắt là ACE).

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Nvidia chỉ sử dụng một tên để mô tả tập hợp các đơn vị quản lý của họ, GigaThread Engine và trong Ampere, nó thực hiện nhiệm vụ tương tự như với RDNA 2, mặc dù Nvidia không nói quá nhiều về cách nó thực sự quản lý mọi thứ. Nhìn chung, các bộ xử lý lệnh này hoạt động giống như một người quản lý sản xuất của một nhà máy.

GPU đạt được hiệu suất từ việc thực hiện mọi thứ song song, vì vậy cấp độ tổ chức tiếp theo được nhân đôi trên chip. Gắn bó với sự tương tự của nhà máy, những điều này sẽ giống như một doanh nghiệp có văn phòng trung tâm, nhưng có nhiều địa điểm để sản xuất hàng hóa.

AMD sử dụng nhãn Shader Engine (SE), trong khi Nvidia gọi cụm xử lý đồ họa (GPC) của họ – các tên khác nhau, cùng vai trò.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Lý do cho việc phân vùng chip này rất đơn giản: các đơn vị xử lý lệnh không thể xử lý mọi thứ, vì nó sẽ trở nên quá lớn và phức tạp. Vì vậy, thật hợp lý khi đẩy một số nhiệm vụ lập kế hoạch và tổ chức xuống xa hơn. Điều đó cũng có nghĩa là mỗi phân vùng tách biệt có thể làm một việc gì đó hoàn toàn độc lập với các phân vùng khác – do đó, một phân vùng có thể xử lý một loạt các trình tạo bóng đồ họa, trong khi các phân vùng khác đang xử lý các trình tạo bóng điện toán dài và phức tạp.

Trong trường hợp của RDNA 2, mỗi SE chứa một tập hợp các đơn vị chức năng cố định của riêng nó : các mạch được thiết kế để thực hiện một nhiệm vụ cụ thể, thường không thể được điều chỉnh nhiều bởi một lập trình viên.

Đơn vị thiết lập nguyên thủy chạy với tốc độ 1 tam giác trên mỗi chu kỳ đồng hồ. Điều này nghe có vẻ không giống lắm nhưng đừng quên rằng những con chip này đang chạy ở bất kỳ xung nhịp nào trong khoảng từ 1,8 đến 2,2 GHz, vì vậy thiết lập nguyên thủy không bao giờ là nút cổ chai đối với GPU. Đối với Ampere, đơn vị nguyên thủy được tìm thấy ở cấp tổ chức tiếp theo và chúng tôi sẽ sớm đề cập đến vấn đề đó.

Đọc thêm:  Đánh giá SSD OCZ Vertex 3 240GB

Cả AMD và Nvidia đều không nói quá nhiều về bộ tạo raster của họ. Cái sau gọi chúng là Công cụ Raster , chúng tôi biết rằng chúng xử lý 1 hình tam giác trên mỗi chu kỳ đồng hồ và tạo ra một số pixel, nhưng không có thêm thông tin nào để xử lý, chẳng hạn như độ chính xác của pixel phụ của chúng chẳng hạn.

Mỗi SE trong chip Navi 21 có 4 dãy 8 ROP, dẫn đến tổng cộng 128 đơn vị kết xuất đầu ra; GA102 của Nvidia gói 2 ngân hàng 8 ROP trên mỗi GPC, do đó, toàn bộ chip có 112 đơn vị. Điều này có vẻ như AMD có lợi thế ở đây, bởi vì nhiều ROP hơn có nghĩa là có thể xử lý nhiều pixel hơn trên mỗi xung nhịp. Nhưng những đơn vị như vậy cần truy cập tốt vào bộ đệm và bộ nhớ cục bộ, và chúng tôi sẽ nói thêm về điều đó ở phần sau của bài viết này. Bây giờ, chúng ta hãy tiếp tục xem các phân vùng SE/GPC được phân chia như thế nào.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Công cụ Shader của AMD được phân vùng phụ theo cái mà họ gọi là Đơn vị tính toán kép (DCU), với chip Navi 21 cung cấp mười DCU trên mỗi SE – lưu ý rằng trong một số tài liệu, chúng cũng được phân loại là Bộ xử lý nhóm làm việc (WGP). Trong trường hợp của Ampere và GA102, chúng được gọi là Cụm xử lý kết cấu (TPC), với mỗi GPU chứa 6 TPC. Mỗi cụm trong thiết kế của Nvidia đều chứa một thứ gọi là Công cụ đa hình – về cơ bản, các đơn vị thiết lập nguyên thủy của Ampere.

Chúng cũng chạy với tốc độ 1 tam giác trên mỗi xung nhịp và mặc dù GPU của Nvidia có xung nhịp thấp hơn của AMD, nhưng chúng có nhiều TPC hơn nhiều so với Navi 21 SE có. Vì vậy, với cùng tốc độ xung nhịp, GA102 sẽ có một lợi thế đáng chú ý vì chip hoàn chỉnh chứa 42 đơn vị thiết lập nguyên thủy, trong khi RDNA 2 mới của AMD chỉ có 4. Nhưng vì có sáu TPC trên mỗi Công cụ Raster, GA102 thực sự có 7 nguyên mẫu hoàn chỉnh. hệ thống, đến bốn của Navi 21. Vì cái sau không có xung nhịp cao hơn 75% so với cái trước, nên có vẻ như Nvidia dẫn đầu rõ ràng ở đây, khi nói đến xử lý hình học (mặc dù không có trò chơi nào có khả năng bị giới hạn trong lĩnh vực này).

Tầng cuối cùng trong tổ chức của chip là Đơn vị điện toán (CU) trong RDNA 2 và Bộ đa xử lý truyền trực tuyến (SM) trong Ampere – dây chuyền sản xuất của các nhà máy GPU của chúng tôi.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Đây gần như là thịt và rau trong chiếc bánh GPU, vì chúng chứa tất cả các đơn vị có khả năng lập trình cao được sử dụng để xử lý đồ họa, tính toán và giờ đây là bộ tạo bóng theo dõi tia. Như bạn có thể thấy trong hình trên, mỗi cái chiếm một phần rất nhỏ trong không gian khuôn tổng thể, nhưng chúng vẫn cực kỳ phức tạp và rất quan trọng đối với hiệu suất tổng thể của chip.

Cho đến nay, chưa có bất kỳ vấn đề nghiêm trọng nào xảy ra khi nói đến cách mọi thứ được sắp xếp và tổ chức trong hai GPU – danh pháp hoàn toàn khác nhau, nhưng chức năng của chúng gần như giống nhau. Và bởi vì phần lớn những gì chúng làm bị giới hạn bởi khả năng lập trình và tính linh hoạt, nên bất kỳ lợi thế nào của cái này so với cái kia, chỉ phụ thuộc vào cảm giác về quy mô, tức là cái nào có nhiều thứ cụ thể nhất.

Nhưng với CU và SM, AMD và Nvidia có những cách tiếp cận khác nhau đối với cách họ xử lý các shader. Ở một số lĩnh vực, họ có nhiều điểm chung, nhưng có rất nhiều điểm khác không phải như vậy.

Vì Ampere đã mạo hiểm vào thế giới hoang dã trước RDNA 2, nên trước tiên chúng ta sẽ xem xét các SM của Nvidia. Bây giờ không ích gì khi nhìn vào hình ảnh của khuôn, vì chúng không thể cho chúng ta biết chính xác những gì bên trong chúng, vì vậy hãy sử dụng sơ đồ tổ chức. Chúng không được coi là đại diện cho cách các thành phần khác nhau được sắp xếp vật lý trong chip, mà chỉ là có bao nhiêu loại trong mỗi loại.

Trong đó Turing là một thay đổi đáng kể so với người tiền nhiệm Pascal trên máy tính để bàn của nó (mất đi một loạt các đơn vị và thanh ghi FP64, nhưng có được các lõi tensor và dò tia), Ampere thực sự là một bản cập nhật khá nhẹ – ít nhất là về mệnh giá. Tuy nhiên, đối với bộ phận tiếp thị của Nvidia, thiết kế mới đã tăng hơn gấp đôi số lượng lõi CUDA trong mỗi SM.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Trong Turing, Bộ đa xử lý phát trực tuyến chứa bốn phân vùng (đôi khi được gọi là khối xử lý), trong đó mỗi ngôi nhà chứa 16x INT32 và 16x đơn vị logic FP32. Các mạch này được thiết kế để thực hiện các phép toán rất cụ thể trên các giá trị dữ liệu 32 bit: các đơn vị INT xử lý các số nguyên và các đơn vị FP xử lý các số dấu phẩy động, tức là số thập phân.

Nvidia tuyên bố rằng một Ampere SM có tổng cộng 128 lõi CUDA, nhưng nói đúng ra, điều này không đúng – hoặc nếu chúng ta phải tuân theo con số này, thì Turing cũng vậy. Các đơn vị INT32 trong con chip đó thực sự có thể xử lý các giá trị float, nhưng chỉ trong một số lượng rất nhỏ các thao tác đơn giản. Đối với Ampere, Nvidia đã mở rộng phạm vi hoạt động toán học dấu phẩy động mà họ hỗ trợ để phù hợp với các đơn vị FP32 khác. Điều đó có nghĩa là tổng số lõi CUDA trên mỗi SM không thực sự thay đổi; chỉ là một nửa trong số họ hiện có nhiều khả năng hơn.

Tất cả các lõi trong mỗi phân vùng SM xử lý cùng một lệnh tại bất kỳ thời điểm nào, nhưng vì các đơn vị INT/FP có thể hoạt động độc lập nên Ampere SM có thể xử lý tới 128 lần tính toán FP32 mỗi chu kỳ hoặc 64 lần FP32 và 64 lần hoạt động INT32 cùng nhau. Ở Turing, nó chỉ là cái sau.

Vì vậy, GPU mới có khả năng tăng gấp đôi sản lượng FP32 so với người tiền nhiệm của nó. Đối với khối lượng công việc tính toán, đặc biệt là trong các ứng dụng chuyên nghiệp, đây là một bước tiến lớn; nhưng đối với trò chơi, lợi ích sẽ ít hơn nhiều. Điều này thể hiện rõ ràng khi lần đầu tiên chúng tôi thử nghiệm GeForce RTX 3080, sử dụng chip GA102 với 68 SM được kích hoạt.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Mặc dù có thông lượng FP32 cao nhất 121% so với GeForce 2080 Ti, nó chỉ tăng trung bình 31% tốc độ khung hình. Vậy tại sao tất cả sức mạnh tính toán đó sẽ bị lãng phí? Câu trả lời đơn giản là không, nhưng trò chơi không phải lúc nào cũng chạy hướng dẫn FP32.

Khi Nvidia phát hành Turing vào năm 2018, họ đã chỉ ra rằng trung bình khoảng 36% lệnh được GPU xử lý liên quan đến các quy trình INT32. Các phép tính này thường được chạy để tính toán các địa chỉ bộ nhớ, so sánh giữa hai giá trị và luồng logic/điều khiển.

Đọc thêm:  Chromebook tốt nhất

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Vì vậy, đối với các hoạt động đó, tính năng FP32 tốc độ kép không hoạt động, vì các thiết bị có hai đường dẫn dữ liệu chỉ có thể thực hiện số nguyên hoặc dấu phẩy động. Và một phân vùng SM sẽ chỉ chuyển sang chế độ này nếu tất cả 32 luồng, đang được xử lý bởi nó vào thời điểm đó, có cùng thao tác FP32 được xếp hàng để được xử lý. Trong tất cả các trường hợp khác, các phân vùng trong Ampere hoạt động giống như trong Turing.

Điều này có nghĩa là GeForce RTX 3080 chỉ có lợi thế 11% FP32 so với 2080 Ti, khi hoạt động ở chế độ INT+FP. Đây là lý do tại sao mức tăng hiệu suất thực tế được thấy trong các trò chơi không cao như số liệu thô cho thấy.

Những cải tiến khác? Có ít Lõi Tensor hơn trên mỗi phân vùng SM, nhưng mỗi lõi đều có nhiều khả năng hơn so với lõi trong Turing. Các mạch này thực hiện một phép tính rất cụ thể (chẳng hạn như nhân hai giá trị FP16 và tích lũy câu trả lời với một số FP16 khác) và mỗi lõi hiện thực hiện 32 phép toán trong số này trên mỗi chu kỳ.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Họ cũng hỗ trợ một tính năng mới gọi là Độ thưa thớt có cấu trúc hạt mịn và không đi sâu vào chi tiết của tất cả, về cơ bản, nó có nghĩa là tỷ lệ toán học có thể tăng gấp đôi, bằng cách loại bỏ dữ liệu không ảnh hưởng đến câu trả lời. Một lần nữa, đây là tin tốt cho các chuyên gia làm việc với mạng thần kinh và AI, nhưng hiện tại, không có lợi ích đáng kể nào cho các nhà phát triển trò chơi.

Các lõi dò tia cũng đã được điều chỉnh: giờ đây chúng có thể hoạt động độc lập với các lõi CUDA, vì vậy, trong khi chúng đang thực hiện phép toán truyền tải BVH hoặc phép toán giao cắt tia nguyên thủy, phần còn lại của SM vẫn có thể xử lý các bộ đổ bóng. Phần của Lõi RT xử lý việc kiểm tra xem một tia có giao nhau với một tia nguyên thủy hay không cũng đã tăng gấp đôi hiệu suất.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

RT Cores cũng có phần cứng bổ sung để giúp áp dụng phương pháp dò tia cho chuyển động mờ, nhưng tính năng này hiện chỉ được hiển thị thông qua API Optix độc quyền của Nvidia.

Có những điều chỉnh khác, nhưng cách tiếp cận tổng thể là một trong những sự phát triển hợp lý nhưng ổn định, chứ không phải là một thiết kế mới quan trọng. Nhưng do không có gì đặc biệt sai với khả năng thô của Turing ngay từ đầu, không có gì ngạc nhiên khi thấy điều này.

Vậy còn AMD – họ đã làm gì với Đơn vị Điện toán trong RDNA 2?

Về mặt giá trị, AMD đã không thay đổi nhiều về Đơn vị tính toán – chúng vẫn chứa hai bộ đơn vị vectơ SIMD32, đơn vị vô hướng SISD, đơn vị kết cấu và một chồng các bộ đệm khác nhau. Đã có một số thay đổi liên quan đến loại dữ liệu và phép toán liên quan mà chúng có thể thực hiện và chúng tôi sẽ nói thêm về những thay đổi đó trong giây lát. Thay đổi đáng chú ý nhất đối với người tiêu dùng phổ thông là AMD hiện cung cấp khả năng tăng tốc phần cứng cho các quy trình cụ thể trong tính năng dò tia.

Phần này của CU thực hiện kiểm tra giao điểm hộp tia hoặc tia tam giác – giống như Lõi RT trong Ampere. Tuy nhiên, cái sau cũng tăng tốc các thuật toán truyền tải BVH, trong khi ở RDNA 2, điều này được thực hiện thông qua các trình đổ bóng điện toán bằng cách sử dụng các đơn vị SIMD 32.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Cho dù một người có bao nhiêu lõi shader hay tốc độ xung nhịp của chúng cao đến đâu, thì việc sử dụng các mạch tùy chỉnh được thiết kế để thực hiện một công việc sẽ luôn tốt hơn so với cách tiếp cận tổng quát. Đây là lý do tại sao GPU được phát minh ngay từ đầu: mọi thứ trong thế giới kết xuất có thể được thực hiện bằng CPU, nhưng bản chất chung của chúng khiến chúng không phù hợp với việc này.

Các đơn vị RA nằm cạnh bộ xử lý kết cấu, bởi vì chúng thực sự là một phần của cùng một cấu trúc. Trở lại vào tháng 7 năm 2019, chúng tôi đã báo cáo về sự xuất hiện của một bằng sáng chế do AMD đệ trình, trong đó mô tả chi tiết cách sử dụng phương pháp ‘kết hợp’ để xử lý các thuật toán chính trong dò tia…

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Mặc dù hệ thống này mang lại tính linh hoạt cao hơn và loại bỏ nhu cầu có các phần của khuôn không làm gì khi có khối lượng công việc dò tia, nhưng triển khai đầu tiên của AMD về điều này có một số nhược điểm. Đáng chú ý nhất trong số đó là bộ xử lý kết cấu chỉ có thể xử lý các hoạt động liên quan đến kết cấu hoặc giao điểm nguyên thủy của tia tại một thời điểm.

Cho rằng các Lõi RT của Nvidia hiện hoạt động hoàn toàn độc lập với phần còn lại của SM, điều này dường như mang lại cho Ampere một vị trí dẫn đầu khác biệt, so với RNDA 2, khi nói đến việc mài giũa các cấu trúc gia tốc và kiểm tra giao điểm cần thiết trong dò tia.

Mặc dù chúng tôi chỉ kiểm tra sơ qua hiệu suất dò tia trong cạc đồ họa mới nhất của AMD, nhưng cho đến nay chúng tôi nhận thấy rằng tác động của việc sử dụng dò tia phụ thuộc rất nhiều vào trò chơi đang được chơi.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Ví dụ: trong Gears 5, Radeon RX 6800 (sử dụng biến thể 60 CU của GPU Navi 21) chỉ đạt tốc độ khung hình 17%, trong khi trong Shadow of the Tomb Raider, tỷ lệ này tăng lên mức trung bình là 52%. . Để so sánh, RTX 3080 của Nvidia (sử dụng 68 SM GA102) bị giảm tốc độ khung hình trung bình lần lượt là 23% và 40% trong hai trò chơi.

Cần có một phân tích chi tiết hơn về dò tia để nói thêm bất cứ điều gì về việc triển khai của AMD, nhưng là lần lặp lại đầu tiên của công nghệ, nó có vẻ cạnh tranh nhưng nhạy cảm với ứng dụng nào đang thực hiện dò tia.

Như đã đề cập trước đây, Đơn vị Điện toán trong RDNA 2 hiện hỗ trợ nhiều loại dữ liệu hơn; các tạp chất đáng chú ý nhất là các loại dữ liệu có độ chính xác thấp như INT4 và INT8. Chúng được sử dụng cho các hoạt động tensor trong thuật toán học máy và trong khi AMD có kiến trúc riêng (CDNA) cho AI và trung tâm dữ liệu, bản cập nhật này được sử dụng với DirectML.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

API này là một bổ sung gần đây cho dòng DirectX 12 của Microsoft và sự kết hợp giữa phần cứng và phần mềm sẽ cung cấp khả năng tăng tốc tốt hơn để khử nhiễu trong các thuật toán dò tia và nâng cấp theo thời gian. Trong trường hợp thứ hai, Nvidia có cái riêng của họ, tất nhiên, được gọi là DLSS. Hệ thống của họ sử dụng Lõi Tensor trong SM để thực hiện một phần tính toán, nhưng do quy trình tương tự có thể được xây dựng thông qua DirectML nên có vẻ như các đơn vị này hơi dư thừa. Tuy nhiên, trong cả Turing và Ampere, Tensor Cores cũng xử lý tất cả các hoạt động toán học liên quan đến định dạng dữ liệu FP16.

Đọc thêm:  Đánh giá Lenovo Yoga 13

Với RDNA 2, các tính toán như vậy được thực hiện bằng cách sử dụng các đơn vị đổ bóng, sử dụng các định dạng dữ liệu được đóng gói, tức là mỗi thanh ghi vectơ 32 bit chứa hai thanh ghi 16 bit. Vì vậy, đó là cách tiếp cận tốt hơn? AMD gắn nhãn các đơn vị SIMD32 của họ là bộ xử lý véc tơ, vì chúng đưa ra một lệnh cho nhiều giá trị dữ liệu.

Mỗi đơn vị vectơ chứa 32 Bộ xử lý luồng và vì mỗi bộ xử lý trong số này chỉ hoạt động trên một phần dữ liệu duy nhất, bản thân các hoạt động thực tế là vô hướng. Điều này về cơ bản giống như một phân vùng SM trong Ampere, trong đó mỗi khối xử lý cũng mang một lệnh trên 32 giá trị dữ liệu.

Nhưng trong trường hợp toàn bộ SM trong thiết kế của Nvidia có thể xử lý tới 128 phép tính FMA FP32 mỗi chu kỳ ( hợp nhất nhân-cộng ), một Đơn vị tính toán RDNA 2 duy nhất chỉ thực hiện được 64. Việc sử dụng FP16 sẽ nâng mức này lên 128 FMA mỗi chu kỳ, tương đương với Lõi Tensor của Ampere khi thực hiện phép toán FP16 tiêu chuẩn.

SM của Nvidia có thể xử lý các hướng dẫn để xử lý các giá trị số nguyên và số thực cùng một lúc (ví dụ: 64 FP32 và 64 INT32) và có các đơn vị độc lập cho hoạt động FP16, phép toán tenxơ và quy trình dò tia. Các CU của AMD thực hiện phần lớn khối lượng công việc trên các đơn vị SIMD32, mặc dù chúng có các đơn vị vô hướng riêng biệt hỗ trợ phép toán số nguyên đơn giản.

Vì vậy, có vẻ như Ampere có lợi thế hơn ở đây: GA102 có nhiều SM hơn so với Navi 21 có CU và họ đang đóng gói một cú đấm lớn hơn khi nói đến thông lượng cao nhất, tính linh hoạt và các tính năng được cung cấp. Nhưng AMD có một mẹo đánh lừa khá thú vị.

Sở hữu một GPU với hàng nghìn đơn vị logic, tất cả đều hoạt động thông qua toán học lạ mắt, tất cả đều tốt và tốt – nhưng chúng sẽ bị lung lay trên biển nếu không được cung cấp đủ nhanh các hướng dẫn và dữ liệu mà chúng yêu cầu. Cả hai thiết kế đều có nhiều bộ đệm đa cấp, tự hào với lượng băng thông khổng lồ.

Trước tiên chúng ta hãy xem Ampere. Nhìn chung đã có một số thay đổi đáng chú ý trong nội bộ. Dung lượng bộ nhớ đệm Cấp 2 đã tăng 50% (Turing TU102 có dung lượng tương ứng là 4096 kB) và bộ nhớ đệm Cấp 1 trong mỗi SM đều tăng gấp đôi kích thước.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Như trước đây, bộ nhớ đệm L1 của Ampere có thể định cấu hình được, xét về dung lượng bộ đệm có thể được phân bổ cho dữ liệu, kết cấu hoặc sử dụng điện toán chung. Tuy nhiên, đối với trình tạo bóng đồ họa (ví dụ: đỉnh, pixel) và tính toán không đồng bộ, bộ đệm thực sự được đặt thành:

Chỉ khi chạy ở chế độ tính toán đầy đủ, L1 mới có thể định cấu hình đầy đủ. Về mặt tích cực, lượng băng thông khả dụng cũng đã tăng gấp đôi, vì bộ đệm hiện có thể đọc/ghi 128 byte mỗi đồng hồ (mặc dù không có thông tin nào về việc độ trễ có được cải thiện hay không).

Phần còn lại của hệ thống bộ nhớ trong vẫn được giữ nguyên trong Ampere, nhưng khi chúng tôi di chuyển ra bên ngoài GPU, sẽ có một bất ngờ thú vị dành cho chúng tôi. Nvidia đã hợp tác với Micron, một nhà sản xuất DRAM, để sử dụng phiên bản sửa đổi của GDDR6 cho nhu cầu bộ nhớ cục bộ của họ. Về cơ bản, đây vẫn là GDDR6 nhưng bus dữ liệu đã được thay thế hoàn toàn. Thay vì sử dụng thiết lập 1 bit thông thường cho mỗi chân, trong đó tín hiệu chỉ phản xạ rất nhanh giữa hai điện áp (còn gọi là PAM), GDDR6X sử dụng bốn điện áp:

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Với thay đổi này, GDDR6X truyền hiệu quả 2 bit dữ liệu trên mỗi chân, mỗi chu kỳ – vì vậy, với cùng tốc độ xung nhịp và số lượng chân, băng thông được nhân đôi. GeForce RTX 3090 có 24 mô-đun GDDR6X, chạy ở chế độ một kênh và có tốc độ định mức là 19 Gbps, cho băng thông truyền tối đa là 936 GB/giây.

Đó là mức tăng 52% so với GeForce RTX 2080 Ti và không phải là điều gì đó có thể bị loại bỏ nhẹ nhàng. Những con số băng thông như vậy chỉ đạt được trong quá khứ bằng cách sử dụng những thứ như HBM2, có thể tốn kém để triển khai khi so sánh với GDDR6.

Tuy nhiên, chỉ Micron mới tạo ra bộ nhớ này và việc sử dụng PAM4 làm tăng thêm độ phức tạp cho quy trình sản xuất, đòi hỏi dung sai chặt chẽ hơn nhiều với tín hiệu. AMD đã đi theo một con đường khác – thay vì tìm kiếm sự trợ giúp từ một cơ quan bên ngoài, họ đã sử dụng bộ phận CPU của mình để mang đến một thứ gì đó mới mẻ. Hệ thống bộ nhớ tổng thể trong RDNA 2 không thay đổi nhiều so với phiên bản tiền nhiệm – chỉ có hai thay đổi lớn.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Mỗi Công cụ Shader hiện có hai bộ bộ đệm Cấp 1, nhưng vì chúng hiện đang trang bị hai ngân hàng Đơn vị tính toán kép (RDNA chỉ có một bộ đệm), nên sự thay đổi này là điều có thể xảy ra. Nhưng đưa 128 MB bộ đệm cấp 3 vào GPU? Điều đó khiến rất nhiều người ngạc nhiên. Tận dụng thiết kế SRAM cho bộ nhớ đệm L3 có trong chip máy chủ Zen 2 dòng EPYC của họ, AMD đã nhúng hai bộ bộ nhớ đệm mật độ cao 64 MB vào chip. Các giao dịch dữ liệu được xử lý bởi 16 bộ giao diện, mỗi bộ dịch chuyển 64 byte trên mỗi chu kỳ xung nhịp.

Cái gọi là Infinity Cache có miền đồng hồ riêng và có thể chạy ở tốc độ lên tới 1,94 GHz, mang lại băng thông truyền nội bộ cao nhất là 1986,6 GB/giây. Và bởi vì nó không phải là DRAM bên ngoài, nên độ trễ liên quan cực kỳ thấp. Bộ đệm như vậy là hoàn hảo để lưu trữ các cấu trúc tăng tốc theo dõi tia và vì quá trình truyền tải BVH liên quan đến rất nhiều kiểm tra dữ liệu, nên Bộ đệm vô cực sẽ giúp ích rất nhiều cho việc này.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Hiện tại, vẫn chưa rõ liệu bộ đệm cấp 3 trong RDNA 2 có hoạt động giống như trong CPU Zen 2 hay không: tức là bộ đệm nạn nhân cấp 2. Thông thường, khi mức bộ đệm cuối cùng cần được xóa để nhường chỗ cho dữ liệu mới, mọi yêu cầu mới về thông tin đó sẽ phải chuyển đến DRAM.

Bộ nhớ cache của nạn nhân lưu trữ dữ liệu đã được gắn cờ để xóa khỏi tầng bộ nhớ tiếp theo và với 128 MB trong tay, Infinity Cache có thể lưu trữ 32 bộ bộ nhớ cache L2 hoàn chỉnh. Hệ thống này dẫn đến nhu cầu ít hơn đối với bộ điều khiển GDDR6 và DRAM.

Đọc thêm:  Đánh giá máy tính xách tay MSI GS43VR Phantom Pro (GTX 1060)

Các thiết kế GPU cũ hơn của AMD đã phải vật lộn với tình trạng thiếu băng thông bên trong, đặc biệt là khi tốc độ xung nhịp của chúng được tăng lên, nhưng bộ nhớ đệm bổ sung sẽ giúp vấn đề này mờ đi trong một thời gian dài.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Vậy thiết kế nào tốt hơn ở đây? Việc sử dụng GDDR6X mang lại băng thông khổng lồ GA102 cho bộ nhớ cục bộ và bộ nhớ đệm lớn hơn sẽ giúp giảm tác động của lỗi bộ nhớ đệm (làm đình trệ quá trình xử lý luồng). Bộ nhớ đệm cấp 3 khổng lồ của Navi 21 có nghĩa là DRAM không phải khai thác thường xuyên và tận dụng khả năng chạy GPU ở tốc độ xung nhịp cao hơn mà không bị đói dữ liệu.

Quyết định gắn bó với GDDR6 của AMD có nghĩa là có nhiều nguồn bộ nhớ hơn cho các nhà cung cấp bên thứ ba, trong khi bất kỳ công ty nào sản xuất GeForce RTX 3080 hoặc 3090 sẽ phải sử dụng Micron. Và trong khi GDDR6 có nhiều mật độ mô-đun khác nhau, GDDR6X hiện bị giới hạn ở 8 Gb.

Hệ thống bộ đệm trong RDNA 2 được cho là một cách tiếp cận tốt hơn so với hệ thống được sử dụng trong Ampere, vì sử dụng nhiều cấp độ SRAM on-die sẽ luôn cung cấp độ trễ thấp hơn và hiệu suất tốt hơn cho một đường bao nguồn nhất định, so với DRAM bên ngoài, bất kể băng thông của cái sau. .

Cả hai kiến trúc đều có một loạt các bản cập nhật cho mặt trước và mặt sau của quy trình kết xuất của chúng. Ampere và RDNA 2 hoàn toàn sử dụng bộ tạo bóng dạng lưới và bộ tạo bóng tốc độ thay đổi trong DirectX12 Ultimate, mặc dù chip của Nvidia có hiệu suất hình học cao hơn nhờ số lượng bộ xử lý lớn hơn cho các tác vụ này.

Mặc dù việc sử dụng lưới tạo bóng sẽ cho phép các nhà phát triển tạo ra môi trường chân thực hơn bao giờ hết, nhưng sẽ không có trò chơi nào có hiệu suất bị ràng buộc hoàn toàn vào giai đoạn này trong quá trình kết xuất. Điều này là do phần lớn công việc khó khăn nhất là ở giai đoạn dò tia hoặc pixel.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Đây là lúc việc sử dụng các bộ đổ bóng có tốc độ thay đổi phát huy tác dụng – về cơ bản, quá trình này bao gồm việc áp dụng các bộ đổ bóng để chiếu sáng và tô màu trên một khối pixel, thay vì các pixel riêng lẻ. Nó giống như giảm độ phân giải của trò chơi để cải thiện hiệu suất, nhưng vì nó chỉ có thể được áp dụng cho các khu vực được chọn, nên việc giảm chất lượng hình ảnh không dễ thấy.

Nhưng cả hai kiến trúc cũng đã được cung cấp một bản cập nhật cho các đơn vị đầu ra kết xuất (ROP) của chúng, vì điều này sẽ cải thiện hiệu suất ở độ phân giải cao, cho dù có sử dụng bộ đổ bóng tốc độ thay đổi hay không. Trong tất cả các thế hệ GPU trước đây của họ, Nvidia đã gắn ROP với bộ điều khiển bộ nhớ và bộ đệm cấp 2.

Trong Turing, tám đơn vị ROP (được gọi chung là phân vùng ) được liên kết trực tiếp với một bộ điều khiển và một lát cắt 512 kB của bộ đệm. Thêm nhiều ROP sẽ tạo ra một vấn đề, vì nó yêu cầu nhiều bộ điều khiển và bộ đệm hơn, vì vậy đối với Ampere, các ROP hiện được phân bổ hoàn toàn cho một GPC. GA102 có 12 ROP trên mỗi GPC (mỗi ROP xử lý 1 pixel trên mỗi chu kỳ xung nhịp), mang lại tổng cộng 112 đơn vị cho toàn bộ chip.

AMD tuân theo một hệ thống tương tự như cách tiếp cận cũ của Nvidia (tức là được gắn với bộ điều khiển bộ nhớ và lát cắt bộ đệm L2), mặc dù ROP của họ chủ yếu sử dụng bộ đệm Cấp 1 để đọc/ghi và trộn pixel. Trong chip Navi 21, chúng đã được cung cấp một bản cập nhật rất cần thiết và mỗi phân vùng ROP hiện xử lý 8 pixel mỗi chu kỳ ở màu 32 bit và 4 pixel ở 64 bit.

Một thứ khác mà Nvidia đã mang đến cho Ampere là RTX IO – một hệ thống xử lý dữ liệu cho phép GPU truy cập trực tiếp vào ổ lưu trữ, sao chép dữ liệu cần thiết và sau đó giải nén dữ liệu đó bằng lõi CUDA. Tuy nhiên, hiện tại, hệ thống không thể được sử dụng trong bất kỳ trò chơi nào, vì Nvidia đang sử dụng API DirectStorage (một cải tiến DirectX12 khác) để kiểm soát hệ thống và điều đó chưa sẵn sàng để phát hành công khai.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Các phương pháp được sử dụng tại thời điểm này liên quan đến việc để CPU quản lý tất cả những điều này: CPU nhận yêu cầu dữ liệu từ trình điều khiển GPU, sao chép dữ liệu từ ổ lưu trữ vào bộ nhớ hệ thống, giải nén và sau đó sao chép dữ liệu đó vào DRAM của cạc đồ họa.

Bên cạnh thực tế là điều này liên quan đến rất nhiều việc sao chép lãng phí, cơ chế này về bản chất là nối tiếp – CPU xử lý một yêu cầu tại một thời điểm. Nvidia đang tuyên bố những con số như “thông lượng dữ liệu gấp 100 lần” và “mức sử dụng CPU thấp hơn 20 lần”, nhưng cho đến khi hệ thống có thể được thử nghiệm trong thế giới thực, những con số đó không thể được kiểm tra thêm.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Khi AMD giới thiệu RDNA 2 và card đồ họa Radeon RX 6000 mới, họ đã tung ra một thứ gọi là Bộ nhớ truy cập thông minh. Đây không phải là câu trả lời của họ đối với RTX IO của Nvidia – trên thực tế, nó thậm chí không thực sự là một tính năng mới. Theo mặc định, bộ điều khiển PCI Express trong CPU có thể giải quyết tối đa 256 MB bộ nhớ của card đồ họa, cho mỗi yêu cầu truy cập riêng lẻ.

Giá trị này được đặt theo kích thước của thanh ghi địa chỉ cơ sở (BAR) và từ năm 2008, đã có một tính năng tùy chọn trong thông số kỹ thuật PCI Express 2.0 để cho phép thay đổi kích thước. Lợi ích của việc này là ít yêu cầu truy cập hơn phải được xử lý để xử lý toàn bộ DRAM của thẻ.

Chức năng này cần có sự hỗ trợ của hệ điều hành, CPU, bo mạch chủ, GPU và trình điều khiển của nó. Hiện tại, trên PC Windows, hệ thống chỉ giới hạn ở sự kết hợp cụ thể của CPU Ryzen 5000, bo mạch chủ dòng 500 và card đồ họa Radeon RX 6000.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Tính năng đơn giản này đã mang lại một số kết quả đáng kinh ngạc khi chúng tôi thử nghiệm nó – hiệu suất tăng 15% ở 4K không phải là điều dễ dàng bỏ qua, vì vậy không có gì ngạc nhiên khi Nvidia đã nói rằng họ sẽ cung cấp tính năng này cho dòng sản phẩm RTX 3000 tại một thời điểm nào đó trong tương lai gần.

Việc hỗ trợ BAR có thể thay đổi kích thước có được triển khai cho các kết hợp nền tảng khác hay không vẫn còn phải xem, nhưng việc sử dụng nó chắc chắn được hoan nghênh, mặc dù nó không phải là một tính năng kiến trúc của Ampere/RDNA 2 như vậy.

Thế giới GPU thường bị chi phối bởi số lượng lõi, TFLOPS, GB/giây và các số liệu thu hút sự chú ý khác, nhưng nhờ sự gia tăng của những người tạo nội dung YouTube và các luồng trò chơi trực tiếp, khả năng của công cụ hiển thị và đa phương tiện cũng được chú ý đáng kể.

Đọc thêm:  Intel Core i7-3720QM: Đánh giá Mobile Ivy Bridge

Nhu cầu về tốc độ làm mới cực cao, ở tất cả các độ phân giải, đã tăng lên khi giá màn hình hỗ trợ các tính năng như vậy giảm xuống. Hai năm trước, một màn hình HDR 4K 27″ 144 Hz có thể tiêu tốn của bạn 2.000 đô la; ngày nay, bạn có thể nhận được một thứ tương tự với giá gần một nửa.

Cả hai kiến trúc đều cung cấp đầu ra màn hình qua HDMI 2.1 và DisplayPort 1.4a. Cái trước cung cấp nhiều băng thông tín hiệu hơn, nhưng cả hai đều được xếp hạng 4K ở 240 Hz với HDR và 8K ở 60 Hz. Điều này đạt được bằng cách sử dụng lấy mẫu con sắc độ 4:2:0 hoặc DSC 1.2a. Đây là các thuật toán nén tín hiệu video giúp giảm đáng kể các yêu cầu về băng thông mà không làm giảm quá nhiều chất lượng hình ảnh. Không có chúng, ngay cả băng thông tối đa 6 GB/giây của HDMI 2.1 cũng không đủ để truyền hình ảnh 4K ở tốc độ 6 Hz.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Ampere và RDNA 2 cũng hỗ trợ các hệ thống tốc độ làm mới thay đổi (FreeSync cho AMD, G-Sync cho Nvidia) và khi nói đến mã hóa và giải mã tín hiệu video, cũng không có sự khác biệt rõ rệt nào ở đây.

Bất kể bạn xem bộ xử lý nào, bạn sẽ thấy hỗ trợ giải mã 8K AV1, 4K H.264 và 8K H.265, mặc dù cả hai hoạt động tốt như thế nào trong những tình huống như vậy vẫn chưa được kiểm tra kỹ lưỡng. Cả hai công ty đều không cung cấp nhiều chi tiết về các bộ phận bên trong thực tế của công cụ hiển thị và đa phương tiện của họ. Dù quan trọng như ngày nay, phần còn lại của GPU vẫn thu hút mọi sự chú ý.

Những người đam mê lịch sử GPU sẽ biết rằng AMD và Nvidia đã từng thực hiện các cách tiếp cận khá khác nhau đối với các lựa chọn và cấu hình kiến trúc của họ. Nhưng khi đồ họa 3D ngày càng bị thống trị bởi thế giới máy tính và sự đồng nhất của các API, thiết kế tổng thể của chúng ngày càng giống nhau.

Và thay vì nhu cầu kết xuất trong các trò chơi ngày nay thiết lập giai điệu cho kiến trúc, chính các lĩnh vực thị trường mà ngành công nghiệp GPU đã mở rộng sang đó mới là hướng đi. Tại thời điểm viết bài này, Nvidia có ba chip sử dụng công nghệ Ampere: GA100, GA102 và GA104.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Cái cuối cùng chỉ đơn giản là một phiên bản rút gọn của GA102 – nó chỉ đơn giản là có ít TPC hơn trên mỗi GPC (và ít hơn một GPU tổng thể) và hai phần ba bộ nhớ đệm Cấp 2. Mọi thứ khác là chính xác như nhau. Mặt khác, GA100 là một con thú hoàn toàn khác.

Nó không có lõi RT và không có lõi CUDA có hỗ trợ INT32+FP32; thay vào đó, nó đóng gói trong một loạt các đơn vị FP64 bổ sung, nhiều hệ thống tải/lưu trữ hơn và một lượng lớn bộ đệm L1/L2. Nó cũng không có công cụ hiển thị hoặc đa phương tiện nào; điều này là do nó được thiết kế hoàn toàn cho các cụm điện toán quy mô lớn dành cho AI và phân tích dữ liệu.

Tuy nhiên, GA102/104 cần bao phủ mọi thị trường khác mà Nvidia nhắm đến: những người đam mê chơi game, nghệ sĩ và kỹ sư đồ họa chuyên nghiệp cũng như công việc điện toán và AI quy mô nhỏ. Ampere cần phải là một ‘người biết tất cả các giao dịch’ là bậc thầy của tất cả chúng – một nhiệm vụ không hề dễ dàng.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

RDNA 2 được thiết kế để chỉ chơi game, trên PC và bảng điều khiển, mặc dù nó cũng có thể chuyển sang các lĩnh vực tương tự như Ampere bán. Tuy nhiên, AMD đã chọn giữ nguyên kiến trúc GCN của họ và cập nhật nó cho nhu cầu của các chuyên gia ngày nay khách hàng.

Nơi RDNA 2 đã sinh ra ‘Big Navi’, CDNA có thể được cho là đã sinh ra ‘Big Vega’ – Instinct MI100 chứa chip Arcturus của họ, một GPU 50 tỷ bóng bán dẫn có 128 Đơn vị Điện toán. Và giống như GA100 của Nvidia, nó cũng không có công cụ hiển thị cũng như đa phương tiện.

Mặc dù Nvidia thống trị rất nhiều thị trường chuyên nghiệp với các mẫu Quadro và Tesla, nhưng những mẫu như Navi 21 đơn giản là không nhằm mục đích cạnh tranh với những mẫu này và đã được thiết kế phù hợp. Vì vậy, điều đó làm cho RDNA 2 trở thành kiến trúc tốt hơn; yêu cầu để Ampere phù hợp với nhiều thị trường có hạn chế nó theo bất kỳ cách nào không?

Khi bạn nhìn vào bằng chứng, câu trả lời sẽ là: không .

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

AMD sẽ sớm phát hành Radeon RX 6900 XT, sử dụng Navi 21 hoàn chỉnh (không tắt CU), có thể hoạt động tốt như GeForce RTX 3090 trở lên. Nhưng GA102 trong thẻ đó cũng không được kích hoạt đầy đủ, vì vậy Nvidia luôn có tùy chọn cập nhật mô hình đó bằng phiên bản ‘Super’, như họ đã làm với Turing năm ngoái.

Có thể lập luận rằng vì RDNA 2 đang được sử dụng trong Xbox Series X/S và PlayStation 5, các nhà phát triển trò chơi sẽ ưu tiên kiến trúc đó cho các công cụ trò chơi của họ. Nhưng bạn chỉ cần nhìn vào thời điểm GCN được sử dụng trong Xbox One và PlayStation 4 để xem điều này có thể diễn ra như thế nào.

Bản phát hành đầu tiên của phiên bản cũ vào năm 2013 đã sử dụng GPU được xây dựng dựa trên kiến trúc GCN 1.0 – một thiết kế không xuất hiện trong card đồ họa máy tính để bàn cho đến năm sau. Xbox One X, được phát hành vào năm 2017, đã sử dụng GCN 2.0, một thiết kế trưởng thành đã hơn 3 năm tuổi.

svg+xml,%3Csvg%20xmlns= Nvidia Ampere so với AMD RDNA 2: Trận chiến của các kiến trúc

Vì vậy, tất cả các trò chơi được tạo cho Xbox One hoặc PS4 được chuyển sang PC sẽ tự động chạy tốt hơn trên card đồ họa AMD? Họ đã không. Vì vậy, chúng tôi không thể cho rằng lần này sẽ khác với RDNA 2, mặc dù bộ tính năng ấn tượng của nó.

Nhưng cuối cùng thì không có điều nào trong số này quan trọng, vì cả hai thiết kế GPU đều có khả năng đặc biệt và là điều kỳ diệu về những gì có thể đạt được trong chế tạo chất bán dẫn. Nvidia và AMD mang đến các công cụ khác nhau vì họ đang cố gắng giải quyết các vấn đề khác nhau; Ampere nhằm mục đích trở thành tất cả mọi thứ cho tất cả mọi người, RDNA 2 chủ yếu là về chơi game.

Lần này, trận chiến đã đi vào bế tắc, mặc dù mỗi bên có thể giành chiến thắng ở một hoặc hai khu vực cụ thể. Cuộc chiến GPU sẽ tiếp tục trong suốt năm tới và một đối thủ mới sẽ tham gia vào cuộc chiến: Intel với dòng chip Xe của họ. Ít nhất chúng ta sẽ không phải đợi thêm hai năm nữa để xem cuộc chiến đó diễn ra như thế nào!