25 năm sau: Phân tích ngắn gọn về hiệu quả xử lý của GPU

Các cạc đồ họa 3D đầu tiên đã xuất hiện cách đây 25 năm và kể từ đó, sức mạnh cũng như độ phức tạp của chúng đã phát triển ở quy mô lớn hơn bất kỳ vi mạch nào khác có trong PC. Trước đó, những bộ xử lý này chứa khoảng 1 triệu bóng bán dẫn, có kích thước nhỏ hơn 100 mm2 và chỉ tiêu thụ một số watt điện.

Ngày nay, một card đồ họa điển hình có thể có 14 tỷ bóng bán dẫn, trong một khuôn có kích thước 500 mm 2 và tiêu thụ hơn 200 W điện năng. Khả năng của những người khổng lồ này sẽ lớn hơn rất nhiều so với những người tiền nhiệm xa xưa của chúng, nhưng liệu chúng có hiệu quả hơn với tất cả các công tắc và năng lượng nhỏ bé này không?

Trong bài viết này, chúng ta sẽ xem các nhà thiết kế GPU đã tận dụng tốt như thế nào việc tăng kích thước khuôn và mức tiêu thụ điện năng để cung cấp cho chúng ta nhiều sức mạnh xử lý hơn bao giờ hết. Trước khi chúng tôi đi sâu vào, trước tiên bạn có thể tìm hiểu về các thành phần của cạc đồ họa hoặc xem qua lịch sử của bộ xử lý đồ họa hiện đại. Với thông tin này, bạn sẽ có một nền tảng tuyệt vời để theo dõi tính năng này.

Để hiểu hiệu quả của thiết kế GPU đã thay đổi như thế nào, nếu có, trong những năm qua, chúng tôi đã sử dụng cơ sở dữ liệu tuyệt vời của TechPowerUp, lấy một mẫu bộ xử lý từ 14 năm qua. Chúng tôi đã chọn khung thời gian này vì nó đánh dấu thời điểm bắt đầu GPU có cấu trúc đổ bóng thống nhất.

Thay vì có các mạch riêng biệt bên trong chip để xử lý các hình tam giác và pixel, các bộ tạo bóng hợp nhất là các đơn vị logic số học được thiết kế để xử lý tất cả phép toán cần thiết để thực hiện bất kỳ phép tính nào liên quan đến đồ họa 3D. Điều này cho phép chúng tôi sử dụng phép đo hiệu suất tương đối, nhất quán trên các GPU khác nhau: phép tính dấu phẩy động mỗi giây (viết tắt là FLOPS).

svg+xml,%3Csvg%20xmlns= 25 năm sau: Phân tích ngắn gọn về hiệu quả xử lý của GPU

Các nhà cung cấp phần cứng thường muốn công bố các số liệu FLOPS như một thước đo khả năng xử lý cao nhất của GPU và mặc dù đây hoàn toàn không phải là khía cạnh duy nhất đằng sau tốc độ của GPU, nhưng FLOPS cung cấp cho chúng tôi một con số mà chúng tôi có thể làm việc.

Điều này cũng đúng với kích thước khuôn, là thước đo diện tích bề mặt của chip xử lý. Tuy nhiên, bạn có thể có hai con chip có cùng kích thước nhưng lại có số lượng bóng bán dẫn khác nhau rất nhiều.

Ví dụ: bộ xử lý G71 (GeForce 7900 GT) của Nvidia từ năm 2005 có kích thước 196 mm 2 và chứa 278 triệu bóng bán dẫn; TU117 của họ được phát hành vào đầu năm ngoái (GeForce GTX 1650), chỉ lớn hơn 4 mm 2 nhưng có 4,7 tỷ công tắc nhỏ.

Đọc thêm:  Gateway 2000: Ra Đi Nhưng Không Bị Lãng Quên

svg+xml,%3Csvg%20xmlns= 25 năm sau: Phân tích ngắn gọn về hiệu quả xử lý của GPU

Đương nhiên, điều này có nghĩa là các bóng bán dẫn GPU mới hơn nhỏ hơn nhiều so với chip cũ hơn và điều này rất đúng. Cái gọi là nút quy trình – quy mô thiết kế tổng thể của quy trình sản xuất được sử dụng để chế tạo bộ xử lý – được các nhà cung cấp phần cứng sử dụng đã thay đổi qua nhiều năm, ngày càng nhỏ hơn. Vì vậy, chúng tôi sẽ phân tích hiệu quả từ góc độ mật độ khuôn, là thước đo xem có bao nhiêu triệu bóng bán dẫn trên mỗi mm 2 diện tích chip.

Có lẽ số liệu gây tranh cãi nhất mà chúng tôi sẽ sử dụng là số liệu về mức tiêu thụ năng lượng của GPU. Chúng tôi chắc chắn rằng nhiều độc giả sẽ không thích điều này, vì chúng tôi đang sử dụng giá trị công suất thiết kế nhiệt (TDP) đã nêu của nhà cung cấp. Đây thực sự là một thước đo (hoặc ít nhất, nó được cho là) lượng nhiệt tỏa ra từ toàn bộ cạc đồ họa trong tình huống tải trung bình nhưng cao.

Với chip silicon, năng lượng mà chúng tiêu thụ chủ yếu chuyển thành nhiệt, nhưng đây không phải là lý do khiến việc sử dụng TDP trở thành vấn đề. Đó là các nhà cung cấp khác nhau nêu con số này trong các điều kiện khác nhau và nó cũng không nhất thiết là mức tiêu thụ điện năng trong khi tạo ra FLOPS cao nhất. Nó cũng là giá trị năng lượng cho toàn bộ cạc đồ họa, bao gồm cả bộ nhớ trong, mặc dù phần lớn trong số đó sẽ là của chính GPU.

Có thể đo trực tiếp mức tiêu thụ năng lượng của card đồ họa. Ví dụ: TechPowerUp thực hiện điều đó cho các bài đánh giá GPU của họ và khi họ thử nghiệm GeForce RTX 2080 Super, với TDP do nhà cung cấp công bố là 250 W, họ nhận thấy mức tiêu thụ trung bình là 243 W nhưng cao nhất là 275 W trong quá trình thử nghiệm của họ.

Nhưng chúng tôi vẫn kiên trì với việc sử dụng TDP vì mục đích đơn giản và chúng tôi đã hơi thận trọng khi đưa ra bất kỳ đánh giá nào chỉ dựa trên hiệu suất xử lý so với công suất thiết kế nhiệt.

Chúng tôi sẽ so sánh trực tiếp 2 số liệu: GFLOPS và mật độ khuôn đơn vị. Một GFLOPS tương đương với 1.000 triệu thao tác dấu phẩy động mỗi giây và chúng tôi đang xử lý giá trị cho các phép tính FP32, được thực hiện độc quyền bởi các trình tạo bóng hợp nhất. Việc so sánh sẽ có dạng biểu đồ như sau:

svg+xml,%3Csvg%20xmlns= 25 năm sau: Phân tích ngắn gọn về hiệu quả xử lý của GPU

Trục x vẽ sơ đồ GFLOPS trên mỗi đơn vị TDP, vì vậy bạn muốn giá trị này càng cao càng tốt: vị trí dọc theo trục càng thấp, chip càng tiết kiệm điện năng. Điều này cũng đúng với trục y vì biểu đồ này biểu thị GFLOPS trên mỗi mật độ khuôn đơn vị. Bạn càng đóng gói nhiều bóng bán dẫn trong một mm vuông, bạn càng mong đợi hiệu suất cao hơn. Vì vậy, hiệu quả xử lý tổng thể của GPU (chiếm số lượng bóng bán dẫn, kích thước khuôn và TDP) tăng lên khi bạn đi về phía góc trên cùng bên phải của biểu đồ.

Đọc thêm:  Nvidia DLSS: Điều tra sớm

Bất kỳ điểm dữ liệu nào gần trên cùng bên trái về cơ bản đều nói rằng “GPU này đang có hiệu suất tốt nhờ thiết kế khuôn, nhưng với chi phí sử dụng một lượng điện năng tương đối lớn.” Đi về phía dưới bên phải và nó “tốt trong việc sử dụng năng lượng một cách hiệu quả, nhưng thiết kế khuôn không tạo ra nhiều hiệu suất.”

Nói tóm lại, chúng tôi đang xác định hiệu quả xử lý là GPU làm được bao nhiêu cho gói và cung cấp năng lượng cho gói đó.

Không chần chừ thêm nữa, hãy chuyển sang phần kết quả:

svg+xml,%3Csvg%20xmlns= 25 năm sau: Phân tích ngắn gọn về hiệu quả xử lý của GPU

Về mặt giá trị, các kết quả có vẻ khá phân tán, nhưng chúng ta có thể thấy một mô hình cơ bản: GPU cũ, chẳng hạn như G80 hoặc RV670, kém hiệu quả hơn nhiều so với các thiết kế mới hơn, chẳng hạn như Vega 20 hoặc GP102. Đó là những gì bạn mong đợi! Rốt cuộc, đó sẽ là một nhóm kỹ sư điện tử khá nghèo nàn, những người sẽ cố gắng liên tục thiết kế và phát hành các sản phẩm mới kém hiệu quả hơn sau mỗi lần phát hành.

Nhưng có một số điểm dữ liệu thú vị. Đầu tiên trong số đó là TU102 và GV100. Cả hai thứ này đều do Nvidia sản xuất và có thể tìm thấy trong đồ họa như GeForce RTX 2080 Ti và Titan V, tương ứng.

svg+xml,%3Csvg%20xmlns= 25 năm sau: Phân tích ngắn gọn về hiệu quả xử lý của GPU

Bạn có thể lập luận rằng không phải GPU nào cũng được thiết kế cho thị trường tiêu dùng chung, đặc biệt là GV100, vì chúng thực sự dành cho máy trạm hoặc máy chủ tính toán. Vì vậy, mặc dù chúng có vẻ hiệu quả nhất trong số rất nhiều, nhưng đó là những gì bạn mong đợi đối với bộ xử lý được thiết kế cho các thị trường chuyên biệt, có giá cao hơn rất nhiều so với bộ tiêu chuẩn.

Một GPU khác nhô ra và hơi giống ngón tay cái, là GP108 – đây là một trong những chip khác của Nvidia và thường được tìm thấy trong GeForce GT 1030. Sản phẩm cấp thấp này, được phát hành vào năm 2017, có bộ xử lý rất nhỏ chỉ có kích thước 74 mm 2 với TDP chỉ 30 W. Tuy nhiên, hiệu suất dấu phẩy động tương đối của nó thực sự không tốt hơn GPU đổ bóng hợp nhất đầu tiên của Nvidia, G80, từ năm 2006.

svg+xml,%3Csvg%20xmlns= 25 năm sau: Phân tích ngắn gọn về hiệu quả xử lý của GPU

Đối diện với GP108 là chip Fuji của AMD cung cấp cho dòng Radeon R9 Fury của nó. Thiết kế này dường như không quá tiết kiệm năng lượng, đặc biệt là việc sử dụng Bộ nhớ băng thông cao (HBM) được cho là sẽ giúp ích về mặt này. Thiết kế Fiji chạy khá nóng, khiến bộ xử lý bán dẫn hoạt động kém hiệu quả hơn do rò rỉ gia tăng. Đây là nơi năng lượng điện bị thất thoát vào bao bì và môi trường xung quanh, thay vì bị hạn chế trong mạch điện. Tất cả các chip đều bị rò rỉ, nhưng tốc độ mất mát tăng theo nhiệt độ.

Đọc thêm:  Mua máy nghe nhạc MP3 năm 2018

Có lẽ điểm dữ liệu thú vị nhất là Navi 10: đây là thiết kế GPU mới nhất của AMD và được sản xuất bởi TSMC, sử dụng nút quy trình N7 của họ, quy mô nhỏ nhất hiện được sử dụng. Tuy nhiên, chip Vega 20 được sản xuất trên cùng một nút nhưng nó có vẻ hiệu quả hơn, mặc dù là một thiết kế cũ hơn. Vì vậy, những gì đang xảy ra ở đây?

svg+xml,%3Csvg%20xmlns= 25 năm sau: Phân tích ngắn gọn về hiệu quả xử lý của GPU

Vega 20 (AMD chỉ sử dụng một card đồ họa tiêu dùng duy nhất – Radeon VII) là bộ xử lý cuối cùng do AMD sản xuất sử dụng kiến trúc GCN (Graphics Core Next) của họ. Nó tích hợp một số lượng lớn các lõi đổ bóng thống nhất vào một bố cục tập trung chủ yếu vào thông lượng của FP32. Tuy nhiên, việc lập trình thiết bị để đạt được hiệu suất này không dễ dàng thực hiện và nó thiếu tính linh hoạt.

Navi 10 sử dụng kiến trúc mới nhất của họ, RDNA, giải quyết vấn đề này, nhưng phải trả giá bằng thông lượng của FP32. Tuy nhiên, đây là một bố cục mới và được sản xuất trên một nút quy trình tương đối mới, vì vậy chúng ta có thể mong đợi thấy những cải tiến về hiệu quả khi TSMC phát triển nút quy trình của mình và AMD cập nhật kiến trúc.

Nếu chúng tôi bỏ qua các điểm ngoại lệ, các GPU hiệu quả nhất trong biểu đồ của chúng tôi là GP102 và GP104. Chúng đang sử dụng kiến trúc Pascal của Nvidia và có thể được tìm thấy trong các card đồ họa như GeForce GTX 1080 Ti, GTX 1070 và GTX 1060. Cái bên cạnh GP102, nhưng không được gắn nhãn cho rõ ràng, là TU104 sử dụng Thiết kế Turing mới nhất của Nvidia và có thể được tìm thấy trong một loạt các mẫu GeForce RTX: 2060, 2070 Super, 2080, 2080 Super, v.v.

svg+xml,%3Csvg%20xmlns= 25 năm sau: Phân tích ngắn gọn về hiệu quả xử lý của GPU

Chúng cũng do TSMC tạo ra nhưng sử dụng nút quy trình được thiết kế riêng cho các sản phẩm của Nvidia, được gọi là 12FFN, bản thân nút này là phiên bản tinh chỉnh của nút 16FF.

Các cải tiến tập trung vào việc tăng mật độ khuôn, đồng thời giảm rò rỉ, điều này sẽ phần nào giải thích tại sao GPU của Nvidia dường như hiệu quả nhất.

Đọc thêm:  Trò chơi ba màn hình: GeForce GTX 590 so với Radeon HD 6990

Chúng ta có thể giảm tác động của nút quá trình từ phân tích, bằng cách thay thế thước đo mật độ khuôn chỉ bằng diện tích khuôn. Điều này cho chúng ta một bức tranh rất khác…

svg+xml,%3Csvg%20xmlns= 25 năm sau: Phân tích ngắn gọn về hiệu quả xử lý của GPU

Hiệu quả tăng theo cùng một hướng trong biểu đồ này, nhưng bây giờ chúng ta có thể thấy rằng một số vị trí quan trọng đã hoán đổi cho nhau. TU102 và GV100 đã giảm ngay xuống, trong khi Navi 10 và Vega 20 đã tăng lên trên biểu đồ. Điều này là do hai bộ xử lý trước đây là những con chip khổng lồ (754 mm 2 và 815 mm 2 ), trong khi hai bộ xử lý sau của AMD nhỏ hơn nhiều (251 mm 2 và 331 mm 2 ).

Nếu chúng tôi tập trung biểu đồ để nó chỉ hiển thị các GPU mới hơn và sự khác biệt thậm chí còn rõ ràng hơn:

svg+xml,%3Csvg%20xmlns= 25 năm sau: Phân tích ngắn gọn về hiệu quả xử lý của GPU

Quan điểm này cho thấy rõ ràng rằng AMD đã tập trung ít hơn vào hiệu quả sử dụng năng lượng so với hiệu quả kích thước khuôn.

Nói cách khác, họ muốn có nhiều chip GPU hơn trên mỗi tấm wafer được sản xuất. Mặt khác, Nvidia dường như đã áp dụng phương pháp mà họ đang thiết kế chip của mình ngày càng lớn hơn (và do đó, mỗi tấm wafer cung cấp ít khuôn hơn), nhưng họ đang sử dụng năng lượng điện tốt hơn.

Vậy AMD và Nvidia có tiếp tục theo cách này với các GPU tiếp theo của họ không? Chà, trước đây đã tuyên bố rằng họ đang tập trung cải thiện tỷ lệ hiệu suất trên mỗi watt trong RDNA 2.0 lên 50%, vì vậy chúng ta sẽ thấy các GPU tương lai của họ nằm xa hơn về bên phải trên biểu đồ của chúng tôi ở trên. Nhưng còn Nvidia thì sao?

Thật không may, họ nổi tiếng là rất kín tiếng về những phát triển trong tương lai, nhưng chúng tôi biết rằng bộ xử lý tiếp theo của họ sẽ do TSMC và Samsung sản xuất trên một nút quy trình tương tự như nút được sử dụng cho Navi. Đã có một số tuyên bố rằng chúng ta sẽ thấy mức giảm năng lượng lớn, nhưng cũng có sự gia tăng lớn về số lượng shader hợp nhất, vì vậy có lẽ chúng ta sẽ thấy một vị trí tương tự trên bảng xếp hạng cho Nvidia.

Phần trên khá thuyết phục: trong những năm qua, AMD và Nvidia đã nâng cao hiệu suất xử lý trên mỗi đơn vị mật độ khuôn và đơn vị TDP. Trong một số trường hợp, sự gia tăng là đáng kinh ngạc …

Lấy bộ vi xử lý G92 và TU102 của Nvidia. Cái đầu tiên cung cấp năng lượng cho GeForce 8800 GT và 9800 GTX, và gói 754 triệu bóng bán dẫn vào một con chip có diện tích 324 mm 2 . Khi nó xuất hiện vào tháng 10 năm 2007, nó đã được đón nhận nồng nhiệt nhờ các yêu cầu về hiệu suất và năng lượng.

Mười một năm sau, Nvidia cung cấp cho chúng tôi TU102 ở dạng GeForce RTX 2080 Ti, với gần 19 tỷ bóng bán dẫn trong diện tích 754 mm 2 – gấp 25 lần các thành phần cực nhỏ trên một bề mặt chỉ lớn hơn 2,3 lần.

Đọc thêm:  Tăng tốc Firefox bằng cách tải các tab theo yêu cầu

Điều này sẽ không thể thực hiện được nếu TSMC không liên tục phát triển công nghệ chế tạo của họ: G92 trong 8800 GT được chế tạo trên nút quy trình 65 nm, trong khi TU102 mới nhất là thang đo 12FFN đặc biệt của họ. Tên của các phương pháp sản xuất không thực sự cho chúng ta biết ý nghĩa của sự khác biệt giữa hai phương pháp, nhưng số GPU thì có. Loại hiện tại có mật độ chết là 24,67 triệu bóng bán dẫn trên mỗi mm 2 , so với giá trị của loại cũ là 2,33 triệu.

Việc đóng gói các thành phần tăng gấp mười lần là lý do chính đằng sau sự khác biệt lớn về hiệu quả của hai GPU. Các đơn vị logic nhỏ hơn cần ít năng lượng hơn để hoạt động và các đường dẫn ngắn hơn kết nối chúng có nghĩa là sẽ mất ít thời gian hơn để dữ liệu di chuyển. Cùng với những cải tiến trong sản xuất chip silicon (giảm lỗi và cách điện tốt hơn), điều này dẫn đến khả năng chạy ở tốc độ xung nhịp cao hơn cho cùng một yêu cầu năng lượng hoặc sử dụng ít năng lượng hơn cho cùng tốc độ xung nhịp.

svg+xml,%3Csvg%20xmlns= 25 năm sau: Phân tích ngắn gọn về hiệu quả xử lý của GPU

Nói về đồng hồ, đây là một yếu tố khác cần xem xét. Hãy so sánh RV670, từ tháng 11 năm 2007 trong Radeon HD 3870, với Vega 10 cung cấp năng lượng cho Radeon RX Vega 64, được phát hành vào tháng 8 năm 2017.

Cái trước có tốc độ xung nhịp cố định khoảng 775 MHz, trong khi cái sau có ít nhất ba tốc độ khả dụng:

Chúng tôi nói ‘ít nhất’ vì cạc đồ họa có thể tự động thay đổi tốc độ xung nhịp và điện năng tiêu thụ, giữa các giá trị trên, dựa trên khối lượng công việc và nhiệt độ hoạt động của nó. Đây là điều mà chúng tôi coi là đương nhiên với các GPU mới nhất, nhưng mức độ kiểm soát này đơn giản là không tồn tại 13 năm trước. Tuy nhiên, khả năng này không ảnh hưởng đến kết quả hiệu quả của chúng tôi, vì chúng tôi chỉ xem xét sản lượng xử lý cao nhất (tức là ở tốc độ xung nhịp tối đa), nhưng nó ảnh hưởng đến hiệu suất của thẻ đối với người tiêu dùng phổ thông.

Nhưng lý do quan trọng nhất khiến hiệu quả xử lý của GPU không ngừng tăng lên trong những năm qua là do những thay đổi trong việc sử dụng chính bộ xử lý. Vào tháng 6 năm 2008, các siêu máy tính tốt nhất trên thế giới đều được cung cấp sức mạnh bởi CPU của AMD, IBM và Intel; mười một năm sau và có thêm một nhà cung cấp chip nữa: Nvidia.

Đọc thêm:  Xem lại GeForce GTX 680: Hiệu năng GTX 1050 Ti-Class với chi phí thấp hơn?

svg+xml,%3Csvg%20xmlns= 25 năm sau: Phân tích ngắn gọn về hiệu quả xử lý của GPU

Bộ xử lý GV100 và GP100 của họ được thiết kế gần như dành riêng cho thị trường điện toán, chúng có một loạt các tính năng kiến trúc chính để hỗ trợ điều này và nhiều trong số chúng rất giống CPU. Ví dụ: bộ nhớ trong của chip (bộ đệm) trông tương tự như CPU máy chủ điển hình:

So sánh điều này với Xeon E5-2692 v2 của Intel, đã được sử dụng trong nhiều máy chủ điện toán:

Các đơn vị logic bên trong GPU hiện đại hỗ trợ nhiều định dạng dữ liệu; một số có các đơn vị chuyên dụng để tính toán số nguyên, số float và ma trận, trong khi một số khác có cấu trúc phức tạp thực hiện tất cả. Các thiết bị được kết nối với bộ đệm và bộ nhớ cục bộ với tốc độ cao, kết nối rộng. Những thay đổi này chắc chắn giúp xử lý đồ họa 3D, nhưng nó sẽ được coi là quá mức cần thiết đối với hầu hết các trò chơi. Nhưng những GPU này được thiết kế cho nhiều khối lượng công việc hơn là chỉ hình ảnh và có tên cho điều này: GPU mục đích chung (GPGPU).

Học máy và khai thác dữ liệu là hai lĩnh vực đã được hưởng lợi rất nhiều từ sự phát triển của GPGPU và các gói phần mềm và API được hỗ trợ (ví dụ: CUDA của Nvidia, ROMc của AMD, OpenCL) vì chúng liên quan đến rất nhiều phép tính song song phức tạp.

Các GPU lớn, được đóng gói với hàng nghìn đơn vị đổ bóng hợp nhất, là lựa chọn hoàn hảo cho các tác vụ như vậy và cả AMD lẫn Nvidia (và giờ đây là Intel cũng tham gia cuộc vui này) đã đầu tư hàng tỷ đô la vào việc nghiên cứu và phát triển các chip mang lại hiệu năng tính toán ngày càng tốt hơn.

svg+xml,%3Csvg%20xmlns= 25 năm sau: Phân tích ngắn gọn về hiệu quả xử lý của GPU

Hiện tại, cả hai công ty đều thiết kế kiến trúc GPU có thể được sử dụng trong nhiều lĩnh vực thị trường và thường tránh tạo bố cục hoàn toàn riêng biệt cho đồ họa và điện toán. Điều này là do phần lớn lợi nhuận từ việc sản xuất GPU vẫn đến từ việc bán card đồ họa 3D, nhưng liệu nó có giữ nguyên như vậy hay không thì không chắc chắn. Có thể là do nhu cầu về máy tính tiếp tục tăng, AMD hoặc Nvidia có thể dành nhiều nguồn lực hơn để cải thiện hiệu quả của chip cho các thị trường đó và ít hơn cho kết xuất.

Nhưng bất kể điều gì xảy ra tiếp theo, chúng tôi biết một điều chắc chắn: vòng tiếp theo của nhiều tỷ bóng bán dẫn, GPU công suất cao sẽ tiếp tục hoạt động hiệu quả hơn một chút so với thế hệ tiền nhiệm của chúng. Và đó là tin tốt, bất kể ai làm ra nó hay nó được dùng để làm gì.