Khác biệt giữa bản sửa đổi của “FLOPS”

Bách khoa toàn thư mở Wikipedia
Nội dung được xóa Nội dung được thêm vào
nKhông có tóm lược sửa đổi
Không có tóm lược sửa đổi
Dòng 1: Dòng 1:
{{thiếu chú thích}}
Trong [[máy tính]], '''FLOPS''' (FLoating-point Operations Per Second) là một thước đo hiệu suất máy tính, đặc biệt là trong lĩnh vực [[tính toán khoa học]] sử dụng nhiều các tính toán thập phân trong một giây.
Trong [[máy tính]], '''FLOPS''' (FLoating-point Operations Per Second) là một thước đo hiệu suất máy tính, đặc biệt là trong lĩnh vực [[tính toán khoa học]] sử dụng nhiều các tính toán thập phân trong một giây.


1 tflops, hay 1 teraflops hay one trillion flops, là một nghìn tỷ con tính trong một giây, thường dùng để đo sức mạnh (performance) một hệ thống [[siêu máy tính]] song song. Đây là một khái niệm thường được sử dụng trong phép so sánh nhanh hay chậm giữa các phần cứng của máy tính trong quá trình huấn luyện của mạng neuron trong lĩnh vực [[trí tuệ nhân tạo]].
1 tflops, hay 1 teraflops hay one trillion flops, là một nghìn tỷ con tính trong một giây, thường dùng để đo sức mạnh (performance) một hệ thống [[siêu máy tính]] song song. Đây là một khái niệm thường được sử dụng trong phép so sánh nhanh hay chậm giữa các phần cứng của máy tính trong quá trình huấn luyện của mạng neuron trong lĩnh vực [[trí tuệ nhân tạo]].

==FLOPs của một số bộ xử lý ==
{| class="wikitable sortable"
! scope="col" | [[Vi kiến trúc]]
! scope="col" | ISA
! scope="col" | FP64
! scope="col" | FP32
! scope="col" | FP16
|-
! colspan="5" |Intel CPU
|-
|[[Intel 80486]]
|[[x87]] (32-bit)
|?
|0.128<ref name=":1" />
|?
|-
|Intel [[P5 (microarchitecture)|P5]] [[Pentium]]<br />Intel [[P6 (microarchitecture)|P6]] [[Pentium Pro]]
|[[x87]] (32-bit)
|?
|0.5<ref name=":1">{{Cite web|last=|first=|date=|title=home.iae.nl|url=http://home.iae.nl/users/mhx/flops_4.tbl|url-status=live|archive-url=|archive-date=|access-date=|website=}}</ref>
|?
|-
|Intel [[P5 (microarchitecture)|P5]] [[Pentium]] MMX<br />Intel [[P6 (microarchitecture)|P6]] [[Pentium II]]
|[[MMX (instruction set)|MMX]] (64-bit)
|?
|1<ref name=":0">{{Cite web|title=Computing Power throughout History|url=https://www.alternatewars.com/BBOW/Computing/Computing_Power.htm|access-date=2021-02-13|website=www.alternatewars.com}}</ref>
|?
|-
|Intel [[P6 (microarchitecture)|P6]] [[Pentium III]]
|[[Streaming SIMD Extensions|SSE]] (64-bit)
|?
|2<ref name=":0" />
|?
|-
|Intel [[NetBurst (microarchitecture)|Netburst]] [[Pentium 4]] (Willamette, Northwood)
|[[SSE2]] (64-bit)
|2
|4
|?
|-
|Intel [[P6 (microarchitecture)|P6]] [[Pentium M]]
|[[SSE2]] (64-bit)
|1
|2
|?
|-
|Intel [[NetBurst (microarchitecture)|Netburst]] [[Pentium 4]] (Prescott, Cedar Mill)<br />Intel [[NetBurst (microarchitecture)|Netburst]] [[Pentium D]] (Smithfield, Presler)<br />Intel [[P6 (microarchitecture)|P6]] [[Intel Core|Core]] ([[Yonah (microprocessor)|Yonah]])
|[[SSE3]] (64-bit)
|2
|4
|?
|-
| Intel [[Intel Core (microarchitecture)|Core]] ([[Merom (microprocessor)|Merom]], [[Penryn (microarchitecture)|Penryn]])<br />Intel [[Nehalem (microarchitecture)|Nehalem]]<ref name="tpeak_jos">{{Cite journal| title=Theoretical Peak FLOPS per instruction set: a tutorial | first1 = Romain | last1 = Dolbeau | year = 2017 |journal=Journal of Supercomputing |volume=74 |issue=3 |pages=1341–1377 |doi=10.1007/s11227-017-2177-5 | s2cid = 3540951 }}</ref> ([[Nehalem (microarchitecture)|Nehalem]], [[Westmere (microarchitecture)|Westmere]]) || [[SSSE3]] (128-bit)<br />[[SSE4]] (128-bit) || 4 || 8 || ?
|-
| Intel [[Atom (system on chip)|Atom]] ([[Bonnell (microarchitecture)|Bonnell]], [[Saltwell (microarchitecture)|Saltwell]], [[Silvermont (microarchitecture)|Silvermont]] and [[Goldmont]]) || [[SSE3]] (128-bit) || 2 || 4 || ?
|-
| Intel [[Sandy Bridge]] ([[Sandy Bridge]], [[Ivy Bridge (microarchitecture)|Ivy Bridge]]) || [[Advanced Vector Extensions|AVX]] (256-bit) || 8 || 16 || 0
|-
| Intel [[Haswell (microarchitecture)|Haswell]]<ref name="tpeak_jos"/> ([[Haswell (microarchitecture)|Haswell]], [[Haswell (microarchitecture)|Devil's Canyon]], [[Broadwell (microarchitecture)|Broadwell]])<br />Intel [[Skylake (microarchitecture)|Skylake]] ([[Skylake (microarchitecture)|Skylake]], [[Kaby Lake]], [[Coffee Lake]], [[Comet Lake (microprocessor)|Comet Lake]], [[Whiskey Lake (microarchitecture)|Whiskey Lake]], [[Amber Lake (microarchitecture)|Amber Lake]]) || [[Advanced Vector Extensions|AVX2]] & [[FMA instruction set|FMA]] (256-bit) || 16 || 32 || 0
|-
| Intel [[Xeon Phi]] ([[Knights Corner]]) || [[Streaming SIMD Extensions|SSE]] & [[FMA instruction set|FMA]] (256-bit) || 16 || 32 || 0
|-
| Intel [[Skylake (microarchitecture)|Skylake-X]] ([[Skylake (microarchitecture)|Skylake-X]], [[Cascade Lake (microarchitecture)|Cascade Lake]])<br />Intel [[Xeon Phi]] ([[Knights Landing (microarchitecture)|Knights Landing]], [[Knights Mill]])
Intel [[Ice Lake (microprocessor)|Ice Lake]], [[Tiger Lake (microprocessor)|Tiger Lake]] and [[Rocket Lake]]
| [[Advanced Vector Extensions|AVX-512]] & [[FMA instruction set|FMA]] (512-bit) || 32 || 64 || 0
|-
! colspan="5" |AMD CPU
|-
| AMD [[Bobcat (microarchitecture)|Bobcat]] || [[x86-64|AMD64]] (64-bit) || 2 || 4 || 0
|-
|AMD [[Jaguar (microarchitecture)|Jaguar]]<br />AMD [[Puma (microarchitecture)|Puma]]
|[[Advanced Vector Extensions|AVX]] (128-bit)
|4
|8
|0
|-
|AMD [[AMD 10h|K10]]
|[[SSE4|SSE4/4a]] (128-bit)
|4
|8
|0
|-
| AMD [[Bulldozer (microarchitecture)|Bulldozer]]<ref name="tpeak_jos" /> ([[Piledriver (microarchitecture)|Piledriver]], [[Steamroller (microarchitecture)|Steamroller]], [[Excavator (microarchitecture)|Excavator]]) ||[[Advanced Vector Extensions|AVX]] (128-bit) Bulldozer-Steamroller
[[AVX2]] (128-bit) Excavator

[[FMA instruction set|FMA3]] (Bulldozer)<ref>{{Cite web|url=https://developer.amd.com/wordpress/media/2012/10/New-Bulldozer-and-Piledriver-Instructions.pdf|title=New instructions support for Bulldozer (FMA3) and Piledriver (FMA3+4 and CVT,BMI,TBM)}}</ref>

[[FMA instruction set|FMA3/4]] (Piledriver-Excavator)
| 4 || 8 || 0
|-
| AMD [[Zen (microarchitecture)|Zen]] (Ryzen 1000 series, Threadripper 1000 series, Epyc [[Epyc|Naples]])<br />AMD [[Zen+]]<ref name="tpeak_jos"/><ref>{{Cite web | url=http://www.agner.org/optimize/blog/read.php?i=838 | title=Agner's CPU blog - Test results for AMD Ryzen}}</ref><ref>https://arstechnica.com/gadgets/2017/03/amds-moment-of-zen-finally-an-architecture-that-can-compete/2/ "each core now has a pair of 128-bit FMA units of its own"</ref><ref>{{cite conference |url=https://www.hotchips.org/wp-content/uploads/hc_archives/hc28/HC28.23-Tuesday-Epub/HC28.23.90-High-Perform-Epub/HC28.23.930-X86-core-MikeClark-AMD-final_v2-28.pdf#page=7 |title=A New x86 Core Architecture for the Next Generation of Computing |author=Mike Clark |date=August 23, 2016 |publisher=AMD |conference=HotChips 28}} [https://images.anandtech.com/doci/10591/HC28.AMD.Mike%20Clark.final-page-007.jpg page 7]</ref> (Ryzen 2000 series, Threadripper 2000 series) || [[Advanced Vector Extensions|AVX2]] & [[FMA instruction set|FMA]] (128-bit, 256-bit decoding)<ref>{{Cite web | url=https://www.agner.org/optimize/microarchitecture.pdf | title=The microarchitecture of Intel and AMD CPUs}}</ref> || 8 || 16 || 0
|-
| AMD [[Zen 2]]<ref name="www.youtube.com">{{cite web|url=https://www.youtube.com/watch?v=_96stDCb-mk&t=3299|title=AMD CEO Lisa Su's COMPUTEX 2019 Keynote|website=www.youtube.com}}</ref> (Ryzen 3000 series, Threadripper 3000 series, Epyc [[Epyc|Rome]]))<br />AMD [[Zen 3]] (Ryzen 5000 series) || [[Advanced Vector Extensions|AVX2]] & [[FMA instruction set|FMA]] (256-bit) || 16 || 32 || 0
|-
! colspan="5" |ARM CPU
|-
| ARM Cortex-A7, A9, A15 || [[ARM architecture|ARMv7]] || 1 || 8 || 0
|-
| ARM Cortex-A32, A35, A53, A55, [[ARM Cortex-A72|A72]], [[ARM Cortex-A73|A73]], [[ARM Cortex-A75|A75]] || [[ARM architecture|ARMv8]] || 2 || 8 || 0
|-
| [[ARM Cortex-A57]]<ref name="tpeak_jos"/> || [[ARM architecture|ARMv8]] || 4 || 8 || 0
|-
| [[ARM Cortex-A76]], [[ARM Cortex-A77|A77]], [[ARM Cortex-A78|A78]]|| [[ARM architecture|ARMv8]] || 8 || 16 || 0
|-
|[[ARM Cortex-X1]]
|[[ARM architecture|ARMv8]]
|16
|32
|?
|-
| Qualcomm [[Krait (CPU)|Krait]] || [[ARM architecture|ARMv8]] || 1 || 8 || 0
|-
| Qualcomm [[Kryo]] (1xx - 3xx) || [[ARM architecture|ARMv8]] || 2 || 8 || 0
|-
| Qualcomm [[Kryo]] (4xx - 5xx) || [[ARM architecture|ARMv8]] || 8 || 16 || 0
|-
| Samsung [[Exynos]] M1 and M2 || [[ARM architecture|ARMv8]] || 2 || 8 || 0
|-
| Samsung [[Exynos]] M3 and M4 || [[ARM architecture|ARMv8]] || 3 || 12 || 0
|-
| IBM PowerPC [[IBM A2|A2]] (Blue Gene/Q) || ? || 8 || 8 (as FP64) || 0
|-
| [[Hitachi SH-4]]<ref>{{cite journal |title=Entertainment Systems and High-Performance Processor SH-4 |journal=Hitachi Review |date=1999 |volume=48 |issue=2 |pages=58–63 |publisher=[[Hitachi]] |url=https://retrocdn.net/images/f/fa/Entertainment_Systems_and_High-Performance_Processor_SH-4.pdf |access-date=21 June 2019}}</ref><ref>{{cite web |title=SH-4 Next-Generation DSP Architecture for VoIP |url=https://retrocdn.net/images/b/b3/SH-4_Next-Generation_DSP_Architecture.pdf |publisher=[[Hitachi]] |year=2000 |access-date=21 June 2019}}</ref> || [[Hitachi SH-4|SH-4]] || 1 || 7 || 0
|-
! colspan="5" |Nvidia GPU
|-
|Nvidia [[Curie (microarchitecture)|Curie]] ([[GeForce 6 series]] and [[GeForce 7 series]])
|[[Parallel Thread Execution|PTX]]
|?
|8
|?
|-
|Nvidia [[Tesla (microarchitecture)|Tesla]] 2.0 (GeForce GTX 260-295)
|[[Parallel Thread Execution|PTX]]
|?
|2
|?
|-
| Nvidia [[Fermi (microarchitecture)|Fermi]] (chỉ tính GeForce GTX 465–480, 560 Ti, 570-590) || [[Parallel Thread Execution|PTX]] || 1/4 (locked by driver, 1 in hardware) || 2 || 0
|-
| Nvidia [[Fermi (microarchitecture)|Fermi]] (chỉ tính Quadro 600-2000) || [[Parallel Thread Execution|PTX]] || 1/8 || 2 || 0
|-
| Nvidia [[Fermi (microarchitecture)|Fermi]] (chỉ tính Quadro 4000–7000, Tesla) || [[Parallel Thread Execution|PTX]] || 1 || 2 || 0
|-
| Nvidia [[Kepler (microarchitecture)|Kepler]] (GeForce (trừTitan and Titan Black), Quadro (except K6000), Tesla K10) || [[Parallel Thread Execution|PTX]] || 1/12 (for [[GeForce 700 series|GK110]] || 2 || 0
|-
| Nvidia [[Kepler (microarchitecture)|Kepler]] (GeForce GTX Titan and Titan Black, Quadro K6000, Tesla (trừ K10)) || [[Parallel Thread Execution|PTX]] || 2/3 || 2 || 0
|-
| Nvidia [[Maxwell (microarchitecture)|Maxwell]]<br />Nvidia [[Pascal (microarchitecture)|Pascal]] (không tính Quadro GP100 and Tesla P100) || [[Parallel Thread Execution|PTX]] || 1/16 || 2 || 1/32
|-
| Nvidia [[Pascal (microarchitecture)|Pascal]] (chỉ tính Quadro GP100 and Tesla P100) || [[Parallel Thread Execution|PTX]] || 1 || 2 || 4
|-
| Nvidia [[Volta (microarchitecture)|Volta]]<ref name="Nvidia Volta">{{cite web|url=https://devblogs.nvidia.com/inside-volta/|title=Inside Volta: The World's Most Advanced Data Center GPU|date=May 10, 2017}}</ref> || [[Parallel Thread Execution|PTX]] || 1 || 2 ([[FP32]]) + 2 ([[Int32|INT32]]) || 16
|-
| Nvidia [[Turing (microarchitecture)|Turing]] (chỉ tính GeForce [[GeForce 16 series|16XX]]) || [[Parallel Thread Execution|PTX]] || 1/16 || 2 (FP32) + 2 (INT32) || 4
|-
| Nvidia [[Turing (microarchitecture)|Turing]] (không tính GeForce [[GeForce 16 series|16XX]]) || [[Parallel Thread Execution|PTX]] || 1/16 || 2 (FP32) + 2 (INT32) || 16
|-
| Nvidia [[Ampere (microarchitecture)|Ampere]]<ref name="Nvidia Ampere 1">{{cite web|url=https://devblogs.nvidia.com/nvidia-ampere-architecture-in-depth/|title=NVIDIA Ampere Architecture In-Depth|date=May 14, 2020}}</ref><ref name="Nvidia Ampere 2">{{cite web|url=https://www.nvidia.com/en-us/data-center/a100/|title=NVIDIA A100}}</ref> (chỉ tính Tesla A100/A30) || [[Parallel Thread Execution|PTX]] || 2 || 2 (FP32) + 2 (INT32) || 32
|-
| Nvidia [[Ampere (microarchitecture)|Ampere]] (gồm GeForce và Quadro, Tesla A40/A10) || [[Parallel Thread Execution|PTX]] || 1/32 || 2 (FP32) + 0 (INT32) ''or'' 1 (FP32) + 1 (INT32) || 8
|-
! colspan="5" |AMD GPU
|-
|AMD [[TeraScale (microarchitecture)#TeraScale%201|TeraScale 1]] ([[Radeon HD 4000 series]])
|[[TeraScale (microarchitecture)#TeraScale%201|TeraScale 1]]
|0.4
|2
|?
|-
|AMD [[TeraScale (microarchitecture)#TeraScale%202|TeraScale 2]] ([[Radeon HD 5000 series]])
|[[TeraScale (microarchitecture)#TeraScale%202|TeraScale 2]]
|1
|2
|?
|-
|AMD [[TeraScale (microarchitecture)#TeraScale%203|TeraScale 3]] ([[Radeon HD 6000 series]])
|[[TeraScale (microarchitecture)#TeraScale%203|TeraScale 3]]
|1
|4
|?
|-
| AMD [[Graphics Core Next|GCN]] (chỉ tính Radeon Pro W 8100-9100) || [[Graphics Core Next|GCN]] || 1 || 2 || ?
|-
| AMD [[Graphics Core Next|GCN]] (không tính Radeon Pro W 8100-9100, Vega 10-20) || [[Graphics Core Next|GCN]] || 1/8 || 2 || 4
|-
| AMD [[AMD RX Vega series|GCN Vega 10]] || [[Graphics Core Next|GCN]] || 1/8 || 2 || 4
|-
| AMD [[AMD RX Vega series|GCN Vega 20]] (chỉ tính Radeon VII) || [[Graphics Core Next|GCN]] || || 2 || 4
|-
| AMD [[AMD RX Vega series|GCN Vega 20]] (chỉ tính Radeon Instinct MI50 / MI60 and Radeon Pro VII) || [[Graphics Core Next|GCN]] || 1 || 2 || 4
|-
| AMD [[AMD Radeon RX 5000 series|RDNA]]<ref name="hardwareluxx">{{cite web|url=https://www.hardwareluxx.de/index.php/artikel/hardware/grafikkarten/49892-alles-zu-navi-radeon-rx-5700-xt-ist-rdna-mit-gddr6.html?start=1|title=Alles zu Navi: Radeon RX 5700 XT ist RDNA mit GDDR6}}</ref><ref name="techpowerup">{{cite web|url=https://www.techpowerup.com/gpu-specs/radeon-rx-5700-xt.c3339|title=AMD Radeon RX 5700 XT}}</ref><br />AMD [[RDNA 2]] || [[AMD RDNA Architecture|RDNA]] || 1/8 || 2 || 4
|-
| AMD [[AMD CDNA Architecture|CDNA]] || [[AMD CDNA Architecture|CDNA]] || 1 || 4 ([[Tenxơ]])<ref name="AMD">{{cite web|url=https://www.amd.com/en/products/server-accelerators/instinct-mi100|title=AMD Instinct MI100 Accelerator}}</ref> || 16
|-
| AMD [[AMD CDNA Architecture|CDNA 2]] || [[AMD CDNA Architecture|CDNA 2]] || 4 ([[Tenxơ]]) || 4 ([[Tenxơ]]) || 16
|-
! colspan="5" |Qualcomm GPU
|-
|Qualcomm [[Adreno]] 5x0
|[[Adreno]] 5xx
|1
|2
|4
|-
|Qualcomm [[Adreno]] 6x0
|[[Adreno]] 6xx
|1
|2
|4
|-
! colspan="5" |Graphcore
|-
| Graphcore Colossus GC2<ref name="Source 1">{{cite web|url=https://www.youtube.com/watch?v=2IOyQEIlN6Y&t=986|title=6 threads per core imply that IPC is a multiple of 6, 1216 cores per chip|website=www.youtube.com}}</ref><ref name="Source 2">{{cite web|url=https://www.youtube.com/watch?v=2IOyQEIlN6Y&t=1361|title=250 TFLOPs/s for two chips with FP16 mixed precision|website=www.youtube.com}}</ref><ref name="Source 3">{{cite web|url=https://www.youtube.com/watch?v=7XtBZ4Hsi_M&t=2208|title=Estimation via power consumption that FP32 is 1/4 of FP16 and that clock frequency is below 1.5GHz|website=www.youtube.com}}</ref> (values estimated) || ? || 0 || 18 || 72
|-
| Graphcore Colossus GC200 Mk2<ref name="Source 4">{{cite web|url=https://www.youtube.com/watch?v=_zvU0uwIafQ|title=Introducing Graphcore's Mk2 IPU systems|website=www.youtube.com}}</ref> (values estimated) || ? || 0 || 36 || 144
|-
! colspan="5" |[[Supercomputer]]
|-
|[[ENIAC]] @ 100 Khz with 385 Flops<ref>{{Cite web|title=Computers of Yore|url=https://www.clear.rice.edu/comp201/08-spring/lectures/lec02/computers.shtml|access-date=2021-02-26|website=www.clear.rice.edu}}</ref>
|
|
|
|
|-
|48-bit processor @ 208 [[Kilohertz|kHz]] in [[CDC 1604]] in 1960
|
|
|
|
|-
|60-bit processor @ 10 Mhz in [[CDC 6600|CDC6600]] in 1964
|
|0.3 (FP60)
|
|
|-
|60-bit processor @ 10 Mhz in [[CDC 7600|CDC7600]] in 1967
|
|1.0 (FP60) <ref>{{Citation|title=CDC 7600|date=2020-09-16|url=https://en.wikipedia.org/w/index.php?title=CDC_7600&oldid=978691910|work=Wikipedia|language=en|access-date=2021-02-26}}</ref>
|
|
|-
|[[Cray-1]] @ 80 Mhz in 1976
|
|2
|
|
|-
|[[CDC Cyber]] 205 @ 50 Mhz in 1981
|[[Fortran|FORTRAN]] compiler
(ANSI 77 with vector extensions)
|8
|16
|
|-
!Vi kiến trúc
!ISA
!FP64
!FP32
!FP16
|}
'''Source:'''<ref>{{Cite web | url=https://en.wikichip.org/wiki/flops | title=Floating-Point Operations Per Second (FLOPS)}}</ref>

==Tham khảo==
==Tham khảo==
{{tham khảo}}
{{tham khảo}}
{{sơ khai}}


[[Thể loại:Kiểm chuẩn máy tính]]
[[Thể loại:Kiểm chuẩn máy tính]]
[[Thể loại:Đơn vị đo tần suất]]

Phiên bản lúc 07:14, ngày 9 tháng 11 năm 2021

Trong máy tính, FLOPS (FLoating-point Operations Per Second) là một thước đo hiệu suất máy tính, đặc biệt là trong lĩnh vực tính toán khoa học sử dụng nhiều các tính toán thập phân trong một giây.

1 tflops, hay 1 teraflops hay one trillion flops, là một nghìn tỷ con tính trong một giây, thường dùng để đo sức mạnh (performance) một hệ thống siêu máy tính song song. Đây là một khái niệm thường được sử dụng trong phép so sánh nhanh hay chậm giữa các phần cứng của máy tính trong quá trình huấn luyện của mạng neuron trong lĩnh vực trí tuệ nhân tạo.

FLOPs của một số bộ xử lý

Vi kiến trúc ISA FP64 FP32 FP16
Intel CPU
Intel 80486 x87 (32-bit) ? 0.128[1] ?
Intel P5 Pentium
Intel P6 Pentium Pro
x87 (32-bit) ? 0.5[1] ?
Intel P5 Pentium MMX
Intel P6 Pentium II
MMX (64-bit) ? 1[2] ?
Intel P6 Pentium III SSE (64-bit) ? 2[2] ?
Intel Netburst Pentium 4 (Willamette, Northwood) SSE2 (64-bit) 2 4 ?
Intel P6 Pentium M SSE2 (64-bit) 1 2 ?
Intel Netburst Pentium 4 (Prescott, Cedar Mill)
Intel Netburst Pentium D (Smithfield, Presler)
Intel P6 Core (Yonah)
SSE3 (64-bit) 2 4 ?
Intel Core (Merom, Penryn)
Intel Nehalem[3] (Nehalem, Westmere)
SSSE3 (128-bit)
SSE4 (128-bit)
4 8 ?
Intel Atom (Bonnell, Saltwell, Silvermont and Goldmont) SSE3 (128-bit) 2 4 ?
Intel Sandy Bridge (Sandy Bridge, Ivy Bridge) AVX (256-bit) 8 16 0
Intel Haswell[3] (Haswell, Devil's Canyon, Broadwell)
Intel Skylake (Skylake, Kaby Lake, Coffee Lake, Comet Lake, Whiskey Lake, Amber Lake)
AVX2 & FMA (256-bit) 16 32 0
Intel Xeon Phi (Knights Corner) SSE & FMA (256-bit) 16 32 0
Intel Skylake-X (Skylake-X, Cascade Lake)
Intel Xeon Phi (Knights Landing, Knights Mill)

Intel Ice Lake, Tiger Lake and Rocket Lake

AVX-512 & FMA (512-bit) 32 64 0
AMD CPU
AMD Bobcat AMD64 (64-bit) 2 4 0
AMD Jaguar
AMD Puma
AVX (128-bit) 4 8 0
AMD K10 SSE4/4a (128-bit) 4 8 0
AMD Bulldozer[3] (Piledriver, Steamroller, Excavator) AVX (128-bit) Bulldozer-Steamroller

AVX2 (128-bit) Excavator

FMA3 (Bulldozer)[4]

FMA3/4 (Piledriver-Excavator)

4 8 0
AMD Zen (Ryzen 1000 series, Threadripper 1000 series, Epyc Naples)
AMD Zen+[3][5][6][7] (Ryzen 2000 series, Threadripper 2000 series)
AVX2 & FMA (128-bit, 256-bit decoding)[8] 8 16 0
AMD Zen 2[9] (Ryzen 3000 series, Threadripper 3000 series, Epyc Rome))
AMD Zen 3 (Ryzen 5000 series)
AVX2 & FMA (256-bit) 16 32 0
ARM CPU
ARM Cortex-A7, A9, A15 ARMv7 1 8 0
ARM Cortex-A32, A35, A53, A55, A72, A73, A75 ARMv8 2 8 0
ARM Cortex-A57[3] ARMv8 4 8 0
ARM Cortex-A76, A77, A78 ARMv8 8 16 0
ARM Cortex-X1 ARMv8 16 32 ?
Qualcomm Krait ARMv8 1 8 0
Qualcomm Kryo (1xx - 3xx) ARMv8 2 8 0
Qualcomm Kryo (4xx - 5xx) ARMv8 8 16 0
Samsung Exynos M1 and M2 ARMv8 2 8 0
Samsung Exynos M3 and M4 ARMv8 3 12 0
IBM PowerPC A2 (Blue Gene/Q) ? 8 8 (as FP64) 0
Hitachi SH-4[10][11] SH-4 1 7 0
Nvidia GPU
Nvidia Curie (GeForce 6 series and GeForce 7 series) PTX ? 8 ?
Nvidia Tesla 2.0 (GeForce GTX 260-295) PTX ? 2 ?
Nvidia Fermi (chỉ tính GeForce GTX 465–480, 560 Ti, 570-590) PTX 1/4 (locked by driver, 1 in hardware) 2 0
Nvidia Fermi (chỉ tính Quadro 600-2000) PTX 1/8 2 0
Nvidia Fermi (chỉ tính Quadro 4000–7000, Tesla) PTX 1 2 0
Nvidia Kepler (GeForce (trừTitan and Titan Black), Quadro (except K6000), Tesla K10) PTX 1/12 (for GK110 2 0
Nvidia Kepler (GeForce GTX Titan and Titan Black, Quadro K6000, Tesla (trừ K10)) PTX 2/3 2 0
Nvidia Maxwell
Nvidia Pascal (không tính Quadro GP100 and Tesla P100)
PTX 1/16 2 1/32
Nvidia Pascal (chỉ tính Quadro GP100 and Tesla P100) PTX 1 2 4
Nvidia Volta[12] PTX 1 2 (FP32) + 2 (INT32) 16
Nvidia Turing (chỉ tính GeForce 16XX) PTX 1/16 2 (FP32) + 2 (INT32) 4
Nvidia Turing (không tính GeForce 16XX) PTX 1/16 2 (FP32) + 2 (INT32) 16
Nvidia Ampere[13][14] (chỉ tính Tesla A100/A30) PTX 2 2 (FP32) + 2 (INT32) 32
Nvidia Ampere (gồm GeForce và Quadro, Tesla A40/A10) PTX 1/32 2 (FP32) + 0 (INT32) or 1 (FP32) + 1 (INT32) 8
AMD GPU
AMD TeraScale 1 (Radeon HD 4000 series) TeraScale 1 0.4 2 ?
AMD TeraScale 2 (Radeon HD 5000 series) TeraScale 2 1 2 ?
AMD TeraScale 3 (Radeon HD 6000 series) TeraScale 3 1 4 ?
AMD GCN (chỉ tính Radeon Pro W 8100-9100) GCN 1 2 ?
AMD GCN (không tính Radeon Pro W 8100-9100, Vega 10-20) GCN 1/8 2 4
AMD GCN Vega 10 GCN 1/8 2 4
AMD GCN Vega 20 (chỉ tính Radeon VII) GCN 2 4
AMD GCN Vega 20 (chỉ tính Radeon Instinct MI50 / MI60 and Radeon Pro VII) GCN 1 2 4
AMD RDNA[15][16]
AMD RDNA 2
RDNA 1/8 2 4
AMD CDNA CDNA 1 4 (Tenxơ)[17] 16
AMD CDNA 2 CDNA 2 4 (Tenxơ) 4 (Tenxơ) 16
Qualcomm GPU
Qualcomm Adreno 5x0 Adreno 5xx 1 2 4
Qualcomm Adreno 6x0 Adreno 6xx 1 2 4
Graphcore
Graphcore Colossus GC2[18][19][20] (values estimated) ? 0 18 72
Graphcore Colossus GC200 Mk2[21] (values estimated) ? 0 36 144
Supercomputer
ENIAC @ 100 Khz with 385 Flops[22]
48-bit processor @ 208 kHz in CDC 1604 in 1960
60-bit processor @ 10 Mhz in CDC6600 in 1964 0.3 (FP60)
60-bit processor @ 10 Mhz in CDC7600 in 1967 1.0 (FP60) [23]
Cray-1 @ 80 Mhz in 1976 2
CDC Cyber 205 @ 50 Mhz in 1981 FORTRAN compiler

(ANSI 77 with vector extensions)

8 16
Vi kiến trúc ISA FP64 FP32 FP16

Source:[24]

Tham khảo

  1. ^ a b “home.iae.nl”.
  2. ^ a b “Computing Power throughout History”. www.alternatewars.com. Truy cập ngày 13 tháng 2 năm 2021.
  3. ^ a b c d e Dolbeau, Romain (2017). “Theoretical Peak FLOPS per instruction set: a tutorial”. Journal of Supercomputing. 74 (3): 1341–1377. doi:10.1007/s11227-017-2177-5. S2CID 3540951.
  4. ^ “New instructions support for Bulldozer (FMA3) and Piledriver (FMA3+4 and CVT,BMI,TBM)” (PDF).
  5. ^ “Agner's CPU blog - Test results for AMD Ryzen”.
  6. ^ https://arstechnica.com/gadgets/2017/03/amds-moment-of-zen-finally-an-architecture-that-can-compete/2/ "each core now has a pair of 128-bit FMA units of its own"
  7. ^ Mike Clark (23 tháng 8 năm 2016). A New x86 Core Architecture for the Next Generation of Computing (PDF). HotChips 28. AMD. page 7
  8. ^ “The microarchitecture of Intel and AMD CPUs” (PDF).
  9. ^ “AMD CEO Lisa Su's COMPUTEX 2019 Keynote”. www.youtube.com.
  10. ^ “Entertainment Systems and High-Performance Processor SH-4” (PDF). Hitachi Review. Hitachi. 48 (2): 58–63. 1999. Truy cập ngày 21 tháng 6 năm 2019.
  11. ^ “SH-4 Next-Generation DSP Architecture for VoIP” (PDF). Hitachi. 2000. Truy cập ngày 21 tháng 6 năm 2019.
  12. ^ “Inside Volta: The World's Most Advanced Data Center GPU”. 10 tháng 5 năm 2017.
  13. ^ “NVIDIA Ampere Architecture In-Depth”. 14 tháng 5 năm 2020.
  14. ^ “NVIDIA A100”.
  15. ^ “Alles zu Navi: Radeon RX 5700 XT ist RDNA mit GDDR6”.
  16. ^ “AMD Radeon RX 5700 XT”.
  17. ^ “AMD Instinct MI100 Accelerator”.
  18. ^ “6 threads per core imply that IPC is a multiple of 6, 1216 cores per chip”. www.youtube.com.
  19. ^ “250 TFLOPs/s for two chips with FP16 mixed precision”. www.youtube.com.
  20. ^ “Estimation via power consumption that FP32 is 1/4 of FP16 and that clock frequency is below 1.5GHz”. www.youtube.com.
  21. ^ “Introducing Graphcore's Mk2 IPU systems”. www.youtube.com.
  22. ^ “Computers of Yore”. www.clear.rice.edu. Truy cập ngày 26 tháng 2 năm 2021.
  23. ^ “CDC 7600”, Wikipedia (bằng tiếng Anh), 16 tháng 9 năm 2020, truy cập ngày 26 tháng 2 năm 2021
  24. ^ “Floating-Point Operations Per Second (FLOPS)”.