Ekam Deeksha v2 · CUDA + OpenCL

GPU Benchmarks

8 GPU od GTX 1060 po H100 SXM — čistý benchmark bez pool overhead. Algoritmus: 256 KiB scratchpad, 4 průchody, 256 náhodných čtení, INT8 NPU Mix, 8-round Cosmic Fusion.

Výsledky — seřazeno dle výkonu

GPU	Architektura	VRAM	BW (GB/s)	KH/s	Opt. TPB	Opt. wc	$/hr	KH/$
H100 SXM	Hopper (SM 9.0)	80 GB HBM3	3,350	81.7 KH/s	24	262144	$1.88	43 KH/$
A100 SXM4	Ampere (SM 8.0)	40 GB HBM2e	2,039	38.5 KH/s	any	any	$0.62	62 KH/$
RTX 5070 Ti	Blackwell (SM 12.0)	16 GB GDDR7	896	21 KH/s	48	49152	$0.10	210 KH/$
RTX 3060	Ampere (SM 8.6)	12 GB GDDR6	360	16.5 KH/s	24	4096	$0.048	344 KH/$
RX 5600 XT	RDNA1 (OpenCL)	6 GB GDDR6	288	10 KH/s	lws=256	—	local	∞ KH/$
GTX 1080	Pascal (SM 6.1)	8 GB GDDR5X	320	9.5 KH/s	48–256	16384	$0.048	198 KH/$
GTX 1060 3GB	Pascal (SM 6.1)	3 GB GDDR5	192	5.9 KH/s	48	2560	$0.095	62 KH/$
RTX 2060 SUPER	Turing (SM 7.5)	8 GB GDDR6	448	3.4 KH/s	—	—	—	— KH/$

¹ RTX 2060S: benchmark s pool overhead — dolní mez. ² RX 5600 XT: OpenCL, ne CUDA. Vast.ai ceny z dubna 2026.

Klíčové závěry

TPB=24 dominuje na moderních GPU

¾ warpu (TPB=24) je optimální pro Hopper (H100: 81.7 KH/s) i Ampere consumer (RTX 3060: 16.5 KH/s). TPB=48 vyhrává na Blackwell (5070 Ti) a Pascal 3GB (1060). Staré výchozí TPB=256 je katastrofálně pomalé na moderních architekturách.

Šířka pásma → hashrate je sublineární

Nízké GPU dostávají více KH/s na GB/s šířky pásma. 256 KiB scratchpad s náhodnými čteními je omezen latencí, ne propustností. L2 cache má větší vliv než surová propustnost.

RTX 3060 = nejlepší cena/výkon

Za $0.048/hod dává RTX 3060 úžasných 344 KH/$. To je 2× lepší než RTX 5070 Ti a 8× lepší než H100. Pro masovou těžbu je 3060 jednoznačný král.

3 GB karty fungují!

GTX 1060 3GB dosahuje 5.9 KH/s s wc=2560 (640 MB scratchpad). Minimum VRAM pro Ekam Deeksha je přibližně 2 GB.

Doporučené nastavení

Třída GPU	ZION_CUDA_TPB	ZION_GPU_WORK_SIZE	Poznámka
3 GB (1060…)	48	2560	VRAM-limit
6 GB (2060, 1660)	48	16384	Dobrý kompromis
8 GB (1080, 3060 Ti)	48	16384	1080: TPB=256 taky OK
12 GB (3060)	24	4096	¾ warpu, Ampere optimální
16 GB (5070 Ti…)	48	49152
24+ GB (A100, H100)	24	262144	H100 škáluje s wc; A100 flat

Efektivita šířky pásma

H100 SXM

24.4 H/s per GB/s

A100 SXM4

18.9 H/s per GB/s

RTX 5070 Ti

23.4 H/s per GB/s

GTX 1080

29.7 H/s per GB/s

GTX 1060

30.7 H/s per GB/s

Nižší GPU mají lepší KH/s na GB/s — Ekam Deeksha je omezen latencí paměti, ne propustností.

Benchmarky provedeny v režimu --ekam-bench (10s měření, bez pool overhead). Miner commit: 9e307c4d

Průvodce těžbou

GPU

Architektura

VRAM

BW (GB/s)

KH/s

Opt. TPB

Opt. wc

$/hr

KH/$

H100 SXM

Hopper (SM 9.0)

80 GB HBM3

3,350

81.7 KH/s

262144

$1.88

43 KH/$

A100 SXM4

Ampere (SM 8.0)

40 GB HBM2e

2,039

38.5 KH/s

any

$0.62

62 KH/$

RTX 5070 Ti

Blackwell (SM 12.0)

16 GB GDDR7

896

21 KH/s

49152

$0.10

210 KH/$

RTX 3060

Ampere (SM 8.6)

12 GB GDDR6

360

16.5 KH/s

4096

$0.048

344 KH/$

RX 5600 XT

RDNA1 (OpenCL)

6 GB GDDR6

288

10 KH/s

lws=256

—

local

∞ KH/$

GTX 1080

Pascal (SM 6.1)

8 GB GDDR5X

320

9.5 KH/s

48–256

16384

$0.048

198 KH/$

GTX 1060 3GB

Pascal (SM 6.1)

3 GB GDDR5

192

5.9 KH/s

2560

$0.095

62 KH/$

RTX 2060 SUPER

Turing (SM 7.5)

8 GB GDDR6

448

3.4 KH/s

—

— KH/$

Klíčové závěry

TPB=24 dominuje na moderních GPU

Šířka pásma → hashrate je sublineární

Nízké GPU dostávají více KH/s na GB/s šířky pásma. 256 KiB scratchpad s náhodnými čteními je omezen latencí, ne propustností. L2 cache má větší vliv než surová propustnost.

RTX 3060 = nejlepší cena/výkon

Za $0.048/hod dává RTX 3060 úžasných 344 KH/$. To je 2× lepší než RTX 5070 Ti a 8× lepší než H100. Pro masovou těžbu je 3060 jednoznačný král.

3 GB karty fungují!

GTX 1060 3GB dosahuje 5.9 KH/s s wc=2560 (640 MB scratchpad). Minimum VRAM pro Ekam Deeksha je přibližně 2 GB.

Třída GPU

ZION_CUDA_TPB

ZION_GPU_WORK_SIZE

Poznámka

3 GB (1060…)

2560

VRAM-limit

6 GB (2060, 1660)

16384

Dobrý kompromis

8 GB (1080, 3060 Ti)

16384

1080: TPB=256 taky OK

12 GB (3060)

4096

¾ warpu, Ampere optimální

16 GB (5070 Ti…)

49152

24+ GB (A100, H100)

262144

H100 škáluje s wc; A100 flat