Obsah
Programy jsou napsane pro zpracovani po blocich. Idea je takova, ze bloky
se vlezou do rychlejsi L1/L2 cache pameti procesoru a pristup k datum je
podstatne rychlejsi. Na druhou stranu pribude drobna administrativa, takze
zrychleni neni zaruceno. Navic je tato vlastnost zavisla na architekture,
takze jsme porovnali nasledujici systemy: IBM/Power2, solo komp AMD/Athlon,
cluster Intel/P4.
Prvni pripad je 2D. Plne pole (nejak nemuzu najit vhodny cesky vyraz)
neni optimalizovane na rychlost a tudiz neni napsano ani zpracovani po blocich.
Lze ovsem ocekavat podobne vysledky jako v pripade narrowbandu. Nasledujici
tabulka ukazuje porovnani ruznych pripadu na uzkem pasu napocitanem na blokovem
a bodovem zpracovani.
<cache2_narrow>
Architektura
|
IBM
|
AMD
|
Intel
|
Bodove
|
7018
|
15444
|
949
|
Blokove
|
7205
|
|
1138
|
Zrychleni blokoveho
|
-3%
|
|
-20%
|
3D verze. Tentokrat je implementovane jen plne pole, takze zde porovnavame
blokove a bodove zpracovani na tomto pripadu.
<cache3_full>
Architektura
|
IBM
|
AMD
|
Intel
|
Bodove
|
|
|
1585
|
Blokove
|
|
|
1850
|
Zrychleni blokoveho
|
|
|
-17%
|
* IBM/Power3
Vsechno zajiste zavisi na velikosti bloku a ma cenu se tedy ptat, jak
to ovlivni nas vypocet. Ciste teoreticky by mel s velikosti bloku vykon
trochu rust a pote hodne rychle spadnout (jak lze pozorovat napr. v Sandre
na blokovem nasobeni matic). My mame situaci o neco slozitejsi z duvodu
prekryvu, narocnejsiho vypoctu, aproximaci...
<cache2_size>
Rozdeleni (vsechno dava velikost pokryti 38bodu)
|
IBM
|
AMD
|
Intel
|
1x38
|
3988
|
3857
|
704
|
2x20
|
3955
|
3869
|
702
|
4x11
|
3987
|
3875
|
733
|
6x8
|
4016
|
4004
|
734
|