Obsah
Tak tady je par tabulek na vysledky efektivnosti paralelizace na
ruznych mrizkach. Pouzit byl opet klasicky model ale s anizotropii
nastavenou na kruh (izotropie). Nasledujici tabulka zachycuje
efektivnost, kdyz zvysujeme pocet bodu mrizky (IBM SP). Cisla v tabulce
udavaji cas a LZV1.
<eff1>
Pocet bodu \ Pocet procesu
|
1
|
4
|
8
|
12
|
16
|
200 x 200
|
908
|
258
(114%)
|
149 (131%)
|
113
(149%)
|
94 (166%)
|
267 x 267
|
2585
|
697
(108%)
|
392 (121%)
|
277
(129%)
|
231 (143%)
|
400 x 400
|
14171
|
3657
(103%)
|
1915 (108%)
|
1343
(114%)
|
1058 (119%)
|
667 x 667
|
98904
|
25574
(103%)
|
12889 (104%)
|
8740
(106%)
|
6775 (110%)
|
1000 x 1000
|
-
|
141858
|
72468
(102%)
|
49124
(104%)
|
37494
(106%)
|
Na kroku 267x267 jsme navic provedli porovnani rychlosti vypoctu pro
ruzne rozdeleni procesu (tabulka pro 16 procesu).
Procesy
|
2 x 8
|
8 x 2
|
4 x 4
|
Doba vypoctu
|
229
|
236
|
231
|
A tentokrat 4-fold anizotropie na novem clusteru IBM SP, 4-fold aniz na
(0,8).
<eff2>
Pocet bodu (krok)\ Pocet procesu
|
1
|
4
|
8
|
12
|
16
|
200 x 200
|
4305
|
1117
(104%)
|
572 (106%)
|
401
(112%)
|
302 (112%)
|
267 x 267
|
13483
|
3469
(103%)
|
1760 (104%)
|
1216
(108%)
|
915 (109%)
|
400 x 400
|
67968
|
17422
(103%)
|
8678 (102%)
|
5924
(105%)
|
4478 (105%)
|
500 x 500
|
165670
|
42515
(103%)
|
21090 (102%)
|
14524
(105%)
|
10726 (104%)
|
A nasleduje jak jinak nez narrowband. 4-fold anizotroipe, 3.5 konecny
cas na (0,8) na 0.03 jen pridane natoceni. (Porovnani s full bandem je
267x267).
<eff3>
Sirka pasu (body, real) \ Pocet
procesu
|
1
|
4
|
8
|
12
|
16
|
30 (0.9) |
4199
|
1335
(127%)
|
836 (159%)
|
681
(195%)
|
579 (220%)
|
45 (1.35)
|
6039
|
2067
(137%)
|
1343 (178%)
|
1142
(227%)
|
981 (260%)
|
60 (1.8)
|
7916
|
2880
(146%)
|
1938 (196%)
|
1655
(251%)
|
1461 (295%)
|
75 (2.25)
|
9970
|
3776
(151%)
|
2646 (212%)
|
2307
(278%)
|
2044 (328%)
|
90 (2.7)
|
12140
|
4842 (160%)
|
3439
(227%)
|
3035 (300%)
|
2789
(368%)
|
** Referencni vysledek na plne domene: 936s (na 16 procesech) - lze
celkem presne pouzit radku 267x267 v eff2.
Co dodat... Zajimavym dusledkem je, ze na 16 procesech je rychlejsi
spocitat fullband na narrow band (az na jeden pripad). :-)) Vlastne
:-((. opakovany pokus, ale na jemnejsi mrizce (0.02).
<eff4>
Sirka pasu (body, real) \ Pocet
procesu
|
1
|
4
|
8
|
12
|
16
|
30 (0.6)
|
15986
|
4705 (118%)
|
2883
(144%)
|
2219 (167%)
|
1888
(189%)
|
45 (0.9)
|
19815*
|
6301
(127%)
|
3903 (157%)
|
3080
(187%)
|
2642 (213%)
|
53 (1.06)
|
23429
|
7211
(123%)
|
4613 (158%)
|
3722
(191%)
|
3170 (216%)
|
68 (1.36)
|
29693
|
9933
(134%)
|
6283 (169%)
|
5357
(217%)
|
4627 (249%)
|
90 (1.8)
|
39394
|
13978
(142%)
|
9368 (190%)
|
7799
(238%)
|
6991 (284%)
|
* Vysledek az na podruhe.
** Referencni vysledek na plne domene: 4533s (na 16 procesech) - lze
celkem presne pouzit radku 400x400 v eff2.
Pro 45 nam to napocitalo desny vysledek - 8626s je jednoduse
nevysvetlitelny - stejne zdrojaky, jen zmeneny parametr a takhle uplne
utece z rady. Zkoumal jsem i moznost, ze by jeden uzel byl nejak divne
nastaveny, ale vypocet probehl na spe114 a pripad pro 30 bodu taky a ten
dopadl normalne... Je to zahada. A stalo se to uz podruhe. Domneka je
takova, ze se mu ta uloha nejakym zpusob podarila spustit na obou
procesorech (jsou dualni). Zaznam z logu ovsem vypovida o case zhruba
15601 +- nejaka ta vterinka. Nekonec jsme simulaci prepocitali a zadny
problem.
A protoze bylo IBM nejake volne, tak jeste jedna tabulka. :-) Opet jako
predchozi, jen krok 0.016 - jeste jemnejsi krok.
<eff5>
Sirka pasu (body, real) \ Pocet
procesu
|
1
|
4
|
8
|
12
|
16
|
44 (0.704)
|
37360
|
11225 (120%)
|
6739
(144%)
|
5089 (164%)
|
4386
(188%)
|
56 (0.896)
|
47642
|
14511
(122%)
|
8899 (149%)
|
6977
(176%)
|
5950 (200%)
|
66 (1.056)
|
55981*
|
17649
(126%)
|
10684 (153%)
|
8827
(189%)
|
7530 (215%)
|
85 (1.36)
|
70742
|
23081
(131%)
|
14889 (168%)
|
12312
(209%)
|
10657 (241%)
|
112 (1.792)
|
95282
|
32728
(138%)
|
22017 (185%)
|
18503
(233%)
|
16269 (273%)
|
* Opet bylo nutno napocitat dvakrat (byl 24163).
** Referencni vypocet na plne domene: 10968s (na 16 procesech) - lze
celkem presne pouzit radku 500x500 v eff2.