Test efektivnosti

Obsah

Tak tady je par tabulek na vysledky efektivnosti paralelizace na ruznych mrizkach. Pouzit byl opet klasicky model ale s anizotropii nastavenou na kruh (izotropie). Nasledujici tabulka zachycuje efektivnost, kdyz zvysujeme pocet bodu mrizky (IBM SP). Cisla v tabulce udavaji cas a LZV1.

<eff1>
Pocet bodu \ Pocet procesu
1
4
8
12
16
200 x 200
908
258  (114%)
149 (131%)
113 (149%)
94 (166%)
267 x 267
2585
697 (108%)
392 (121%)
277 (129%)
231 (143%)
400 x 400
14171
3657 (103%)
1915 (108%)
1343 (114%)
1058 (119%)
667 x 667
98904
25574 (103%)
12889 (104%)
8740 (106%)
6775 (110%)
1000 x 1000
-
141858
72468 (102%)
49124 (104%)
37494 (106%)

Na kroku 267x267 jsme navic provedli porovnani rychlosti vypoctu pro ruzne rozdeleni procesu (tabulka pro 16 procesu).

Procesy
2 x 8
8 x 2
4 x 4
Doba vypoctu
229
236
231

A tentokrat 4-fold anizotropie na novem clusteru IBM SP, 4-fold aniz na (0,8).

<eff2>
Pocet bodu (krok)\ Pocet procesu
1
4
8
12
16
200 x 200
4305
1117 (104%)
572 (106%)
401 (112%)
302 (112%)
267 x 267
13483
3469 (103%)
1760 (104%)
1216 (108%)
915 (109%)
400 x 400
67968
17422 (103%)
8678 (102%)
5924 (105%)
4478 (105%)
500 x 500
165670
42515 (103%)
21090 (102%)
14524 (105%)
10726 (104%)

A nasleduje jak jinak nez narrowband. 4-fold anizotroipe, 3.5 konecny cas na (0,8) na 0.03 jen pridane natoceni. (Porovnani s full bandem je 267x267).

<eff3>
Sirka pasu (body, real) \ Pocet procesu
1
4
8
12
16
30 (0.9) 4199
1335 (127%)
836 (159%)
681 (195%)
579 (220%)
45 (1.35)
6039
2067 (137%)
1343 (178%)
1142 (227%)
981 (260%)
60 (1.8)
7916
2880 (146%)
1938 (196%)
1655 (251%)
1461 (295%)
75 (2.25)
9970
3776 (151%)
2646 (212%)
2307 (278%)
2044 (328%)
90 (2.7)
12140
4842 (160%)
3439 (227%)
3035 (300%)
2789 (368%)
** Referencni vysledek na plne domene: 936s (na 16 procesech) - lze celkem presne pouzit radku 267x267 v eff2.

Co dodat... Zajimavym dusledkem je, ze na 16 procesech je rychlejsi spocitat fullband na narrow band (az na jeden pripad). :-)) Vlastne :-((. opakovany pokus, ale na jemnejsi mrizce (0.02).

<eff4>
Sirka pasu (body, real) \ Pocet procesu
1
4
8
12
16
30 (0.6)
15986
4705 (118%)
2883 (144%)
2219 (167%)
1888 (189%)
45 (0.9)
19815*
6301 (127%)
3903 (157%)
3080 (187%)
2642 (213%)
53 (1.06)
23429
7211 (123%)
4613 (158%)
3722 (191%)
3170 (216%)
68 (1.36)
29693
9933 (134%)
6283 (169%)
5357 (217%)
4627 (249%)
90 (1.8)
39394
13978 (142%)
9368 (190%)
7799 (238%)
6991 (284%)
* Vysledek az na podruhe.
** Referencni vysledek na plne domene: 4533s (na 16 procesech) - lze celkem presne pouzit radku 400x400 v eff2.

Pro 45 nam to napocitalo desny vysledek - 8626s je jednoduse nevysvetlitelny - stejne zdrojaky, jen zmeneny parametr a takhle uplne utece z rady. Zkoumal jsem i moznost, ze by jeden uzel byl nejak divne nastaveny, ale vypocet probehl na spe114 a pripad pro 30 bodu taky a ten dopadl normalne... Je to zahada. A stalo se to uz podruhe. Domneka je takova, ze se mu ta uloha nejakym zpusob podarila spustit na obou procesorech (jsou dualni). Zaznam z logu ovsem vypovida o case zhruba 15601 +- nejaka ta vterinka. Nekonec jsme simulaci prepocitali a zadny problem.

A protoze bylo IBM nejake volne, tak jeste jedna tabulka. :-) Opet jako predchozi, jen krok 0.016 - jeste jemnejsi krok.

<eff5>
Sirka pasu (body, real) \ Pocet procesu
1
4
8
12
16
44 (0.704)
37360
11225 (120%)
6739 (144%)
5089 (164%)
4386 (188%)
56 (0.896)
47642
14511 (122%)
8899 (149%)
6977 (176%)
5950 (200%)
66 (1.056)
55981*
17649 (126%)
10684 (153%)
8827 (189%)
7530 (215%)
85 (1.36)
70742
23081 (131%)
14889 (168%)
12312 (209%)
10657 (241%)
112 (1.792)
95282
32728 (138%)
22017 (185%)
18503 (233%)
16269 (273%)
* Opet bylo nutno napocitat dvakrat (byl 24163).
** Referencni vypocet na plne domene: 10968s (na 16 procesech) - lze celkem presne pouzit radku 500x500 v eff2.