Efektivnost

Test efektivnosti

Obsah

Tak tady je par tabulek na vysledky efektivnosti paralelizace na ruznych mrizkach. Pouzit byl opet klasicky model ale s anizotropii nastavenou na kruh (izotropie). Nasledujici tabulka zachycuje efektivnost, kdyz zvysujeme pocet bodu mrizky (IBM SP). Cisla v tabulce udavaji cas a LZV1.

<eff1>

Pocet bodu \ Pocet procesu	1	4	8	12	16
200 x 200	908	258 (114%)	149 (131%)	113 (149%)	94 (166%)
267 x 267	2585	697 (108%)	392 (121%)	277 (129%)	231 (143%)
400 x 400	14171	3657 (103%)	1915 (108%)	1343 (114%)	1058 (119%)
667 x 667	98904	25574 (103%)	12889 (104%)	8740 (106%)	6775 (110%)
1000 x 1000	-	141858	72468 (102%)	49124 (104%)	37494 (106%)

Na kroku 267x267 jsme navic provedli porovnani rychlosti vypoctu pro ruzne rozdeleni procesu (tabulka pro 16 procesu).

Procesy	2 x 8	8 x 2	4 x 4
Doba vypoctu	229	236	231

A tentokrat 4-fold anizotropie na novem clusteru IBM SP, 4-fold aniz na (0,8).

<eff2>

Pocet bodu (krok)\ Pocet procesu	1	4	8	12	16
200 x 200	4305	1117 (104%)	572 (106%)	401 (112%)	302 (112%)
267 x 267	13483	3469 (103%)	1760 (104%)	1216 (108%)	915 (109%)
400 x 400	67968	17422 (103%)	8678 (102%)	5924 (105%)	4478 (105%)
500 x 500	165670	42515 (103%)	21090 (102%)	14524 (105%)	10726 (104%)

A nasleduje jak jinak nez narrowband. 4-fold anizotroipe, 3.5 konecny cas na (0,8) na 0.03 jen pridane natoceni. (Porovnani s full bandem je 267x267).

<eff3>

Sirka pasu (body, real) \ Pocet procesu	1	4	8	12	16
30 (0.9)	4199	1335 (127%)	836 (159%)	681 (195%)	579 (220%)
45 (1.35)	6039	2067 (137%)	1343 (178%)	1142 (227%)	981 (260%)
60 (1.8)	7916	2880 (146%)	1938 (196%)	1655 (251%)	1461 (295%)
75 (2.25)	9970	3776 (151%)	2646 (212%)	2307 (278%)	2044 (328%)
90 (2.7)	12140	4842 (160%)	3439 (227%)	3035 (300%)	2789 (368%)

** Referencni vysledek na plne domene: 936s (na 16 procesech) - lze celkem presne pouzit radku 267x267 v eff2.

Co dodat... Zajimavym dusledkem je, ze na 16 procesech je rychlejsi spocitat fullband na narrow band (az na jeden pripad). :-)) Vlastne :-((. opakovany pokus, ale na jemnejsi mrizce (0.02).

<eff4>

Sirka pasu (body, real) \ Pocet procesu	1	4	8	12	16
30 (0.6)	15986	4705 (118%)	2883 (144%)	2219 (167%)	1888 (189%)
45 (0.9)	19815*	6301 (127%)	3903 (157%)	3080 (187%)	2642 (213%)
53 (1.06)	23429	7211 (123%)	4613 (158%)	3722 (191%)	3170 (216%)
68 (1.36)	29693	9933 (134%)	6283 (169%)	5357 (217%)	4627 (249%)
90 (1.8)	39394	13978 (142%)	9368 (190%)	7799 (238%)	6991 (284%)

* Vysledek az na podruhe.
** Referencni vysledek na plne domene: 4533s (na 16 procesech) - lze celkem presne pouzit radku 400x400 v eff2.

Pro 45 nam to napocitalo desny vysledek - 8626s je jednoduse nevysvetlitelny - stejne zdrojaky, jen zmeneny parametr a takhle uplne utece z rady. Zkoumal jsem i moznost, ze by jeden uzel byl nejak divne nastaveny, ale vypocet probehl na spe114 a pripad pro 30 bodu taky a ten dopadl normalne... Je to zahada. A stalo se to uz podruhe. Domneka je takova, ze se mu ta uloha nejakym zpusob podarila spustit na obou procesorech (jsou dualni). Zaznam z logu ovsem vypovida o case zhruba 15601 +- nejaka ta vterinka. Nekonec jsme simulaci prepocitali a zadny problem.

A protoze bylo IBM nejake volne, tak jeste jedna tabulka. :-) Opet jako predchozi, jen krok 0.016 - jeste jemnejsi krok.

<eff5>

Sirka pasu (body, real) \ Pocet procesu	1	4	8	12	16
44 (0.704)	37360	11225 (120%)	6739 (144%)	5089 (164%)	4386 (188%)
56 (0.896)	47642	14511 (122%)	8899 (149%)	6977 (176%)	5950 (200%)
66 (1.056)	55981*	17649 (126%)	10684 (153%)	8827 (189%)	7530 (215%)
85 (1.36)	70742	23081 (131%)	14889 (168%)	12312 (209%)	10657 (241%)
112 (1.792)	95282	32728 (138%)	22017 (185%)	18503 (233%)	16269 (273%)

* Opet bylo nutno napocitat dvakrat (byl 24163).
** Referencni vypocet na plne domene: 10968s (na 16 procesech) - lze celkem presne pouzit radku 500x500 v eff2.