IBM SP

IBM SP

Obsah

Pro rozbehnuti kodu na IBM SP bylo nejdrive potreba vykuchat z programu graficke vystupy, protoze AIX nema nainstalovanou knihovnu libGD, pak oddelat C++ style komentare a zrusit inline fce, protoze se mi nechtelo po jedne hledat, ktere se mu libi a ktere ne. Na ucely prvnich testu ucinnosti paralelizace by to melo bohate stacit.

Dalsi problem byly nejake pro me nelogicke syntaxe, vynechani uzlu a hlavne mi smrt prinesl fakt, ze jsem nemohl najit binarku llsubmit potrebnou pro spusteni. Diky Kamilovi me trapeni netrvalo dlouho. :-))

<ibm1>

Pocet procesu (i procesoru)	4	8	12	16*
Vypocet vzdalenosti (s)	25	13	9	8
Synchronizace (s)	0.04	0.01	0.03	0.02
Celkovy cas (s)	3204	1814	2355	1484

* Cluster nedisponuje dostatecnym poctem homogennich uzlu, proto jsou v tomto testu zahrnuty i pomalejsi uzly (160MHz -> 120 MHz).

Komentar podobnych vysledku uz tu jednou byl, ale pro zopakovani - vypocet vzdalenosti vykazuje dle ocekavani (temer) linearni rust. Divne prodlouzeni doby synchronizace nedokazu vysvetlit. Zatim nedokazu uspokojive vysvetlit, proc na 12 procesech to vyslo pomalejsi. Asi nejak nefungoval HPS switch, protoze jinak opravdu netusim cim by to mohlo byt. Provedl jsem serii testu na rychlost prenusu dat mezy uzly a vysledek je, ze je to velmi nerovnomerne. Asi jsme to napocitali v nejakem peaku, protoze nasledujici testy ukazuji, ze na i 12 proc verze se chova "standartne."

Abychom mohli porovnat zrychleni na stejnem typu pocitacu, vyuzili jsme naopak nejpomalejsich (120MHz) stroju. Tech sice take neni 16, ale rychlejsi procesy stejne musi cekat na ty nejpomalejsi, takze by to melo vyjit zhruba podobne.

<ibm2>

Procesoru	1	4	8	12	16
Vzdalenost (s)	46	15	7	5	4
Synchronizace (s)	-	0.005	0.01	0.008	0.007
Celkovy cas (s)	5491	1535	791	585	457
% vuci lin. zrychleni k 1	-	113%	115%	128%	133%
% vuci lin. zrychleni k predchozimu	-	113%	103%	110%	104%

Procesoru	1	2	4	8	12	16
Vzdalenost (s)	5	48	26	11	5	4
Celkovy cas (s)	12960	7680	4440	2760	2460	2040
% vuci lin. zrychleni k 1 (LZV1)	-	118%	137%	170%	227%	251%
% vuci lin. zrychleni k predchozimu	-	118%	116%	124%	133%	110%

Procesoru	1	2	4	8	12	16
Zakladni verze (LZV1)	15353	9412 (123%)	5826 (152%)	4649 (242%)	5355 (419%)	7351 (766%)
Upravena verze (LZV1)	15350	9131 (118%)	5223 (136%)	3645 (190%)	3644 (285%)	3623 (378%)
Zlepseni	-	3%	10%	22%	32%	51%
Hausdorf vysledku	-	6.4e-6	8.8e-6	1.5e-5	5.7e-6	4.7e-6

Procesoru	1	2	4	8	12	16
Zakladni verze (LZV1)	15219	8872 (117%)	5009 (132%)	3260 (171%)	2613 (206%)	2365 (248%)
Upraveni 1 (LZV1)	-	8797 (116%)	4997 (131%)	3217 (169%)	2520 (199%)	2310 (243%)
Upraveni 2 (LZV1)	-	8595 (113%)	4818 (127%)	2929 (154%)	2298 (181%)	1804 (190%)
Upraveni 3 (LZV1)	-	8565 (113%)	4761 (125%)	2912 (153%)	2233 (176%)	1825 (192%)
Zlepseni verze 1-2-3 (%)	-	0-3-3	0-4-5	1-10-10	3-12-14	2-24-23

Verze	2	4	8	12	16
1	2.8e-6	3.0e-6	5.8e-6	7.5e-6
2	4.7e-6	9.2e-6	2.2e-5	1.4e-5
3	6.2e-6	8.4e-6	2.2e-5	1.7e-5

Uzlu (kazdy 2 proc)	1	2	4	6
Vzdalenost	84	104	45	39
Celkovy cas	2756	3783	2367	2058
% lin. zrychleni vuci 1 uzlu	-	274%	343%	448%
% lin. zrychleni vuci predchozimu	-	274%	125%	130%

Uzlu (kazdy 2 proc)	1	2	4	6
Zakladni verze (LZV1)	5366	3061	1915	1653
Upraveni 1 (LZV1)	5500	3015	1889	1474
Upraveni 2 (LZV1)	5506	3006	1895	1463

Uzlu	1	2	4	6
Zakladni verze (LZV1)	4255	2402	1480	1186
Upraveni 1 (LZV1)	-	2341	1448	1171
Upraveni 2 (LZV1)	-	2360	1413	1108
Upraveni 3 (LZV1)	-	2269	1442	1100

Uzlu	1	2	4	6
Zakladni verze (LZV1)	5569	3171(114%)	2011(145%)	1674(180%)
Upraveni 2 (LZV1)	-	3085(111%)	1966(141%)	1585(171%)
Upraveni 3 (LZV1)	-	3085(111%)	1962(141%)	1569(169%)