2D-FEM-Benchmark auf Clustersystemen, 4 Prozessoren

Gleichungssystemlöser PCGM (ohne Grobgitterlöser) auf 4 Prozessoren (single boards) mit verschiedenen Kommunikationsnetzwerken und Implementierungen,
(Linux, egcs-1.1.2 g77 -ffast-math -fexpenisve-optimization ...)
Prozessor, Kommunikation Level 5, N=263.169
Gesamt/Komm.
Level 6, N=1.050.625
Gesamt/Komm.
Level 7, N=4.198.401
Gesamt/Komm.
Pentium III-500 (Fak. Mathe), PVM 5,4s / 10% 21,9s / 6% 89,1s / 5%
Pentium III-500 (Fak. Mathe), MPICH 5,1s / 3% 22,0s / 3% 86,6s / 2%
Pentium III-550 (TBZ PARIV), MPICH Fast-Eth. 5,3s / 5% 22,0s / 5% 89,3s / 1%
Pentium III-550 (TBZ PARIV), MPICH Myrinet 5,1s / 5% 21,4s / 1% ?/?
Pentium III-550 (TBZ PARIV), MPIPro Giganet 5,1s / 4% 21,5s / 2% 86,6s/ 1%
Pentium III-450 (miniclick), LAMMPI Fast-Eth. 5,5s / 1..7% 22,3s / 3% 86,9s/ 0,3 ..5%
Pentium III-800 (CLIC), LAMMPI Fast-Eth., g77 4,1s / 2% 16,7s / 1% 68,5s / 1%
Pentium III-800 (CLIC), LAMMPI Fast-Eth., pgf77 3,5s / 4% 14,3s / 2% 59,5s / 2%
Pentium III-800 (CLIC), LAMMPI Fast-Eth., ifc 3,3s / 6% 13,5s / 4% 52,9s / 2%
Pentium 4 (1.6 GHz), LAMMPI Fast-Eth., g77 1,8s / 10% 7,3s / 8% 27,2s / 3%
Itanium (4CPU, 900 MHz) LAMMPI, efc 1,4s / 10% 8,2s / 2% 35,7s / 1%
CHiC Opteron (2,6 GHz) MVApich, gfortran ... 0,32s / 3% 1,88s / 1% 7,06s / 0,5%
CHiC Opteron (2,6 GHz) OpenMPI, g77 ... 0,37s / 11% 1,95s / 2% 7,31s / 0,7%
Auffällig ist bei LAMMPI und MPIPro die sehr unterschiedliche Zeit für MPI_reduce auf den einzelnen Prozessoren
(LAM-Implementierung von MPI_All_... verursacht doppelte Kommunikationszeiten auf einem Teil der Prozessoren, bei mpirun -lamd ... zwar nicht, aber etwas langsamer, mit Benutzung von MPI_sendrecv und handcodierter globaler Kommunikation wesentlich besser)
(... und die fehlerhafte Implementierung von MPI_Get_Processor_Name(..) für Fortran)