Der häufigste Grund für diesen Effekt ist die Nichbeachtung der durch
Multicore- und ccNUMA-Architekturen komplexer gewordenen
Systemtopologien.
Es ist nicht egal, auf welchen Kernen eines
Shared-Memory-Systems OpenMP-Threads oder MPI-Prozesse laufen. Bei
ccNUMA hängt zudem die Performance des Speicherzugriffes davon ab, wo
in Relation zum anfordernden Prozessor die Daten im System abgelegt
sind.
Die Optimierungsmögleichkeiten sind vielfältig.
Die HPC-Beratung des RRZE leistet dabei gerne Unterstützung.