Der häufigste Grund für diesen Effekt ist die Nichbeachtung der durch Multicore- und ccNUMA-Architekturen komplexer gewordenen Systemtopologien.
Es ist nicht egal, auf welchen Kernen eines Shared-Memory-Systems OpenMP-Threads oder MPI-Prozesse laufen. Bei ccNUMA hängt zudem die Performance des Speicherzugriffes davon ab, wo in Relation zum anfordernden Prozessor die Daten im System abgelegt sind.

Die Optimierungsmögleichkeiten sind vielfältig.

Die HPC-Beratung des RRZE leistet dabei gerne Unterstützung.