Teilprojekt D.2

01.01.2007 - 31.12.2012

Ergebnisse

Viele Messungen wurden auf GPUs durchgeführt, um die Effizienz der Portierung von MD-Simulationen auf GPUs zu ermitteln:

Die Partikel-Sortierung auf einer NVIDIA C2050 GPU wurde mit einer parallelen CPU-Version verglichen. Eine Beschleunigung um den Faktor 9x wurde erzielt.

Die Datenübertragungsrate über PCIe x16 zwischen Devicespeicher (GPU) zu page-locked Hostspeicher (CPU) ist ca. 6 GB/s

Eine Billard-Simulation wurde für die "Kids Week" Veranstaltung entwickelt. In seiner ersten Phase führt es 2400 MFLOPS auf einem Single-Core Xeon 55602.8GHz für ein System von 200 Teilchen und für 1000 Iterationen. Abbildung 4 zeigt den Billardtisch mit 200 Kugeln, die mit Povray generiert wurde.

Ein weiteres Beispiel für eine erfolgreiche Portierung von Simulationsprogrammen zur GPU ist die Portierung eines industriellen neuronalen Netzes. Diese Portierung führt zu einer Beschleunigung um den Faktor 12 im Vergleich zur ursprünglichen Implementierung.

Abbildung 1: CUDA kernel Overhead Zeit auf C2050 und C1060

Abbildung 2: Partikel-Sortierung auf GPU C2050.

Abbildung 3: Devicespeicher (GPU) Hostspeicher (CPU) über PCIe x16.

Abbildung 4: Ein Billardtisch mit 200 Billardkugeln.

Abbildung 5: Die Portierung von ANN auf GPU C2050 und C1060.