논문 리뷰/병렬처리

WRF Model Performance and Profiling Analysis on Advanced Multi-core HPC Clusters

kimjy 2021. 12. 6. 11:55

Shainer, G., T. Liu, J. Michalakes, J. Liberman, J. Layton, O. Celebioglu, S. A. Schultz, J. Mora, and D. Cownie, 2009: 'Weather Research and Forecast (WRF) Model Performance and Profiling Analysis on Advanced Multi-core HPC Clusters', The 10th LCI International Conference on High Performance Clustered Computing. Boulder, CO

*Dell 사의 클러스터에서 WRF 모델의 Performance를 다각도로 측정

*Dell 사에서 제작한 서버를 사용하며, 각 노드에는 두개의 Quad-Core AMD Opteron 프로세서(2.4 GHz)가 장착되어있으며, 인터커넥터로는 Mellanox의 인피니밴드와 이더넷을 사용.

*먼저 이더넷과 인피니밴드의 성능을 비교하였음
-이더넷은 bandwidth가 낮으므로 병렬확장성(scalability)가 비교적 낮음
-인피니밴드의 성능은 노드가 증가함에 따라 linear하게 증가

*productivity 비교
-노드 당 하나의 job을 실행하는 사례와, 노드에 두개의 job을 parallel하게 실행하는 사례를 적분하여 성능을 측정
-노드 당 하나의 job을 실행하는 것보다, 두 개의 잡을 실행할 때 높은 productivity를 기록
-그 이유로는 AMD의 경우 NUMA 아키텍처를 사용하며 따라서 노드에 하나의 job을 실행할 경우 remote memory access가 발생.
-또한 parallel job에서 CPU affinity를 사용한다면 optimal한 memory access가 가능하기 때문에 높은 productivity를 기록

*MPI 커뮤니케이션 분석
-얼마만큼의 메세지 사이즈가 얼마만큼의 portion을 차지하는 지 측정
-Total size는 16~64KB의 메세지 사이즈를 사용한 통신이 가장 많았으며, 64~256KB, 256KB~1MB 도 많은 portion을 기록
-통신 수로는 0-64B와 16-64KB가 가장 많은 통신 횟수를 기록하였으며, 0-64B는 synchronization 및 control message이며, 16-64KB는 stencil과 같은 computation에 의해서 발생한 compute message임
-따라서 0-64B는 낮은 Latency가 기록된다면 오버헤드가 줄어들 가능성이 크며, 16-64KB의 경우 높은 throughput을 기록한다면 좋은 MPI 통신 성능이 될 것이라 예상

*MPI 라이브러리 비교
-OpenMPI, MVAPICH, HP-MPI의 성능을 비교
-HP-MPI는 64KB의 메세지를 전송할 때, 두 라이브러리에 비교하여 낮은 bandwidth를 기록
-HP-MPI는 0~64B일 때 낮은 Latency를 기록하였으나, 세 가지의 라이브러리는 큰 차이를 보이지 않음
-64KB 메세지 전송 시에 HP-MPI의 bandwidth는 낮게 측정되었으며, 이로 인하여 실제 WRF 모델의 Conus Benchmark에서 HP-MPI의 성능이 OpenMPI의 성능보다 낮게 측정됨