OpenMPI 学习笔记（八）死锁

一、定义

当一个进程无限期等待另一个进程的行动时，我们陷入僵局——死锁。
可能会在阻塞通信或调用MPI_Wait时发生。
它们可能由以下原因引起：

MPI_Recv调用时并没有对应的发送者：有可能是就没有发送者，也有可能是发送中的信封错误（不正确的标签或发送过程），（更经常地）传输/接收的不正确调度。

⚠️由于MPI_Send使用的模式仅在调用该函数时才被确定，因此即使有的情况下传输/接收的调度不正确，某些程序也不会系统地导致死锁。

// possible-deadlock.c
#include <mpi.h>

int main(int argc, char** argv) {

    MPI_Init(NULL, NULL);
    int wrank; 
    MPI_Comm_rank(MPI_COMM_WORLD, &wrank);

    if (wrank==0) {
        int send0 = 10, recv0;
        MPI_Send(&send0, 1, MPI_INT, 1, 28, MPI_COMM_WORLD);
        MPI_Recv(&recv0, 1, MPI_INT, 1, 42, MPI_COMM_WORLD， MPI_STATUS_IGNORE);
    }
    else if (wrank==1) {
        int send1 = 11, recv1;
        MPI_Send(&send1, 1, MPI_INT, 0, 42, MPI_COMM_WORLD);   
        MPI_Recv(&recv1, 1, MPI_INT, 0, 28, MPI_COMM_WORLD,MPI_STATUS_IGNORE);
    }            

    MPI_Finalize();
    return 0; 
}

如果MPI_Send都以同步模式发送，则会发生死锁；如果其中一个是缓存模式，则不会发生死锁。

如果将 MPI_Send 换成 MPI_Ssend 则会发生死锁；确保通信调度正确的一种方法是随处使用MPI_Ssend（但程序会稍微慢一些）？？？。

MPI程序编写的一个很好规则是首先将MPI_Ssend放在任何地方，然后在确定所有通信都正确执行时用MPI_Send替换它们。