一、定义
当一个进程无限期等待另一个进程的行动时,我们陷入僵局——死锁。
可能会在阻塞通信 或 调用MPI_Wait时发生。
它们可能由以下原因引起:
MPI_Recv调用时并没有对应的发送者:有可能是就没有发送者,也有可能是发送中的信封错误(不正确的标签或发送过程),(更经常地)传输/接收的不正确调度。
⚠️由于MPI_Send使用的模式仅在调用该函数时才被确定,因此即使有的情况下传输/接收的调度不正确,某些程序也不会系统地导致死锁。
// possible-deadlock.c #include <mpi.h> int main(int argc, char** argv) { MPI_Init(NULL, NULL); int wrank; MPI_Comm_rank(MPI_COMM_WORLD, &wrank); if (wrank==0) { int send0 = 10, recv0; MPI_Send(&send0, 1, MPI_INT, 1, 28, MPI_COMM_WORLD); MPI_Recv(&recv0, 1, MPI_INT, 1, 42, MPI_COMM_WORLD, MPI_STATUS_IGNORE); } else if (wrank==1) { int send1 = 11, recv1; MPI_Send(&send1, 1, MPI_INT, 0, 42, MPI_COMM_WORLD); MPI_Recv(&recv1, 1, MPI_INT, 0, 28, MPI_COMM_WORLD,MPI_STATUS_IGNORE); } MPI_Finalize(); return 0; }
如果MPI_Send都以同步模式发送,则会发生死锁;如果其中一个是缓存模式,则不会发生死锁。
如果将 MPI_Send 换成 MPI_Ssend 则会发生死锁;确保通信调度正确的一种方法是随处使用MPI_Ssend(但程序会稍微慢一些)???。
MPI程序编写的一个很好规则是首先将MPI_Ssend放在任何地方,然后在确定所有通信都正确执行时用MPI_Send替换它们。