MTCNN自己的学习理解

MTCNN 流程
经过三个网络 P-Net,R-Net,O-Net

对于P-Net：
P-Net是一个全卷积层，不涉及到全连接层，所以我们的输入图像的尺寸可以是不固定的。
对于P-Net来说，我们的输入图像是图像金字塔，也就是说对于一张图片，根据不同的factor进行图像的缩小。这里的尺寸不固定的意思是说，我们可以使用图像金字塔中的不同图像作为输入。
在P-Net网络中，我们首席那会设置最小的人脸检测尺寸，minsize=20(这里)[https://www.cnblogs.com/shine-lee/p/10066049.html]。人脸尺寸小于这个的，我们是不考虑的。
P-Net网络是1212大小的框来检测是否具有人脸。这个时候如果我们假设输入图像尺寸为100120，这样我们能够接受的最小的人脸图像尺寸就是2020，最大就是100100.
如果想要把最小的20*20缩小到可以被P-Net来识别，我们就需要设定第一个缩小因子为12/20=0.6。同时我们设定图像金字塔相邻层缩放比例一致为0.7，这样大概就是
[0.6,0.42419999999999997,0.29990939999999994,0.2120359458,0.14990941368059996,0.10598595547218417,0.0749320705188342,0.05297697385681578,0.03745472051676876]。
在这个过程中，我们需要保证图像最小边长度的大于12.

P-Net返回两个结果，一个是分类结果，是否含有人脸。一个是回归结果，返回四个偏移量。在推断阶段，两个结果同时生成，我们首先对分类结果进行处理，对于大于threshold的值（
这个是我们认为规定的，认为大于这个值的才认为含有人脸），然后我们使用NMS进行候选框的排除（在每个缩放比例的条件下生成的候选框我们都会进行NMS），随后我们把所有缩放比例之下生成的额候选框进行一个NMS，随后我们结合offsets对筛选之后的筛选框进行调整。

R-Net
我们把从P-Net中获得的候选框进行resize到24*24. 然后我们进行卷积核全连接，对每一个候选框进行分类和回归。首先对候选框进行NMS，然后结合回归结果进行回归调整。

O-net
将R-Net的候选框进行resize到48*48,返回三个结果：关键点位置，回归结果，分类结果

人脸检测--MTCNN从头到尾的详解 - 丘学文的文章 - 知乎这篇文章对于推理过程讲解的很好
https://zhuanlan.zhihu.com/p/58825924