小白学PyTorch 动态图与静态图的浅显理解

文章来自公众号【机器学习炼丹术】，回复“炼丹”即可获得海量学习资料哦！

1 动态图的初步推导
2 动态图的叶子节点
3. grad_fn
4 静态图

本章节缕一缕PyTorch的动态图机制与Tensorflow的静态图机制（最新版的TF也支持动态图了似乎）。

1 动态图的初步推导

计算图是用来描述运算的有向无环图
计算图有两个主要元素：结点（Node）和边（Edge）；
结点表示数据 ，如向量、矩阵、张量;
边表示运算 ，如加减乘除卷积等；

上图是用计算图表示：

(y=(x+w)∗(w+1)y=(x+w)∗(w+1))

其中呢，(a=x+w) ，(b=w+1) , (y=a∗b). (a和b是类似于中间变量的那种感觉。)

Pytorch在计算的时候，就会把计算过程用上面那样的动态图存储起来。现在我们计算一下y关于w的梯度：

(frac{partial y}{partial w} = frac{partial y}{partial a} frac{partial a}{partial w} + frac{partial y}{partial b} frac{partial b}{partial w})
(=2 imes w + x + 1=5)

（上面的计算中，w=1，x=2）

现在我们用Pytorch的代码来实现这个过程：

import torch
w = torch.tensor([1.],requires_grad = True)
x = torch.tensor([2.],requires_grad = True)

a = w+x
b = w+1
y = a*b

y.backward()
print(w.grad)

得到的结果：

2 动态图的叶子节点

这个图中的叶子节点，是w和x，是整个计算图的根基。之所以用叶子节点的概念，是为了减少内存，在反向传播结束之后，非叶子节点的梯度会被释放掉 ，我们依然用上面的例子解释：

import torch
w = torch.tensor([1.],requires_grad = True)
x = torch.tensor([2.],requires_grad = True)

a = w+x
b = w+1
y = a*b

y.backward()
print(w.is_leaf,x.is_leaf,a.is_leaf,b.is_leaf,y.is_leaf)
print(w.grad,x.grad,a.grad,b.grad,y.grad)

运行结果是：

可以看到只有x和w是叶子节点，然后反向传播计算完梯度后（.backward()之后），只有叶子节点的梯度保存下来了。

当然也可以通过.retain_grad()来保留非任意节点的梯度值。

import torch
w = torch.tensor([1.],requires_grad = True)
x = torch.tensor([2.],requires_grad = True)

a = w+x
a.retain_grad()
b = w+1
y = a*b

y.backward()
print(w.is_leaf,x.is_leaf,a.is_leaf,b.is_leaf,y.is_leaf)
print(w.grad,x.grad,a.grad,b.grad,y.grad)

运行结果：

3. grad_fn

torch.tensor有一个属性grad_fn,grad_fn的作用是记录创建该张量时所用的函数，这个属性反向传播的时候会用到。例如在上面的例子中，y.grad_fn=MulBackward0,表示y是通过乘法得到的。所以求导的时候就是用乘法的求导法则。同样的，a.grad=AddBackward0表示a是通过加法得到的，使用加法的求导法则。

import torch
w = torch.tensor([1.],requires_grad = True)
x = torch.tensor([2.],requires_grad = True)

a = w+x
a.retain_grad()
b = w+1
y = a*b

y.backward()
print(y.grad_fn)
print(a.grad_fn)
print(w.grad_fn)

运行结果是：