(1) 梯度爆炸的原因可以通过梯度裁决解决
GRAD_CLIP = 5 loss.backward() torch.nn.utils.clip_grad_norm_(model.parameters(), GRAD_CLIP) optimizer.step()
(2)testModel和evaluate中需要使用
with torch.no_grad():
(3) 学习率调小一点
(1) 梯度爆炸的原因可以通过梯度裁决解决
GRAD_CLIP = 5 loss.backward() torch.nn.utils.clip_grad_norm_(model.parameters(), GRAD_CLIP) optimizer.step()
(2)testModel和evaluate中需要使用
with torch.no_grad():
(3) 学习率调小一点