TF模型训练中注意Loss和F1的变化情况

　　之前训练模型，认为网络图构建完成，Loss肯定是呈现下降的，就没有太留心，知识关注F1的变化情况，找到最优的F1训练就停止了，认为模型就ok。

　　但实际中发现，我们要时刻关注网络的损失变化情况，batch size过小（6,8）都会导致模型不收敛，此时你就看不到损失的变化，只能根据F1优劣判断模型。

那么，我们可以将batc size调的大一些（128），可以观察到损失是平滑降低的，F1的性能也在慢慢变好。这就是通常大家用128的原因。关于迭代停止条件，

一般选20个epochs的迭代，每一次迭代后保存模型，最终你可以选择你Loss最小的那个模型作为后期使用。