mobienet, shufflenet

参考github上各位大神的代码

mobilenet和shufflenet，实现起来感觉还是各种问题。

mobilenet目前使用的代码来自这里：https://github.com/BVLC/caffe/pull/5665/files。而shufflenet我用的是：https://github.com/farmingyard/ShuffleNet

之前用官方的caffe训练mobilenet，速度超级慢，而且官方的caffe不知道为什么，minibatch只能为1，显存没有优化好的问题caffe一直是诟病啊。后来用了我们自己的版本，显存可以上去了，但是速度依然很忙。而训练结束后，inference也超慢。而且根据caffe的forloop的实现方式，group conv的group越多，速度会越慢，而mobilenet是group最多的，因此速度很慢很慢。后来参考上面的代码，重新训练了一次，mobilenet速度一下子快多了。具体就是矩阵计算的优化其实，但是我其实就知道单纯的forloop肯定不行的，这年头不并行怎么可以啊。而且GPU有自己的forloop优化，还有就是其实GPU卡的矩阵计算，利用sharememory等，速度可以快不少的。

目前训练mobilenet40万次了，调学习率前，52%的top1，76的top5.不知道调完学习率能不能增加10个点，如果可以的话，那说明代码还靠谱的。而要说的是inference比起来官方的group conv快太多了，1s大概能测试100张吧。

shufflenet因为里面有group conv，其实用的也是caffe自己的，但是group取3时速度还可以接受，不像mobilenet，group和outputnum一样，速度奇慢。目前shufflenet的效果应该也还可以，但是能不能像文章中说的，还需要测试。

不怎么做优化工作，持续关注。打算去看看mobilenet的速度优化。

转载请注明出处，谢谢。