L1范数度量卷积核的有效性是否合理?对比两篇结论相反的论文。
【摘要】 L1范数 剪枝
cnn中单个layer的卷积核个数有很多,如何度量这些卷积核的作用大小是个很有意思的问题。L1范数作为一个比较直观的度量方法,计算起来比较简单。但是其有效性却是有争论。这里比较了两篇论文的观点,试图理解,为什么两方的观点截然相反。
round1-PRUNING FILTERS FOR EFFICIENT CONVNETS
https://arxiv.org/abs/1608.08710
L1有用,请看l1虐random
round2-Recovering from Random Pruning: On the Plasticity of Deep Convolutional Neural Networks
https://arxiv.org/abs/1812.10240
L1没用,和随机差不多,其他的度量也都是扯,都不如随机。
是不是很有意思,两篇文章观点相反,第二篇还引用了第一篇文章。不过第二篇没敢说为啥第一篇搞的有问题,本来很期待argue下的。
对比
这里我做了下对比,可能大家就能看出来原因。
实验的方法、数据集、训练的方法不一致,造成了完全相反的结论。
不过我觉得引用数少的更有道理:数据集够大,考虑所有层共同看结果才是合理的。
真实的剪枝肯定要所有层都剪,单看单层剪的效果,其实并一定能预见所有层都剪的效果。
论文名 | 引用数 | 观点 | 数据集 | net | finetune方式 | 结果对比 |
PRUNING FILTERS FOR EFFICIENT CONVNETS | 1707 | 有用 | cifar10 | vgg16 | lr0.001,40个epoch | 13次试验,每次只动了一层,13层分别看结果 |
Recovering from Random Pruning: On the Plasticity of Deep Convolutional Neural Networks |
34 | 无用 | imagenet | vgg16 | 自后向前裁一层训1个epoch+最终12个1/10epoch | 所有层裁剪完后训练看结果 |
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)