训练神经网络时如何确定batch的大小？

夕小瑶科技说 · 公众号 · · 2017-07-07 23:18

正文

其实这两个做法就相当于：

第一种：

total = 旧参下计算更新值1+旧参下计算更新值2+...+旧参下计算更新值500 ;

新参数 = 旧参数 + total；

第二种：

新参数1 = 旧参数 + 旧参数下计算更新值1；

新参数2 = 新参数1 + 新参数1下计算更新值1；

新参数3 = 新参数2 + 新参数2下计算更新值1；

...

新参数500 =新参数500 + 新参数500下计算更新值1；

也就是说，第一种是将参数一次性更新500个样本的量，第二种是迭代的更新500次参数。当然是不一样的啦。

那么问题来了，哪个更好呢？

我们首先分析最简单的影响，哪种做法 收敛更快 呢？

我们假设每个样本相对于大自然真实分布的标准差为σ，那么根据概率统计的知识，很容易推出n个样本的标准差为（有疑问的同学快翻开概率统计的课本看一下推导过程）。

从这里可以看出，我们使用样本来估计梯度的时候，1个样本带来σ的标准差，但是使用n个样本区估计梯度 并不能让标准差线性降低 （也就是并不能让误差降低为原来的1/n，即无法达到σ/n），而n个样本的计算量却是线性的（每个样本都要平等的跑一遍前向算法）。

推荐文章

厦门日报 · 习近平同普京通电话，重点就中东局势交换意见

18 小时前

厦门日报 · 惊呆了！男子泰国旅行离奇“失忆”，半年后肚子里竟发现……

21 小时前

厦门日报 · 奥迪确认暂停全面电动化计划！

昨天

厦门日报 · 网约车司机猥亵女乘客，还跟乘客住同一个小区，平台称愿赔3000元但要签保密协议！最新回应

昨天

厦门日报 · 加拿大发布七国集团峰会主席总结，中方：攻击抹黑中国，坚决反对，奉劝认清世界大势，停止操弄涉华议题

2 天前

基层麻醉网 · 卫计委发布会：这些事影响所有医生！

7 年前

GrowingIO · 关于首席增长官 CGO，这是你能找到最全的文章

7 年前

乐游上海 · 看世界‖出门旅游，记得欣赏一下这些国内外旅游标识

7 年前

学习时报 · 【学习时报】中国高速铁路创新发展的优势

7 年前

价值投机情报局 · 亦言日报第一期

7 年前