如何更好地调试神经网络？ – 网络|

mysql怎么复制粘贴，蝶米手机进去recovery怎么退出，怎么剪视频上的音乐软件下载 如何更好地调试神经网络？ - 网络|

如何更好地调试神经网络

调试神经网络是一项艰难的工作，专家也不例外。面对数百万的参数，任何一个小变动都可能使你前功尽弃。没有调试和可视化，所有你的行动就像抛硬币，而且更糟糕的是还浪费时间。下面是本文搜集的实践汇总，希望有助于你提早发现问题。

数据集问题

尝试使用小数据集过拟合你的模型

一般来说神经网络应该在数百次迭代中过拟合你的数据。如果你的损失值不下降，那问题存在于更深层次。

使用迭代逻辑解决问题

尝试构建最简单的网络解决你的主要问题，接着一步一步扩展到全局问题。比如，你正在创建风格迁移网络，首先在一张图像上训练你的脚本迁移风格。如果奏效，再接着创建用于任何图像的风格迁移模型。

使用具有扭曲的平衡数据集

比如训练分类数据的网络，你的训练数据应该对每一分类具有相同数量的输入。其他情况下则存在分类过拟合的可能性。神经网络对于所有的扭曲并非恒定不变，因此需要你对它们进行专门训练。制造输入扭曲将会提升网络准确度。

网络容量vs数据集大小

你的数据集应足够大，以便网络用来学习。如果你的数据集小，而网络很大，那么它会停止学习（某些情况下也会为大量的不同输入输出相同结果）。如果你有大数据，而网络很小，那么你将会看到损失值的跳跃，因为网络容量无法存储如此多的信息。

使用均值中心化（meancentering）

这将会从你的网络中移除噪音数据，提升训练性能，同时某些情况下有助于解决NaN问题。但是记住，如果你有时序数据，那么你应该使用批而不是全局中心化。

神经网络问题

首先尝试较简单的模型

偶在很多案例中看到人们首先尝试一些标准的大型网络，比如ResNet-50、VGG19等，但是接着发现他们的问题通过仅有若干层的网络也能解决。因此如果你没有标准问题，首先从小网络开始吧。你添加的数据越多，模型就越难训练，因此从小网络开始会更省时。你也应该记住，大网络需要更大的内存与更多的操作。

可视化是必须的

如果你正使用TensorFlow，一定要从TensorBoard开始。如果没有，尝试为你的框架寻找一些可视化工具，或者自己动手编写。这将对于你发现训练早期阶段的问题非常有帮助。你必须可视化的事情有：损失值、权重直方图、变量和梯度。如果你正在做计算机视觉，那要一直可视化过滤器从而理解网络实际上看到了什么。

权重初始化

如果你错误设置权重，由于零梯度，或者所有神经元的类似更新等，你的网络将变得无法训练。同样你也应该记住权重与学习率是成对的，因此高学习率和大权重可以导致NaN问题。

对于一些网络使用1e-2–1e-3左右的高斯分布初始化软件已经足够。

对于深度网络这毫无用处，因为你的权重彼此相乘了很多次，将会产生几乎消除反向传播上的梯度的非常小的数值。多亏了Ioffe和Szegedy，现在大家有了批归一化，缓解了令人头疼的大量问题。

使用标准网络解决标准问题

存在大量的预训练模型，你可以正确使用它们。在一些情况中是这样，或者你可以使用调整技术节约训练时间。主要的想法是绝大多数网络容量对于不同问题是相同的。比如，如果大家讨论计算机视觉，它将会包含对于所有图像一样的线、点、角，并且你不需要再训练它们。

把衰减用于学习率

这几乎每次都会给你一个提升。TensorFlow中有大量的不同衰减调度器（https://www.tensorflow.org/versions/r0.12/api_docs/python/train/decaying_the_learning_rate）。

使用网格搜索、随机搜索或配置文件调整超参数

不要试图手动调整所有参数，这很耗时，效率低下。偶经常使用全局配置调整所有参数，并在运行完检查结果后看看在哪个方向上应该进一步调查。如果这个方法没有帮助，你可以试一下随机搜索或网格搜索。

激活函数

1.梯度消失问题

一些激活函数，比如Sigmoid和Tanh正在遭受饱和问题。在其极值时，它们的导数接近于零，这将会消除梯度和学习过程。因此检查不同的函数比较好。现在标准的激活函数是ReLU。同样这一问题也出现在一个非常深度或者循环的网络中，比如你有150层，所有的激活值是0.9，那么0.9¹⁵⁰=0,000000137。但是正如上文所说，批归一化将有助于解决这一问题，残差层也是。

2.不是零中心的激活值

比如Sigmoid、ReLU函数就不是零中心的。这意味着训练期间所有你的梯度将全部是正或负，并会引发学习问题。这就是为什么大家使用零中心的输入数据。

3.DeadReLUs

标准的ReLU函数也不完美。对于负数ReLU给出零的问题意味着它们将不会被激活，因此你的神经元的某些部分将会死掉并永不再用。这之所以能发生是因为高学习率和错误的权重初始化。如果参数调整没有帮助，那么你可以试一下LeakyReLU、PReLU、ELU或Maxout，它们没有这一问题。

4.梯度爆炸

这一问题与梯度消失相同，除却每一步梯度变的越来越大。一个主要的解决办法是使用梯度剪裁，为梯度设置基本的硬限制。

深度网络的精确度降级

从一些点上真正深化网络的问题开始表现为一个坏手机，因此增加更多层降低了网络精确度。解决办法是使用残差层把输入的一些部分传递到所有层。

品牌一线国产Arm陷入Armv9尴尬困境大学老师纯办公用数据集问题神经网络问题谢谢~~