互联网最新资讯:从炼丹到化学的神经网络探索
在深度学习领域,特别是在自然语言处理(NLP)中,神经网络一直被认为是“黑箱”,其特征或决策逻辑难以理解。这种情况不仅限于特征或决策逻辑在语义层面的难以理解,还包括缺乏数学工具去诊断与评测网络的特征表达能力。这篇文章旨在介绍我们团队近期在ICML上的工作——“Towards a Deep and Unified Understanding of Deep Neural Models in NLP”,这是一项与微软亚洲研究院合作的研究。
首先,我们要认识到神经网络中的信息处理过程,如逐层遗忘输入单词信息,而保留与目标任务相关的信息。我们提出了一套算法来测量每一中层特征所包含的输入句子的信息量,即H(XF=f),这可以帮助我们解释不同模型性能差异,并提供了一个新的角度来看待神经网络内部如何进行信息处理。
我们的方法基于两个不同的角度计算两组不同的熵H(XF=f):
如果只关注真实自然语言低维流形,可以将p(X=xF=f)建模为一个decoder重建输入句子。
考虑整个特征空间分布,即x可以取值为噪声。在计算p(X=x,F=f)时,我们需要考虑哪些噪声输入也可以生成同样的特征f。
通过这种方法,我们能够细粒度地分析各个单词的信息遗忘程度,并发现BERT模型对各种细粒度信息保留效果最好。我们的方法还允许我们比较不同NLP任务下的不同模型,以及它们如何利用和忽略输入单词,以达到最佳分类性能。
总之,这项工作致力于建立一种新的数学工具,将基于经验主义调参式深度学习转变为基于定量指标指导的深度学习。这不仅有助于提高现有模型性能,还能促进更广泛、系统性的理解和改进深度学习算法。此外,它也有助于揭示不同模型之间以及同一模型内多个层次间存在差异,从而推动AI技术向前发展。