10个2019年的机器学习和NLP的研究亮点

10个2019年的机器学习和NLP的研究亮点

作者:Sebastian Ruder

编译:ronghuaiyang

导读

10个2019年的机器学习和NLP的研究亮点。

图片[1]-10个2019年的机器学习和NLP的研究亮点-一鸣资源网

VideoBERT ,一个多模态的BERT变体生成的视频“tokens”(上)和未来的tokens在不同的时间尺度交付一个视频token(下)。

2、彩票假说

发生了什么?Frankle 和 Carbin 发现了中奖彩票假说,在密集的、随机初始化的、前馈网络中的子网络,它们的初始化非常好,以至于单独训练它们可以达到与训练整个网络类似的精度,如下图所示。虽然最初的剪枝过程只适用于小的视觉任务,但是后来的工作将剪枝应用于早期的训练而不是初始化,这使得寻找更深层次模型的小的子网络成为可能。Yu 等人(2019)发现了 LSTMs 和 Transformers 在 NLP 和 RL 模型中的中奖初始化。虽然中奖彩票仍然在计算上很贵,但它们似乎可以在数据集和优化器之间迁移。

为什么它很重要?最先进的神经网络越来越大,训练和预测的成本也越来越高。能够始终如一地识别小的子网络,从而获得可比较的性能,这使得使用更少的资源进行训练和推理成为可能。这可以加速模型迭代,并在设备上和边缘计算中开辟新的应用。

接下来是什么?识别中奖彩票目前仍然计算上太贵,无法在资源匮乏的环境中提供真正的好处。更健壮的一次性剪枝方法在剪枝过程中对噪声的敏感性更低,应该可以缓解这一问题。研究中奖彩票的特别之处还有助于我们更好地理解神经网络的初始化和学习动态。

图片[2]-10个2019年的机器学习和NLP的研究亮点-一鸣资源网 8、预训练模型增强

发生了什么事?我很兴奋地看到方法,装备了预训练的模型的新能力。有些方法利用知识库来增强预训练的模型,以改进实体命名的建模。其他的还有通过给它访问一些预定义的可执行程序,让模型能够执行简单的算术推理。因为大多数模型和对于他们学习的大部分知识数据有一个微弱的偏差,扩展 pretrained 模型的另一种方法是通过增加训练数据本身,如捕捉常识。

为什么它很重要?模型正变得越来越强大,但有许多事情是模型不能单独从文本中学习的。特别是在处理更复杂的任务时,可用的数据可能太有限,无法使用事实或常识进行明确的推理,因此可能需要更强的归纳偏见。

接下来是什么?随着模型被应用于更有挑战性的问题,越来越有必要对模型进行组合性的修改。在未来,我们可能会将强大的预训练模型与可学习的组合程序相结合。

图片[3]-10个2019年的机器学习和NLP的研究亮点-一鸣资源网

Transformer与多头注意力。该模型被训练成在给定对象和关系的情况下预测知识库的对象

9、高效和长期的 Transformers

发生了什么 ?这一年看到的 Transformer 改进。Transformer-XL 和压缩的 Transformer 可以更好的获取长期的依赖关系。有一些方法让 Transformer 更加的高效,比如使用 sparse 和 attention 的方法,或者 adaptively sparse attention,adaptive attention spans,product-key attention,locality-sensitive hashing。在基于 Transformer 的预训练阵线上,有更加高效的变体 ALBERT,使用了参数共享和 ELECTRA,使用了更加高效的预训练任务。也有没有使用 Transformer 的更加高效的预训练模型,比如 unigram document 模型 VAMPIRE 和 QRNN-based MultiFiT。另外一个趋势是将大的 BERT 蒸馏成更小的模型。

为什么它很重要?Transformer 自产生以来就影响广泛。一直是大多数的 state-of-the-art 模型的一部分,在 NLP 和广泛的领域中都有着成功的应用。对 Transformer 的任何改进都会有强大的连带效应。

接下来是什么?这些改进需要一些时间来渗透到从业人员中,但它提供了优先级和更容易使用的预训练模型,更有效的替代方案将很快被采用。除此之外,我们将看到继续关注模型架构的效率,透明度是一个关键趋势。

图片[4]-10个2019年的机器学习和NLP的研究亮点-一鸣资源网

在表征中研究语言知识的探测装置

英文原文:https://ruder.io/research-highlights-2019/

© 版权声明
THE END