In this study, we investigate the generalization of LSTM, ReLU and GRU models on counting tasks over long sequences. Previous theoretical work has established that RNNs with ReLU activation and LSTMs have the capacity for counting with suitable configuration, while GRUs have limitations that prevent correct counting over longer sequences. Despite this and some positive empirical results for LSTMs on Dyck-1 languages, our experimental results show that LSTMs fail to learn correct counting behavior for sequences that are significantly longer than in the training data. ReLUs show much larger variance in behavior and in most cases worse generalization. The long sequence generalization is empirically related to validation loss, but reliable long sequence generalization seems not practically achievable through backpropagation with current techniques. We demonstrate different failure modes for LSTMs, GRUs and ReLUs. In particular, we observe that the saturation of activation functions in LSTMs and the correct weight setting for ReLUs to generalize counting behavior are not achieved in standard training regimens. In summary, learning generalizable counting behavior is still an open problem and we discuss potential approaches for further research.
translated by 谷歌翻译
在这项工作中,我们专注于改善图像捕获生成系统生成的字幕。我们提出了一种新型的重新排列方法,该方法利用视觉声音措施来确定最大程度地捕获图像中视觉信息的理想标题。我们的重新级别使用了信念修订框架(Blok等,2003),通过明确利用所描绘的标题和视觉上下文之间的语义相关性来校准顶级字幕的原始可能性。我们的实验证明了我们方法的实用性,我们观察到我们的重新级别可以增强典型的图像捕获系统的性能,而无需进行任何额外的培训或微调。
translated by 谷歌翻译
本文介绍了一个大规模的多模式和多语言数据集,该数据集旨在促进在语言中的上下文使用中对图像进行接地的研究。数据集由选择明确说明在电影字幕句子中表达的概念的图像组成。数据集是一个宝贵的资源,因为(i)图像与文本片段一致,而不是整个句子; (ii)对于文本片段和句子,可以使用多个图像; (iii)这些句子是自由形式和现实世界的; (iv)平行文本是多语言的。我们为人类设置了一个填充游戏,以评估数据集的自动图像选择过程的质量。我们在两个自动任务上显示了数据集的实用程序:(i)填充填充; (ii)词汇翻译。人类评估和自动模型的结果表明,图像可以是文本上下文的有用补充。该数据集将受益于单词视觉基础的研究,尤其是在自由形式句子的背景下,可以从https://doi.org/10.5281/zenodo.5034604获得创意常识许可。
translated by 谷歌翻译
我们展示了FedScale,这是一种多样化的挑战和现实的基准数据集,以便于可扩展,全面,可重复的联邦学习(FL)研究。 FedScale数据集是大规模的,包括不同的重要性范围,例如图像分类,对象检测,字预测和语音识别。对于每个数据集,我们使用逼真的数据拆分和评估度量提供统一的评估协议。为了满足在规模中繁殖现实流体的压力需求,我们还建立了一个有效的评估平台,以简化和标准化流程实验设置和模型评估的过程。我们的评估平台提供灵活的API来实现新的FL算法,并包括具有最小开发人员的新执行后端。最后,我们在这些数据集上执行深入的基准实验。我们的实验表明,在现实流动特征下,在系统的异质性感知协同优化和统计效率下提供了富有成效的机遇。 FedScale是具有允许许可的开放源,积极维护,我们欢迎来自社区的反馈和贡献。
translated by 谷歌翻译