图像极大地有助于理解,解释和可视化数据。对图像添加文本描述是网络可访问性的首要原则。使用屏幕阅读器的视障用户将使用这些文字描述来更好地理解数字内容中存在的图像。在本文中,我们建议Chart-Text是一个新颖的全自动系统,它可以创建图表图像的文本描述。给定图表的PNG图像,我们的图表文本系统会创建一个完整的文本描述。首先,系统对图表的类型进行分类,然后检测并分类图表中的标签和文本。最后,它使用特定的图像处理算法从图表图像中提取相关信息。我们提出的系统在对图表进行分类时的准确率达到99.72%,在提取数据和创建相应的文本描述时准确度达到78.9%。
translated by 谷歌翻译
弱监督对象检测旨在减少训练检测模型所需的监督量。传统上,这些模型是从仅用对象类而不是对象边界框标记的图像/视频中学习的。在我们的工作中,我们不仅尝试利用对象类标签,还尝试利用与数据相关联的动作标签。我们展示了图像/视频中描绘的动作可以提供关于相关对象的位置的强烈提示。我们学习依赖于动作的对象的空间先验(例如,“球”更接近“踢球”中的“人的腿”),并且在同时训练联合对象检测和动作分类模型之前将其结合。我们对视频数据集和图像数据集进行了实验,以评估我们的弱监督对象检测模型的性能。在Charades视频数据集中,我们的方法在mAP方面的表现优于目前最先进的(SOTA)方法超过6%。
translated by 谷歌翻译
图像分类容易受到对抗性攻击。这项工作研究了Saak变换对抗高级性能图像分类的对抗性攻击的鲁棒性。我们开发了一个基于多阶段Saak变换的完整图像分类系统。在Saaktransform域中,清晰和对抗图像展示了不同光谱尺寸下的不同分布。在每个阶段选择的壮观可以被视为一种自动去噪过程。通过这种观察,我们精心设计了特征提取,表现和分类策略,增加了对抗性。通过广泛的实验评估证明了众所周知的数据集和攻击的表现。
translated by 谷歌翻译
搜索排名应用程序是Airbnb最大的机器学习成功故事之一。大多数初始收益都是由梯度增强的决策树模型驱动的。然而,随着时间的推移,收益趋于稳定。本文讨论了应用神经网络以试图突破该高原所做的工作。我们提出的观点并非旨在推动新建模技术的前沿。相反,我们的故事是我们发现在将神经网络应用于真实生活产品时有用的元素。深度学习对我们来说是陡峭的学习。对于开始类似旅程的其他团队,我们希望对我们的挣扎和胜利的描述将提供一些有用的指示。一路顺风!
translated by 谷歌翻译
广告引发的情感在影响品牌回忆和最终消费者选择方面起着关键作用。自动广告影响识别具有几个有用的应用程序。然而,使用基于内容的特征表示并不能提供关于如何通过诸如广告场景设置,显着对象属性及其相互作用等方面调节情感的见解。这些方法也不能告诉我们人类如何优先考虑视觉信息以进行广告理解。我们的工作通过将视频内容分解为检测到的对象,粗略场景结构,对象统计和通过眼睛凝视识别的主动参与对象来解决这些空白。我们通过系统地将相关信息整合到广告影响预测模型中来衡量每个信息渠道的重要性。与流行的观念相反,广告影响取决于叙事和巧妙地使用语言和社会线索,我们发现,与个人场景物体或显眼的背景元素相比,积极参与的物体和粗糙的场景结构更好地编码情感信息。
translated by 谷歌翻译
我们提出了一种新方法,通过保留通过眼睛跟踪发现的显着场景内容,为具有不同宽高比的各种显示器最佳地重新定位视频。我们的算法通过优化原始视频内的裁剪窗口的路径来执行剪切,平移和缩放操作的编辑,同时寻求(i)保留显着区域,以及(ii)遵循抄本原理。我们的方法是(a)内容不可知,因为使用相同的方法来重新编辑广角视频录制或用静态或移动摄像机拍摄的特写电影序列,并且(b)独立于视频长度可以原则上重新编辑一次编辑整部电影。我们的算法包括两个步骤。第一步采用凝视过渡提示来检测时间标记,其中在原始视频动态编程中引入新的剪切。后续步骤优化裁剪窗口路径(创建平移和缩放效果),同时考虑原始切割和新切割。裁剪窗口路径设计为包括最大凝视信息,并且由分段常数,线性和抛物线段组成。它通过L(1)正则化凸优化获得,确保了平滑的观察体验。我们在各种视频上测试我们的方法,并在计算复杂性和定性方面证明了对最新技术的重大改进。对16位用户进行的一项研究证实,与凝视驱动的重新编辑和信箱方法相比,我们的方法可以带来出色的观看体验,特别是对于广角静态相机录制。
translated by 谷歌翻译
为了提供信息,评估必须衡量系统对现实看不见的数据的概括程度。我们确定了对文本到SQL系统的当前评估的局限性并提出了改进建议。首先,我们比较人为生成的问题和自动生成的问题,为实际应用程序提供必要的查询属性。为了便于评估多数据集,我们发布了七个现有数据集和一个新的text-to-SQL数据集的标准化和改进版本。其次,我们表明,当前将数据划分为训练和测试集,测量问题的方式对变化的稳健性,但只是部分地测试系统对新查询的优化程度;因此,我们提出了一个补充数据集,用于评估未来的工作。最后,我们演示了在评估过程中对变量进行匿名化的常见做法如何消除了该任务的重要挑战。我们的观察突出了关键的困难,我们的方法可以有效地衡量未来的发展。
translated by 谷歌翻译
动物学习的一个基本特征是“忘记的能力”,它允许有机体从不同的信息流中感知,建模和做出决策,并适应不断变化的环境。在此背景下,我们提出了一种新颖的无监督学习机制ASP(Adaptive SynapticPlasticity),用于在动态环境中利用尖峰神经网络(SNN)进行实时在线学习的识别。我们将自适应重量衰减机制与传统的Spike Timing Dependent Plasticity(STDP)学习相结合,以模拟SNN中的自适应性。基于突触前和突触后神经元的尖峰模式之间的时间相关性来调节突触重量的泄漏速率。这种机制有助于逐步记录无关紧要的数据,同时保留重要但旧的信息。因此,ASP在遗忘和即时学习之间保持平衡,以构建用于连续变换输入的稳定塑性自适应SNN。我们证明了所提出的学习方法可以解决灾难性的遗忘问题,同时相对于传统的STDP数学识别应用学习方法产生显着改善的准确性。此外,我们观察到所提出的学习模式自动编码选择性注意输入数据中的相关特征,同时消除背景噪声(或去噪)的影响,进一步提高ASP学习的稳健性。
translated by 谷歌翻译