我们介绍了GQA,这是一个用于实际视觉推理和组合问题解答的新数据集,旨在解决以前的VQA数据集的关键缺点。我们已经开发了一个强大而强大的问题引擎,它利用场景图结构来创建22M多种推理问题,所有推理都带有代表其语义的功能程序。我们使用这些程序来严格控制答案分布,并提出一种新的可调平滑技术来减轻语言偏差。伴随数据集是一套新的指标,用于评估基本质量,如一致性,基础和合理性。对基线和最先进的模型进行了广泛的分析,为不同的问题类型和拓扑提供了细粒度的结果。盲目LSTM仅获得42.1%,强VQA模型达到54.1%,人类表现达到89.3%,为新研究提供了充分的机会。我们强烈希望GQA将为下一代模型提供支持资源,增强稳健性,提高一致性,并对图像和语言进行更深入的语义理解。
translated by 谷歌翻译
We present the MAC network, a novel fully differentiable neural networkarchitecture, designed to facilitate explicit and expressive reasoning. MACmoves away from monolithic black-box neural architectures towards a design thatencourages both transparency and versatility. The model approaches problems bydecomposing them into a series of attention-based reasoning steps, eachperformed by a novel recurrent Memory, Attention, and Composition (MAC) cellthat maintains a separation between control and memory. By stringing the cellstogether and imposing structural constraints that regulate their interaction,MAC effectively learns to perform iterative reasoning processes that aredirectly inferred from the data in an end-to-end approach. We demonstrate themodel's strength, robustness and interpretability on the challenging CLEVRdataset for visual reasoning, achieving a new state-of-the-art 98.9% accuracy,halving the error rate of the previous best model. More importantly, we showthat the model is computationally-efficient and data-efficient, in particularrequiring 5x less data than existing models to achieve strong results.
translated by 谷歌翻译
声学数据提供从生物学和通信到海洋和地球科学等领域的科学和工程见解。我们调查了机器学习(ML)的进步和变革潜力,包括声学领域的深度学习。 ML是用于自动检测和利用模式印度的广泛的统计技术家族。相对于传统的声学和信号处理,ML是数据驱动的。给定足够的训练数据,ML可以发现特征之间的复杂关系。通过大量的训练数据,ML candiscover模型描述复杂的声学现象,如人类语音和混响。声学中的ML正在迅速发展,具有令人瞩目的成果和未来的重大前景。我们首先介绍ML,然后在五个声学研究领域强调MLdevelopments:语音处理中的源定位,海洋声学中的源定位,生物声学,地震探测和日常场景中的环境声音。
translated by 谷歌翻译
多模态运动(例如陆地,航空和水上运动)越来越受到机器人研究的兴趣,因为它改善了机器人的环境适应性,运动多功能性和操作灵活性。在地面多个运动机器人中,混合机器人的优势源于其多种(两种或更多种)运动模式,其中机器人可以根据遇到的地形条件进行选择。然而,在改善多个运动模式之间的运动模式转换的自主性方面存在许多挑战。这项工作提出了一种实现atrack-legged四足机器人步骤协商的自主运动模式转换的方法。通过提出的比较滚动和行走运动模式的能量性能的标准,实现了决策过程的自主性。为了实现能源评估目的,提出了两个攀登阶段以实现平稳的步骤谈判行为。模拟显示自主运动模式转换被实现用于具有不同高度的步骤的协商。所提出的方法足够通用,可以在对其运动能量性能进行一些预先研究之后用于其他混合机器人。
translated by 谷歌翻译
认识到作为诗歌或散文的一段文字对于大多数人来说通常都很容易;但是,只有专家可以确定哪个仪表是poembelongs。在本文中,我们建立了回归神经网络(RNN)模型,可以根据纯文本中的米来对诗歌进行分类。输入文本在字符级别进行编码,并直接输入到模型而不进行特征处理。这是机器理解和语言合成的一个进步,尤其是阿拉伯语。在16个阿拉伯语和4米英语的诗歌中,网络能够对诗歌进行错误的分类,总体准确率分别为96.38%和82.31%。用于进行这项研究的诗集数据量很大,超过150万节经文,并且来自不同的非技术资源,几乎阿拉伯和英国文学网站,以及不同的异构和非结构化格式。现在,这些数据集以干净,结构化和文档化的格式公开提供,供其他未来研究使用。据作者所知,这项研究是第一个通过机器学习方法对诗计进行分类,特别是在RNN无特征方法中。此外,该数据集是第一个公开可用的数据集,可用于未来的计算研究。
translated by 谷歌翻译
我们介绍了Bee $ ^ + $,一种95毫克四翼微型机器人,具有改进的可控性和开环响应特性,相对于具有相同尺寸和相似重量的最先进的双翼微型机器人所表现的那些(即, 75毫克哈佛RoboBee和类似的原型)。推动Bee $ ^ + $发展的关键创新是引入极轻(28毫克)孪晶单晶片致动器,这可以设计出一种独立襟翼四翼的新型微机械机构。与两翼RoboBee类飞行器相比,所提出的设计的第一个主要优点是,通过将执行器的数量从两个增加到四个,直接控制输入的数量从三个增加(滚动扭矩,俯仰扭矩和推力 - 当采用简单的正弦激励时,力)到四(滚动扭矩,俯仰扭矩,偏航扭矩和推力)。 Bee $ ^ + $的第二个优点是它的四翼配置和摆动模式自然地抑制了通常影响双翼微型机器人的偏航自由度的旋转扰动。此外,与其他微型机器人相比,Bee $ ^ + $的设计大大降低了相关制造工艺的复杂性,因为单晶片执行器非常容易构建。最后,我们假设,由于相对低的负荷影响它们的扑动机制,所以Beee $ ^ + $ s的预期寿命必须远高于双翼对应物的寿命.Bee $ ^ + $的功能和基本功能是通过一组简单的对照实验证明。我们预计这个新平台可以实现高性能控制器,用于执行低于100毫克的高速特技飞行操作,以及为实现亚克力级别的完全自治而寻求多样化研究。
translated by 谷歌翻译
卷积神经网络(CNN)已成为物体检测任务的最新技术。在本文中,我们已经解释了基于CNN的不同对象检测模型。我们根据两种不同的方法对这些检测模型进行了分类:两阶段方法和一阶段方法。在本文中,我们已经展示了从R-CNN到最终RefineDet的物体检测模型的进步。我们已经讨论了每个模型的模型描述和培训细节。我们还对这些模型进行了比较。
translated by 谷歌翻译
科学计算依赖于执行以某些编程语言编码的计算机算法。鉴于特定的可用硬件,算法速度是一个关键因素。有许多科学计算环境用于编码这样的算法。 Matlab是最成功和最广泛的科学计算环境之一,具有丰富的工具箱,库和数据可视化工具。 OpenCV是一个基于(C ++)的库,主要用于计算机视觉及其相关领域。本文提出了一个比较研究,使用20个不同的真实数据集来比较一些机器学习算法的Matlab和OpenCV的速度。虽然Matlab在开发和数据显示方面更加方便,但OpenCV的执行速度更快,在某些情况下速度比达到80以上。通过使用Matlab或类似环境来选择最成功的算法,可以实现两个世界的最佳效果。然后,使用OpenCV或类似环境实现所选算法以获得速度因子。
translated by 谷歌翻译
恶意网络攻击的传播者继续增加其技术的复杂性和复杂性,并且其逃避检测的能力也在不断提高。因此,入侵检测系统也必须发展以满足这些日益具有挑战性的威胁。机器学习用于支持这种必要的改进。但是,训练良好的预测模型可能需要大量标记的训练数据。由于隐私问题阻止了大多数入侵检测机构共享其敏感数据,因此难以获得此类数据集。在本文中,我们建议使用模仿学习,通过私人数据培训的教师模型将入侵检测知识转移到模糊的模型。该学生模型提供了从私有数据中提取的公开共享知识的手段,而不共享数据本身。我们的结果证实,所提出的方案可以产生模仿教师模型的学生入侵检测模型,而无需访问原始数据集。
translated by 谷歌翻译
操纵任务通常要求机器人持续与对象接触。因此,触觉感知系统需要处理连续的接触数据。与离散的接触读数相比,剪切变形导致触觉传感器输出与路径相关的读数。因此,在一些连续接触任务中,滑动可被视为对传感器信号的干扰。在这里,我们提出了一种基于主成分分析(PCA)的剪切不变感知方法,该方法在滑动运动时输出所需的环境信息。兼容的触觉传感器(TacTip)用于研究连续的触觉接触。首先,我们使用在传感器滑过边缘时收集的测试数据离线评估方法。然后,该方法用于轮廓跟踪任务,应用于具有不同曲率的6个对象;所有轮廓都被成功追踪。该方法证明了泛化能力,并且可以构建一个更复杂的控制器,用于在结构化环境中挑战操纵或探索任务。可以在https://youtu.be/wrTM61-pieU上找到显示论文中描述的工作的视频。
translated by 谷歌翻译