Complex and contact-rich robotic manipulation tasks, particularly those that involve multi-fingered hands and underactuated object manipulation, present a significant challenge to any control method. Methods based on reinforcement learning offer an appealing choice for such settings, as they can enable robots to learn to delicately balance contact forces and dexterously reposition objects without strong modeling assumptions. However, running reinforcement learning on real-world dexterous manipulation systems often requires significant manual engineering. This negates the benefits of autonomous data collection and ease of use that reinforcement learning should in principle provide. In this paper, we describe a system for vision-based dexterous manipulation that provides a "programming-free" approach for users to define new tasks and enable robots with complex multi-fingered hands to learn to perform them through interaction. The core principle underlying our system is that, in a vision-based setting, users should be able to provide high-level intermediate supervision that circumvents challenges in teleoperation or kinesthetic teaching which allow a robot to not only learn a task efficiently but also to autonomously practice. Our system includes a framework for users to define a final task and intermediate sub-tasks with image examples, a reinforcement learning procedure that learns the task autonomously without interventions, and experimental results with a four-finger robotic hand learning multi-stage object manipulation tasks directly in the real world, without simulation, manual modeling, or reward engineering.
translated by 谷歌翻译
This paper introduces the use of evolutionary algorithms for solving differential equations. The solution is obtained by optimizing a deep neural network whose loss function is defined by the residual terms from the differential equations. Recent studies have used stochastic gradient descent (SGD) variants to train these physics-informed neural networks (PINNs), but these methods can struggle to find accurate solutions due to optimization challenges. When solving differential equations, it is important to find the globally optimum parameters of the network, rather than just finding a solution that works well during training. SGD only searches along a single gradient direction, so it may not be the best approach for training PINNs with their accompanying complex optimization landscapes. In contrast, evolutionary algorithms perform a parallel exploration of different solutions in order to avoid getting stuck in local optima and can potentially find more accurate solutions. However, evolutionary algorithms can be slow, which can make them difficult to use in practice. To address this, we provide a set of five benchmark problems with associated performance metrics and baseline results to support the development of evolutionary algorithms for enhanced PINN training. As a baseline, we evaluate the performance and speed of using the widely adopted Covariance Matrix Adaptation Evolution Strategy (CMA-ES) for solving PINNs. We provide the loss and training time for CMA-ES run on TensorFlow, and CMA-ES and SGD run on JAX (with GPU acceleration) for the five benchmark problems. Our results show that JAX-accelerated evolutionary algorithms, particularly CMA-ES, can be a useful approach for solving differential equations. We hope that our work will support the exploration and development of alternative optimization algorithms for the complex task of optimizing PINNs.
translated by 谷歌翻译
The advancement in the area of computer vision has been brought using deep learning mechanisms. Image Forensics is one of the major areas of computer vision application. Forgery of images is sub-category of image forensics and can be detected using Error Level Analysis. Using such images as an input, this can turn out to be a binary classification problem which can be leveraged using variations of convolutional neural networks. In this paper we perform transfer learning with state-of-the-art image classification models over error level analysis induced CASIA ITDE v.2 dataset. The algorithms used are VGG-19, Inception-V3, ResNet-152-V2, XceptionNet and EfficientNet-V2L with their respective methodologies and results.
translated by 谷歌翻译
在过去的十年中,修剪神经网络已经流行,当时证明可以安全地从现代神经网络中安全地删除大量权重,而不会损害准确性。从那时起,已经提出了许多修剪方法,每种方法都比以前更好。如今,许多最先进的技术(SOTA)技术依赖于使用重要性得分的复杂修剪方法,通过反向传播获得反馈或在其他等方面获得基于启发式的修剪规则。我们质疑这种引入复杂性的模式,以获得更好的修剪结果。我们对这些SOTA技术基准针对全球幅度修剪(全球MP)(一个天真的修剪基线),以评估是否确实需要复杂性来实现更高的性能。全球MP按其幅度顺序排列权重,并修理最小的权重。因此,它以香草形式是最简单的修剪技术之一。令人惊讶的是,我们发现香草全球MP的表现优于所有其他SOTA技术,并取得了新的SOTA结果。它还可以在拖叉稀疏方面取得良好的性能,当以逐渐修剪的方式进行修剪时,我们发现这是增强的。我们还发现,全球MP在具有卓越性能的任务,数据集和模型之间可以推广。此外,许多修剪算法以高稀疏速率遇到的一个常见问题,即可以通过设置要保留在每层中的最小权重阈值来轻松固定在全球MP中。最后,与许多其他SOTA技术不同,全球MP不需要任何其他特定算法的超参数,并且非常简单地调整和实施。我们在各种模型(WRN-28-8,Resnet-32,Resnet-50,Mobilenet-V1和FastGrnn)和多个数据集(CIFAR-10,Imagenet和HAR-2)上展示了我们的发现。代码可在https://github.com/manasgupta-1/globalmp上找到。
translated by 谷歌翻译
在现实世界中,教授多指的灵巧机器人在现实世界中掌握物体,这是一个充满挑战的问题,由于其高维状态和动作空间。我们提出了一个机器人学习系统,该系统可以进行少量的人类示范,并学会掌握在某些被遮挡的观察结果的情况下掌握看不见的物体姿势。我们的系统利用了一个小型运动捕获数据集,并为多指的机器人抓手生成具有多种多样且成功的轨迹的大型数据集。通过添加域随机化,我们表明我们的数据集提供了可以将其转移到策略学习者的强大抓地力轨迹。我们训练一种灵活的抓紧策略,该策略将对象的点云作为输入,并预测连续的动作以从不同初始机器人状态掌握对象。我们在模拟中评估了系统对22多伏的浮动手的有效性,并在现实世界中带有kuka手臂的23多杆Allegro机器人手。从我们的数据集中汲取的政策可以很好地概括在模拟和现实世界中的看不见的对象姿势
translated by 谷歌翻译
多种业务场景需要从结构化输入数据中自动生成描述性的人类可读文本。因此,已经开发了针对各种下游任务的事实到文本的系统主要是由于相关数据集的高可用性。直到最近,提出了跨语言事实与文本(XF2T)的问题,该问题是针对多种语言的生成,以及一个数据集,Xalign的八种语言。但是,实际上XF2T生成问题没有严格的工作。我们使用另外四种语言的注释数据扩展了Xalign数据集:旁遮普语,马拉雅拉姆语,阿萨姆语和Oriya。我们在扩展的多语言数据集上使用基于变压器的流行文本生成模型进行了广泛的研究,我们称之为Xalignv2。此外,我们研究了不同文本生成策略的性能:预处理,事实感知的嵌入和结构意识的输入编码的多种变化。我们的广泛实验表明,使用具有结构意识的输入编码的事实感知的嵌入式的多语言MT5模型可以平均在十二种语言中获得最佳结果。我们将代码,数据集和模型公开可用,并希望这将有助于进一步在此关键领域进行进一步的研究。
translated by 谷歌翻译
制作对抗性攻击的大多数方法都集中在具有单个主体对象的场景上(例如,来自Imagenet的图像)。另一方面,自然场景包括多个在语义上相关的主要对象。因此,探索设计攻击策略至关重要,这些攻击策略超出了在单对象场景上学习或攻击单对象受害者分类器。由于其固有的属性将扰动向未知模型的强大可传递性强,因此本文介绍了使用生成模型对多对象场景的对抗性攻击的第一种方法。为了代表输入场景中不同对象之间的关系,我们利用开源的预训练的视觉语言模型剪辑(对比语言图像 - 预训练),并动机利用语言中的编码语义来利用编码的语义空间与视觉空间一起。我们称这种攻击方法生成对抗性多对象场景攻击(GAMA)。 GAMA展示了剪辑模型作为攻击者的工具的实用性,以训练可强大的扰动发电机为多对象场景。使用联合图像文本功能来训练发电机,我们表明GAMA可以在各种攻击环境中制作有效的可转移扰动,以欺骗受害者分类器。例如,GAMA触发的错误分类比在黑框设置中的最新生成方法高出约16%,在黑框设置中,分类器体系结构和攻击者的数据分布都与受害者不同。我们的代码将很快公开提供。
translated by 谷歌翻译
机器学习的回归分支纯粹集中于连续值的预测。监督学习分支具有许多基于回归的方法,具有参数和非参数学习模型。在本文中,我们旨在针对与基于距离的回归模型相关的非常微妙的点。所使用的基于距离的模型是K-Nearest邻居回归器,它是一种监督的非参数方法。我们要证明的观点是模型的k参数的效果及其影响指标的波动。我们使用的指标是根平方误差和R平方拟合的优点,其值相对于K值的值表示。
translated by 谷歌翻译
当前文献中可用的卷积神经网络(CNN)方法旨在主要与低分辨率图像合作。当应用于非常大的图像时,与GPU记忆相关的挑战,比语义通信所需的较小的接受场以及需要结合多尺度特征的需求。但是,可以减少输入图像的分辨率,但要大量关键信息丢失。基于概述的问题,我们引入了一个新的研究问题,以培训CNN模型为非常大的图像,并介绍“超级数据集”,这是一个简单而代表性的基准数据集,用于此任务。 Ultramnist是使用流行的MNIST数字设计的,并添加了更多的复杂性,以很好地复制现实世界问题的挑战。我们提出了两个问题的两个变体:“超级分类”和“预算意识到的超级名人分类”。标准的超快分类基准旨在促进新型CNN培训方法的开发,从而有效利用最佳可用GPU资源。预算感知的变体旨在促进在受限GPU记忆下工作的方法的开发。为了开发竞争解决方案,我们为标准基准及其预算感知变体提供了几种基线模型。我们研究了减少分辨率对涉及流行最先进模型中预审预定型骨架的基线模型的性能的影响和目前的结果。最后,借助提出的基准数据集和基线,我们希望为新一代的CNN方法铺平地面,适合以有效和资源的方式处理大型图像。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译