我们微调GPT-3使用基于文本的Web浏览环境来回答长形问题,允许模型搜索和导航Web。通过建立任务,以便通过人类执行,我们能够使用模仿学习培训在任务上的模型,然后通过人体反馈优化答案质量。为了使人为评估事实精度更容易,模型必须在浏览支持答案时收集引用。我们在ELI5上培训并评估我们的模型,Reddit用户提出的问题数据集。我们的最佳模型是通过使用行为克隆进行微调GPT-3获得的,然后对训练训练的奖励模型进行拒绝采样来获得以预测人类偏好。这种模式的答案是人类56%的答案,我们的人类示威者的时间和69%的时间到Reddit的最高投票答复。
translated by 谷歌翻译
最先进的语言模型可以在许多任务中匹配人类性能,但它们仍然努力努力执行多步数学推理。要诊断当前模型和支持研究的故障,我们介绍了GSM8K,是8.5k高质量的语言学级别学校数学词问题的数据集。我们发现即使是最大的变压器模型也无法实现高测试性能,尽管该问题分布的概念简单性。为了提高性能,我们提出培训验证者来判断模型完成的正确性。在测试时间,我们生成许多候选解决方案,并选择验证者排名最高的解决方案。我们证明,验证显着提高了GSM8K的性能,我们提供了强大的经验证据,即验证尺度更有效地具有比FineTuning基线的数据增加。
translated by 谷歌翻译
Spatial understanding is a fundamental aspect of computer vision and integral for human-level reasoning about images, making it an important component for grounded language understanding. While recent large-scale text-to-image synthesis (T2I) models have shown unprecedented improvements in photorealism, it is unclear whether they have reliable spatial understanding capabilities. We investigate the ability of T2I models to generate correct spatial relationships among objects and present VISOR, an evaluation metric that captures how accurately the spatial relationship described in text is generated in the image. To benchmark existing models, we introduce a large-scale challenge dataset SR2D that contains sentences describing two objects and the spatial relationship between them. We construct and harness an automated evaluation pipeline that employs computer vision to recognize objects and their spatial relationships, and we employ it in a large-scale evaluation of T2I models. Our experiments reveal a surprising finding that, although recent state-of-the-art T2I models exhibit high image quality, they are severely limited in their ability to generate multiple objects or the specified spatial relations such as left/right/above/below. Our analyses demonstrate several biases and artifacts of T2I models such as the difficulty with generating multiple objects, a bias towards generating the first object mentioned, spatially inconsistent outputs for equivalent relationships, and a correlation between object co-occurrence and spatial understanding capabilities. We conduct a human study that shows the alignment between VISOR and human judgment about spatial understanding. We offer the SR2D dataset and the VISOR metric to the community in support of T2I spatial reasoning research.
translated by 谷歌翻译
We propose EM-PASTE: an Expectation Maximization(EM) guided Cut-Paste compositional dataset augmentation approach for weakly-supervised instance segmentation using only image-level supervision. The proposed method consists of three main components. The first component generates high-quality foreground object masks. To this end, an EM-like approach is proposed that iteratively refines an initial set of object mask proposals generated by a generic region proposal method. Next, in the second component, high-quality context-aware background images are generated using a text-to-image compositional synthesis method like DALL-E. Finally, the third component creates a large-scale pseudo-labeled instance segmentation training dataset by compositing the foreground object masks onto the original and generated background images. The proposed approach achieves state-of-the-art weakly-supervised instance segmentation results on both the PASCAL VOC 2012 and MS COCO datasets by using only image-level, weak label information. In particular, it outperforms the best baseline by +7.4 and +2.8 mAP0.50 on PASCAL and COCO, respectively. Further, the method provides a new solution to the long-tail weakly-supervised instance segmentation problem (when many classes may only have few training samples), by selectively augmenting under-represented classes.
translated by 谷歌翻译
我们在室外环境中自动驾驶的背景下研究了视觉和语言导航(VLN)问题。我们通过明确接地与Textual命令相对应的可通道区域来解决问题。在每个时间戳,该模型预测与中间或最终可通道区域相对应的分割掩码。我们的工作与VLN中的现有工作形成鲜明对比,VLN的现有工作将该任务置于节点选择问题,并且给定与环境相对应的离散连接图。我们不假定这种离散的地图的可用性。我们的工作朝着动作领域的连续性发展,通过视觉反馈提供了解释性,并允许在需要更精细的操作的命令上进行VLN,例如“两辆汽车之间的停车”。此外,我们提出了一种新型的元数据carla-nav,以允许有效的训练和验证。该数据集包括预录制的培训序列以及用于验证和测试的实时环境。我们提供广泛的定性和定量经验结果,以验证所提出的方法的功效。
translated by 谷歌翻译
模拟逼真的传感器是自主系统数据生成的挑战,通常涉及精心手工的传感器设计,场景属性和物理建模。为了减轻这一点,我们引入了一条管道,用于对逼真的激光雷达传感器进行数据驱动的模拟。我们提出了一个模型,该模型可以在RGB图像和相应的LIDAR功能(例如Raydrop或每点强度)之间直接从真实数据集中进行映射。我们表明,我们的模型可以学会编码逼真的效果,例如透明表面上的掉落点或反射材料上的高强度回报。当应用于现成的模拟器软件提供的天真播放点云时,我们的模型通过根据场景的外观预测强度和删除点来增强数据,以匹配真实的激光雷达传感器。我们使用我们的技术来学习两个不同的LIDAR传感器的模型,并使用它们相应地改善模拟的LiDAR数据。通过车辆细分的示例任务,我们表明通过我们的技术增强模拟点云可以改善下游任务性能。
translated by 谷歌翻译
最近的波能转化器(WEC)配备了多个腿和发电机,以最大程度地发电。传统控制器显示出捕获复杂波形模式的局限性,并且控制器必须有效地最大化能量捕获。本文介绍了多项式增强学习控制器(MARL),该控制器的表现优于传统使用的弹簧减震器控制器。我们的最初研究表明,问题的复杂性质使训练很难融合。因此,我们提出了一种新颖的跳过训练方法,使MARL训练能够克服性能饱和,并与默认的MARL训练相比,融合到最佳控制器,从而增强发电。我们还提出了另一种新型的混合训练初始化(STHTI)方法,其中最初可以单独针对基线弹簧减震器(SD)控制器对MARL控制器的个别代理进行训练,然后在将来一次或将来培训一个代理商或全部培训加速收敛。我们使用异步参与者-Critic(A3C)算法在基线弹簧减震器控制器上实现了基线弹簧减震器控制器的能源效率的两位数提高。
translated by 谷歌翻译
本文提出了一种新型的非侵入系统故障预测技术,使用来自开发人员的可用信息,以及来自原始日志中的最小信息(而不是挖掘整个日志),但与数据所有者完全保持数据。基于神经网络的多级分类器是为故障预测而开发的,使用人为生成的匿名数据集,应用技术组合,即遗传算法(步骤),模式重复等,以训练和测试网络。提出的机制完全将用于培训过程的数据集与保留私有数据的数据集分解。此外,多标准决策(MCDM)方案用于优先考虑满足业务需求的失败。结果显示在不同参数配置下的故障预测准确性。在更广泛的上下文上,可以使用提出的机制具有人工生成的数据集执行任何分类问题,而无需查看实际数据,只要输入功能可以转换为二进制值(例如,来自私有二进制分类器的输出)并可以提供分类 - 服务。
translated by 谷歌翻译
我们研究了改进的多臂匪徒(IMAB)问题,其中从手臂获得的奖励随着收到的拉力数量而增加。该模型为教育和就业等领域中的许多现实世界问题提供了优雅的抽象,在这种领域中,关于机会分配的决定可能会影响社区的未来能力以及它们之间的差异。在这种情况下,决策者必须考虑她的决策对未来奖励的影响,除了随时最大化其累积奖励的标准目标。在许多这些应用中,决策者的时间范围未知,这激发了在技术上更具挑战性的地平线环境中对IMAB问题的研究。我们研究了地平线 - 统一环境中两个看似相互冲突的目标之间产生的紧张:a)根据武器的当前奖励,在任何时候最大化累积奖励,b)确保具有更好的长期奖励的武器获得足够的机会即使他们最初的奖励很低。我们表明,令人惊讶的是,在这种情况下,这两个目标是相互对齐的。我们的主要贡献是对IMAB问题的任何时间算法,它可以获得最佳的累积奖励,同时确保武器在足够的时间内发挥其真正的潜力。由于缺乏机会,我们的算法减轻了最初的差异,并继续拉动手臂直到停止改善。我们通过证明a)imab问题的任何算法来证明我们的算法的最佳性,无论其功利主义,无论多么有效,都必须遭受$ \ omega(t)$政策后悔和$ \ omega(k)$竞争比率相对于最佳的比例离线政策和b)我们算法的竞争比率为$ O(k)$。
translated by 谷歌翻译
本文介绍了我们在服务机器人中使用工业4.0资产管理壳(AASS)。我们将AASS与服务机器人的软件组件以及完整的服务机器人系统一起使用。软件组件的AAs用作标准化的数字数据表。它可以在设计时间帮助系统构建器查找和选择匹配要构建系统的系统级要求的软件组件。系统的AAS包括用于系统的数据表,并在运行时运行数据收集,并允许对服务机器人的技能级别命令。作为我们的模型驱动开发和服务机器人技术的组成工作流程的一部分,AAS是生成和填充的。AASS可以作为标准化集成和与服务机器人交互的关键推动器。
translated by 谷歌翻译