我们提出了一种基于注意力的方法,该方法将局部图像特征聚合到主题级表示以预测疾病严重性。与需要固定维度输入的经典深度学习相比,我们的方法在一组图像补丁上运行;因此它可以容纳可变长度输入图像而无需调整图像大小。该模型学习临床解释的主题水平表示,反映疾病的严重程度。我们的模型由三个相互依赖的模块组成,这些模块相互调节:(1)一个辨别网络,它从局部特征中学习固定长度的表示,并将它们映射到疾病严重程度; (2)通过关注对预测任务贡献最大的解剖学区域来提供可解释性的注意机制; (3)生成网络可以促进当地潜在特征的多样性。生成的关键是注意力量是非退化的,同时保持局部区域与疾病严重程度的相关性。我们在慢性阻塞性肺病(COPD)的大规模肺CT研究中训练我们的模式到终点。我们的模型为预测COPD严重程度的临床指标提供了最先进的性能。注意力的分布提供了肺组织与临床测量的区域相关性。
translated by 谷歌翻译
While neural networks have achieved high performance in different learning tasks, their accuracy drops significantly in the presence of small adver-sarial perturbations to inputs. Defenses based on regularization and adversarial training are often followed by new attacks to defeat them. In this paper, we propose attack-agnostic robustness certificates for a multi-label classification problem using a deep ReLU network. Although computing the exact distance of a given input sample to the classification decision boundary requires solving a non-convex optimization, we characterize two lower bounds for such distances, namely the simplex certificate and the decision boundary certificate. These robustness certificates leverage the piece-wise linear structure of ReLU networks and use the fact that in a polyhedron around a given sample, the prediction function is linear. In particular, the proposed simplex certificate has a closed-form, is differentiable and is an order of magnitude faster to compute than the existing methods even for deep networks. In addition to theoretical bounds, we provide numerical results for our certificates over MNIST and compare them with some existing upper bounds.
translated by 谷歌翻译
我们考虑一个双代理MDP框架,代理在协作设置中反复解决任务。我们研究了为第一个代理(A1)设计学习算法的问题,该问题促进了成功的协作,即使在第二个代理(A2)以未知方式调整其策略时也是如此。在我们的环境中,关键的挑战是,第二个代理人的存在会导致第一个代理人的稳定性和非遗忘性的奖励和转换。我们为代理A1设计了新颖的在线学习算法,如果代理A2政策的规模在两者之间发生变化,他们的后悔会减少$ O(T ^ {1- \ frac {3} {7} \ cdot \ alpha})$ $ T $学习情节任何两个连续剧集的上限由$ O(T ^ { - \ alpha})$限制。在这里,假设参数$ \ alpha $严格地大于$ 0 $,并且我们表明这个假设是必要的,因为{\ em学习奇偶校验噪声}问题在计算上很难。我们表明,代理A1的次线性遗憾进一步暗示了代理人对MDP的联合回报的近似最优性,这表明了{\ em smooth}游戏的特性。
translated by 谷歌翻译
在本文中,我们提供了我们定制的四足机器人的硬件设计和控制架构的完整描述,称为Stoch。我们的目标是实现一个强大的,模块化的,可靠的四足平台,探索各种运动行为。该平台使我们能够探索腿部运动中的不同研究问题,这些问题同时使用传统和基于学习的技术。我们讨论了平台在利用可用行为,快速快速原型制作,复制和修复方面的优点和局限性。接近尾声时,我们将展示小跑,边界行为以及转弯时的初步结果。此外,我们还将展示各种步态转换,即小跑转向和转弯行为。
translated by 谷歌翻译
我们通过逐点伯努利检验来研究学习未知,平滑概率函数的基本问题。我们提供了第一个可扩展的算法,可以通过严格的保证有效地解决这个问题。特别地,我们证明了后验更新规则对L2范数中的真实概率函数的收敛速度。此外,我们允许伯努利测试依赖于上下文特征,并提供一个修改的推理引擎,为这种新颖的设置提供可靠的保证。数值结果表明,经验收敛速度与理论相符,说明了我们的方法在处理上下文特征方面优于现有技术的优越性。
translated by 谷歌翻译
机器人需要情境意识,有效的语音产生和实现非语言手势,以便在社会中成功进行交流。在本文中,我们提出了我们的端到端系统,试图增强非语言手势的有效性。为了实现这一点,我们在TED扬声器的演奏中确定了主要使用的手势,并根据听众的注意力将它们映射到相应的语音环境和调制语音。所提出的方法利用Convolutional PoseMachine [4]来检测人类手势。 TED扬声器的主要手势用于学习手势到语音映射。他们的演讲用于训练模型。我们还通过进行社会调查评估了机器人与人的互动情况。机器人监控表演的有效性,并根据观众的注意力水平自动简化其演讲模式,这是通过摄像机的视觉反馈计算出来的。基于头部姿势检测和交互调查,进一步评估了交互的有效性以及在即兴期间做出的决定。
translated by 谷歌翻译
许多预测任务,尤其是计算机视觉中的预测任务,往往具有内在含义。例如,语义分段的输出可以取决于正在观察的比例,并且图像显着性或视频摘要通常是用户或上下文相关的。可以说,在这种情况下,利用特定于实例的证据(例如规模或用户上下文)可以帮助解决导致改进预测的基本模糊性。虽然现有文献已经考虑将这些证据纳入经典模型,例如概率图形模型(PGM),但在深度神经网络(DNN)模型的背景下,在这个问题上存在有限的(或没有)先前的工作。在本文中,我们提出了一种基于通用多任务学习(MTL)的框架,该框架将证据作为一个或多个辅助任务的输出处理,同时将原始问题建模为感兴趣的主要任务。我们的训练阶段与标准MTL体系结构使用的阶段相同。在预测期间,我们反向传播次要任务的损失,以便重新调整网络权重以匹配证据。早期停止或两个规范的正则化器确保权重不会与最初学习的权重显着不同。在两个特定场景中的实现(a)在给定图像级别标签的情况下预测语义分段(b)在给定图像的文本描述的情况下预测实例级别分割,清楚地证明了我们提出的方法的有效性。
translated by 谷歌翻译
我们认为机器教学问题处于教室式的环境中,教师必须向不同的学生群体提供相同的例子。他们的多样性源于他们初始内部状态的差异以及他们的学习率。我们证明了一位完全了解学生学习动态的教师可以使用O(min {d,N} log(1 / eps))示例向整个课堂教授目标概念,其中d是问题的环境维度,N是学习者的数量,eps是准确度参数。当教师对由嘈杂声提供的学习者内部动力学有一定的了解时,我们展示了我们教学策略的稳健性。此外,我们研究了学习者的工作量与教师目标概念教学成本之间的权衡。我们的实验验证了理论结果,并建议将课堂适当地划分为同质群体,从而在这两个目标之间取得平衡。
translated by 谷歌翻译
本文介绍了我们的方法,使配备有单目相机的无人机四旋翼能够自主地避免与未构造和未知的室内环境中的障碍物碰撞。与地面车辆机器人中的障碍物相比,无人机导航带来了额外的挑战,因为无人机运动不再局限于明确的室内地面或街道环境。室内和室外环境中的水平结构,如装饰物品,家具,吊扇,标志牌,树枝等,也成为与地面车辆机器人不同的相关障碍。因此,为地面机器人开发的避障方法显然不适用于无人机导航。使用单眼图像用于无人机避障的当前控制方法严重依赖于环境信息。这些控制器不能完全保留和利用有关决策制定的周围环境的广泛可用信息。我们提出了一种基于深度强化学习的UAVobstacle避免(OA)和自主探索方法,它能够完全相同。我们方法中的关键思想是部分可观测性的概念以及无人机如何保留有关环境结构的相关信息,以便做出更好的未来导航决策。我们的OA技术使用具有时间关注度的递归神经网络,并且与先前的工作相比,在没有碰撞的导航期间覆盖的距离方面提供更好的结果。此外,我们的技术具有很高的推理力(机器人应用中的关键因素),并且能够高效节能,因为它最大限度地减少了无人机的振荡运动并减少了功耗。
translated by 谷歌翻译
非接触式用户界面的设计在各种方面越来越受欢迎。使用这样的接口,当手脏或不导电时,用户可以与电子设备交互。此外,具有部分身体残疾的用户可以使用这样的系统与电子设备进行交互。由于Leap Motion,Kinect或RealSense设备等低成本传感器的出现,在这方面的研究得到了很大的推动。在本文中,我们提出了一种基于Leap Motion控制器的方法,以便于在显示设备上渲染2D和3D形状。所提出的方法跟踪手指移动,同时用户在传感器的视野内执行自然手势。在下一阶段,分析轨迹以提取3D中的extendedNpen ++特征。这些特征表示在摄取期间的手指运动,并且它们被馈送到单向从左到右的隐马尔可夫模型(HMM)用于训练。提出了手势和形状之间的一对一映射。最后,使用MuPad界面在显示器上呈现与这些手势相对应的形状。我们创建了一个由10名志愿者记录的5400个样本的数据集。我们的数据集包含18个几何和18个非几何形状,如“圆”,“矩形”,“花”,“圆锥”,“球体”等。当使用5倍交叉验证方法评估时,所提出的方法实现了92.87%的准确度。我们的实验表明,扩展3D功能在形状表示和分类的上下文中比现有的3D功能表现更好。该方法可用于开发用于智能显示设备的有用的HCI应用。
translated by 谷歌翻译