网络系统中的一个重要问题是检测和删除所谓的恶意节点。在这种情况下,一个关键的考虑因素是检测中的不确定性,加上对网络连接的考虑,这会导致错误地移除良性节点以及无法移除恶意节点而产生间接成本。最近提出的解决这个问题的方法直接解决了这些问题,但具有显着的局限性:它假定决策者对网络上节点的联合恶意概率有准确的了解。这在实践中显然不是这种情况,这种分布有限的证据是最好的估计。为了解决这个问题,我们提出了用于最佳节点移除的分布式鲁棒框架。虽然问题是NP-Hard,但我们提出了一种原理算法技术,可以基于二元性与半定规划松弛相结合来近似解决它。综合使用理论和实证分析,使用合成数据和实际数据,提供了强有力的证据证明非算法方法非常有效,特别是比现有技术更强大。
translated by 谷歌翻译
我们通过$ \ ell_1 $ -minimization研究从一组信号中全局恢复字典的问题。我们假设信号是asi.i.d生成的。来自完整参考字典$ D ^ * \ in \ mathbb R ^ {K \ times K} $的$ K $原子的随机线性组合,其中线性组合系数来自伯努利型模型或精确稀疏模型。首先,我们获得必要且充分的规范条件,引用的字典$ D ^ * $是预期的$ \ ell_1 $目标函数的一个尖锐的局部最小值。我们的结果大大扩展了Wu和Yu(2015)的结果,并允许组合系数是非负的。其次,我们在所引用的字典的目标值最小的区域上获得显式绑定。第三,我们证明了参考字典是唯一的尖锐局部最小值,从而建立了第一个已知的$ \ ell_1 $ -minimization字典学习的全局属性。在理论结果的推动下,我们引入了基于扰动的测试来确定adictionary是否是目标函数的尖锐局部最小值。此外,我们还提出了一种新的基于Block CoordinateDescent的字典学习算法,称为DL-BCD,保证具有单调收敛性。模拟研究表明DL-BCD在恢复率方面具有竞争性,与许多状态相比。 -art字典学习算法。
translated by 谷歌翻译
能够解释来自实时视频流的场景的视觉算法对于计算机辅助手术系统来实现上下文感知行为是必要的。在腹腔镜手术中,这种系统所需的一种特定算法是手术阶段的识别,对于该手术阶段,现有技术是基于CNN-LSTM的模型。许多使用此类模型的先前工作已经以完全监督的方式训练它们,需要完全注释的数据集。相反,我们的工作面临着在提供大量注释数据(低于所有可用视频录像的25%)的情况下学习手术阶段识别的问题。我们提出了ateacher / student类型的方法,其中一个称为教师的强预测器,事先在一个关于地面实况注释视频的小数据集上进行训练,为更大的数据集生成合成注释,另一个模型 - 学生 - 从中​​学习。在我们的案例中,教师采用了新颖的CNN-biLSTM-CRF架构,仅用于离线推理。另一方面,学生是能够进行实时预测的CNN-LSTM。各种数量的手动注释视频的结果证明了新CNN-biLSTM-CRF预测器的优越性以及使用针对未注释视频生成的合成标签从CNN-LSTMtrained获得的改进性能。对于离线和在线手术阶段识别,只有很少的注释记录可用,这种新的教师/学生策略通过有效地利用未注释的数据提供了有价值的性能改进。
translated by 谷歌翻译
为了诊断黑素瘤,苏木精和曙红(H&E)染色的组织切片仍然是金标准。这些图像包含无关放大的定量信息。在本研究中,我们研究了深层卷积神经网络是否能够以修补的方式直接从这些大尺寸图像中提取互补文本的结构特征。为了应对组织病理学滑体形态多样性带来的挑战,我们建立了一个多中心数据库,包括来自2008年至2018年的132名患者的2241个数字全幻灯片图像。我们通过转移学习和测试性能,使用超过995万个补丁训练ResNet50和Vgg19两种关键分类:恶性黑色素瘤与良性痣不相关和混合放大;并在最大放大率中区分痣。 CNN在两个任务中都实现了卓越的性能,证明了能够根据病理学图像分析皮肤癌的AI。为了使分类合理,CNN表示的可视化还用于识别黑素瘤和痣之间的细胞。感兴趣的区域(ROI)也位于显着有用的位置,为病理学家提供了更多正确诊断的支持。
translated by 谷歌翻译
由于其不适定的性质,单图像去雾是一个具有挑战性的问题。现有的方法依赖于次优的两步法,其中估计像深度图这样的中间产品,基于该中间产品随后使用人工生成无雾图像。先前的公式。在本文中,我们提出了一个名为LDTNet的轻型双任务神经网络,可以一次性恢复无阴影图像。我们使用传输图估计作为辅助任务来辅助主要任务,雾霾去除,特征提取和增强网络的泛化。在LDTNet中,同时产生无雾图像和透射图。结果,人工原因减少到最小程度。大量实验表明,我们的算法在合成和真实世界图像上都能够达到最先进的方法。
translated by 谷歌翻译
对话是交换信息的有效方式,但细微的细节和资金非常重要。虽然重大进展为使用算法进行视觉对话铺平了道路,但细节和细微差别仍然是一个挑战。注意机制已经证明了提取细节隐形问题答案的引人注目的结果,并且由于其可解释性和有效性而为视觉对话提供了令人信服的框架。然而,伴随视觉对话的许多数据都挑战了现有的注意技术。我们解决了这个问题,并开发了visualdialog的一般注意机制,可以在任意数量的数据工具上运行。为此,我们设计了一个基于因子图的注意机制,它结合了任意数量的效用表示。我们说明了所提出的方法对具有挑战性和最近引入的VisDial数据集的适用性,在VisDial0.9中表现优于最近的最新方法1.1%,在VisRial1.0 onMRR上表现优于2%。我们的集合模型将VisDial1.0的MRR得分提高了6%以上。
translated by 谷歌翻译
尽管二阶相似性(SOS)已经在图形匹配和聚类等任务中得到了显着的成功,但它还没有被用于学习局部描述符。在这项工作中,我们通过建立一个正对匹配点应该表现出相对于嵌入空间中其他点的相似距离的概念来探索描述符学习领域中SOS的潜力。因此,我们提出了一个新的正则化项,称为二阶相似正则化(SOSR),遵循这一原则。通过将SOSR结合到训练中,我们学习的描述符在包含不同任务的几个具有挑战性的基准上实现了最先进的性能,这些任务包括来自运动的局部补丁检索结构。此外,通过设计基于von Mises-Fischer分布的评估方法,我们将描述符空间的利用率与匹配性能联系起来,从而证明了我们提出的SOSR的有效性。提供了广泛的实验结果,经验证据和诠释分析,表明SOSR可以显着提高学习描述符的匹配性能。
translated by 谷歌翻译
多跳推理问题回答需要深入理解各种文档和查询之间的关系。我们提出了一种双向注意实体图卷积网络(BAG),利用实体图中节点之间的关系和查询与实体图之间的关注信息来解决这一任务。图形卷积网络用于获得由具有多级特征的文档构建的实体图的节点的关系感知表示。然后将双向关注应用于图形和查询以生成查询感知节点表示,其将用于最终预测。实验评估显示BAG在QAngaroo WIKIHOP数据集上实现了最先进的精确性能。
translated by 谷歌翻译
恢复非朗伯曲面的形状和反射率仍然是计算机视觉中的一个难题,因为视图相关的外观使传统的照片一致性约束失效。在本文中,我们介绍了一种新颖的同心多光谱光场(CMSLF)设计,可以一次性恢复任意材料表面的形状和反射率。我们的CMSLF系统由一排排列在同心圆上的摄像机组成,每个环捕获一个特定的光谱。结合多光谱环形光,我们能够通过光谱多路复用在单次拍摄中对视点和光照变化进行采样。我们进一步表明,这种同心相机/灯光设置导致跨视图的镜面交换的独特模式,从而实现稳健的深度估计。我们在CMSLF上制定基于物理的反射模型来估计深度和多光谱反射率图,而不强加任何表面先验。广泛的合成和实验表明,我们的方法优于最先进的基于光场的技术,特别是在非朗伯场景中。
translated by 谷歌翻译
体验式问答(EQA)是一项相对较新的任务,代理人需要从自我中心的感知中回答有关其环境的问题。 EQA制定了一个基本假设,即每个问题,例如“什么颜色是汽车?”,只有一个目标(“汽车”)被询问。该假设直接限制了代理人的能力。我们提出EQA的时间化 - 多目标EQA(MT-EQA)。具体来说,我们研究了其中有多个目标的问题,例如“卧室中的梳妆台是否比厨房的烤箱大?”,代理人必须导航到多个位置(“卧室梳妆台”,“厨房烤箱”)并且在它能回答问题之前执行比较推理(“梳妆台”比“烤箱”更大)。这些问题需要在代理中开发全新的模块或组件。为了解决这个问题,我们提出了一个由程序生成器,控制器,导航器和VQA模块组成的模块化架构。程序生成器将给定的问题转换为顺序的可执行子程序;导航器将代理引导到与导航相关的子程序相关的多个位置;并且控制器学会沿其路径选择相关的观察。然后将这些观察结果馈送到VQA模块以预测答案。我们对每个模型组件进行详细分析,并表明我们的联合模型可以在很大程度上优于以前的方法和强大的基线。
translated by 谷歌翻译