对比学习已成为图形结构数据的自我监督学习方法的关键组成部分。然而,尽管取得了成功,但是现有的图形对比学习方法对于节点表示或其下游任务无能为力地定量,这限制了它们在高赌场域中的应用。在本文中,我们提出了一种新颖的贝叶斯视角,曲线图对比学习方法,显示随机增强导致随机编码器。结果,我们所提出的方法通过将每个节点嵌入到确定性矢量的现有技术对比潜空间中的分布来表示每个节点。通过学习分配表示,我们在下游图分析任务中提供不确定性估计,并提高预测模型的表现力。此外,我们提出了一个贝叶斯框架,以推断对比模型的每种视图中扰动的概率,消除了对普通参数调谐的计算昂贵的搜索需要。与在多个基准数据集上的现有最先进方法相比,我们经验凭经验显示了相当大的性能。
translated by 谷歌翻译
对媒体描绘的客观理解,例如在电影和电视中被听到并在屏幕上听到并在屏幕上看到和看过的包容性描写,要求机器自动辨别谁,何时,如何以及某人正在谈论的人,而不是。可以从媒体内容中存在的丰富的多模式信息自动侦听扬声器活动。然而,由于媒体内容中的众多种类和上下文可变性以及缺乏标记数据,这是一个具有挑战性的问题。在这项工作中,我们提出了一种用于学习视觉表示的跨模型神经网络,其具有与视觉帧中扬声器的空间位置有关的隐式信息。避免对视觉帧中的活动扬声器进行手动注释,获取非常昂贵的是,我们为在电影内容中定位有源扬声器的任务提供弱监督系统。我们使用学习的跨模型视觉表示,并从充当语音活动的电影字幕提供弱监督,从而需要没有手动注释。我们评估所提出的系统在AVA主动扬声器数据集上的性能,并展示与完全监督系统相比,跨模型嵌入式的跨模型嵌入式的有效性。我们还展示了语音活动检测任务在视听框架中的最先进的性能,尤其是当语音伴随着噪声和音乐时。
translated by 谷歌翻译
原位可视化技术因缺乏远见而受到阻碍:由于采样率差或临界时间段上的细节不足,可能会错过关键的仿真现象。将人保持在循环中是不切实际的,定义统计触发器可能很困难。本文展示了使用基于机器学习的仿真替代物作为甲骨文来识别大规模仿真的预期关键区域的潜力。这些关键区域用于推动原位分析,提供更大的数据保真度和分析解决方案,其等效I/O预算与传统的现场框架。我们通过将TACC星系与CB-GEO MPM集成以进行颗粒流的材料点模拟,从而开发出分布的异步原位可视化。我们采用基于Pytorch的3D图网络模拟器(GNS),该模拟器(GNS)接受了颗粒流问题的训练,作为预测颗粒流动的动力学的甲骨文。关键的利益区域在GN中手动标记,以在MPM中进行原位渲染。
translated by 谷歌翻译
随着机器学习(ML)系统变得越来越普遍,有必要在部署之前审核这些系统的偏见。最近的研究开发了算法,以有效地以可解释的,表现不佳的数据(或切片)的形式有效地识别相互偏见。但是,这些解决方案及其见解是有限的,而没有用于视觉理解和与这些算法结果相互作用的工具。我们提出了Visual Auditor,这是一种交互式可视化工具,用于审核和汇总模型偏差。视觉审核员通过提供可解释的交叉偏差概述(检查由多个功能定义的人群,有问题的数据切片之间的关系以及在模型中表现不佳和表现表现不佳之间的比较之间存在的详细信息)来协助模型验证。我们的开源工具直接在计算笔记本和Web浏览器中运行,使模型审核可访问并易于集成到当前的ML开发工作流中。一项与Fiddler AI的域专家合作的观察用户研究强调,我们的工具可以帮助ML实践者识别和理解模型偏见。
translated by 谷歌翻译
该技术报告介绍了我们提交给ICML表达性发声研讨会和竞争多任务轨迹(EXVO-Multitask)的建模方法。我们首先将各种尺寸的图像分类模型应用于声乐爆发的MEL-SPECTROGRAM表示,这是声音事件检测文献中的标准。这些模型的结果显示,就任务指标的谐波平均值而言,基线系统的增加了21.24%,并构成了团队对多任务轨道的主要提交。然后,我们试图通过应用大型预训练的构象模型来表征多任务轨道中的净空,该模型以前在语言学识别和掩盖膜检测等副语言任务上实现了最新的结果。我们还研究了情感表达,原产国和年龄预测的子任务之间的关系,并发现最佳性能模型被培训为单任务模型,质疑该问题是否真正从多任务设置中受益。
translated by 谷歌翻译
在本文中,我们提出了一种新的青光眼分类方法,该方法在最佳增强的视网膜图像特征上采用小波神经网络(WNN)。为了避免眼科医生对视网膜图像进行乏味和错误的手动分析,计算机辅助诊断(CAD)实质上有助于强大的诊断。我们的目标是以新的方法引入CAD系统。视网膜图像质量改进尝试分为两个阶段。视网膜图像预处理阶段通过基于分位数的直方图修饰来改善图像的亮度和对比度。其次是图像增强阶段,该阶段涉及使用图像特异性动态结构元素以进行视网膜结构富集。基于图形的视网膜图像特征在本地图结构(LGS)和图形最短路径(GSP)统计数据以及增强视网膜数据集的统计特征以及统计特征中提取。 WNN用于将青光眼视网膜图像与合适的小波活化函数分类。将WNN分类器的性能与具有各种数据集的多层感知器神经网络进行了比较。结果表明,我们的方法优于现有方法。
translated by 谷歌翻译
研究深度学习的鲁棒性的一个主要挑战是定义了给定神经网络(NN)不变的``毫无意义''扰动集。关于鲁棒性的大多数工作隐含地将人作为参考模型来定义这种扰动。我们的工作通过使用另一个参考NN来定义给定的NN应该不变,从而使对任何NN的依赖概述对任何NN的依赖。这使得衡量鲁棒性等同于衡量两个NN共享不稳定的程度,我们提出了一种称为搅拌的措施。搅拌重新调整现有的表示相似性措施,使其适合衡量共享的不稳定。使用我们的度量,我们能够深入了解共享的不断增长,随着重量初始化,体系结构,损失功能和培训数据集的变化如何变化。我们的实现可在:\ url {https://github.com/nvedant07/stir}中获得。
translated by 谷歌翻译
尽管在最近的文献中提出了几种类型的事后解释方法(例如,特征归因方法),但在系统地以有效且透明的方式进行系统基准测试这些方法几乎没有工作。在这里,我们介绍了OpenXai,这是一个全面且可扩展的开源框架,用于评估和基准测试事后解释方法。 OpenXAI由以下关键组件组成:(i)灵活的合成数据生成器以及各种现实世界数据集,预训练的模型和最新功能属性方法的集合,(ii)开源实现22个定量指标,用于评估忠诚,稳定性(稳健性)和解释方法的公平性,以及(iii)有史以来第一个公共XAI XAI排行榜对基准解释。 OpenXAI很容易扩展,因为用户可以轻松地评估自定义说明方法并将其纳入我们的排行榜。总体而言,OpenXAI提供了一种自动化的端到端管道,该管道不仅简化并标准化了事后解释方法的评估,而且还促进了基准这些方法的透明度和可重复性。 OpenXAI数据集和数据加载程序,最先进的解释方法的实现和评估指标以及排行榜,可在https://open-xai.github.io/上公开获得。
translated by 谷歌翻译
手术中的视觉问题回答(VQA)在很大程度上没有探索。专家外科医生稀缺,经常被临床和学术工作负载超负荷。这种超负荷通常会限制他们从患者,医学生或初级居民与手术程序有关的时间回答问卷。有时,学生和初级居民也不要在课堂上提出太多问题以减少干扰。尽管计算机辅助的模拟器和过去的手术程序记录已经可以让他们观察和提高技能,但他们仍然非常依靠医学专家来回答他们的问题。将手术VQA系统作为可靠的“第二意见”可以作为备份,并减轻医疗专家回答这些问题的负担。缺乏注释的医学数据和特定于域的术语的存在限制了对手术程序的VQA探索。在这项工作中,我们设计了一项外科VQA任务,该任务根据外科手术场景回答有关手术程序的问卷。扩展MICCAI内窥镜视觉挑战2018数据集和工作流识别数据集,我们介绍了两个具有分类和基于句子的答案的手术VQA数据集。为了执行手术VQA,我们采用视觉文本变压器模型。我们进一步介绍了一个基于MLP的剩余Visualbert编码器模型,该模型可以在视觉令牌和文本令牌之间进行相互作用,从而改善了基于分类的答案的性能。此外,我们研究了输入图像贴片数量和时间视觉特征对分类和基于句子的答案中模型性能的影响。
translated by 谷歌翻译
现有的GAN倒置和编辑方法适用于具有干净背景的对齐物体,例如肖像和动物面孔,但通常会为更加困难的类别而苦苦挣扎,具有复杂的场景布局和物体遮挡,例如汽车,动物和室外图像。我们提出了一种新方法,以在gan的潜在空间(例如stylegan2)中倒转和编辑复杂的图像。我们的关键想法是用一系列层的集合探索反演,从而将反转过程适应图像的难度。我们学会预测不同图像段的“可逆性”,并将每个段投影到潜在层。更容易的区域可以倒入发电机潜在空间中的较早层,而更具挑战性的区域可以倒入更晚的特征空间。实验表明,与最新的复杂类别的方法相比,我们的方法获得了更好的反转结果,同时保持下游的编辑性。请参阅我们的项目页面,网址为https://www.cs.cmu.edu/~saminversion。
translated by 谷歌翻译