可解释的人工智能(XAI)的目的是产生人类解释的解释,但没有关于人类如何解释AI产生的解释的计算精确理论。缺乏理论意味着XAI的验证必须逐案基础进行经验进行,这阻止了XAI中的系统理论构建。我们提出了一种心理理论,即人类如何从显着图中得出结论,这是XAI解释的最常见形式,这是首次允许精确预测说明的推理以解释为条件。我们的理论认为,没有解释的人类期望AI对自己做出类似的决定,并通过与自己会做出的解释进行比较来解释解释。比较是通过Shepard在相似空间中的普遍泛化定律(一种认知科学的经典理论)形式化的。对AI图像分类的预注册用户研究具有显着性图的解释表明,我们的理论定量与参与者对AI的预测相匹配。
translated by 谷歌翻译
近年来,人类面孔的影子化化身已经走了很长一段路,但是该地区的研究受到缺乏公开可用的高质量数据集的限制。在这项工作中,我们介绍了Multiface,这是一种新的多视图,高分辨率的人脸数据集,该数据集是从13个身份的神经面部渲染研究中收集的13个身份。我们介绍了Mugsy,这是一种大型多摄像机设备,可捕获面部表现的高分辨率同步视频。 Multiface的目的是缩小学术界高质量数据的可访问性的差距,并使VR触觉研究能够进行研究。随着数据集的释放,我们对不同模型体系结构对模型的新观点和表达式的插值能力进行消融研究。通过有条件的VAE模型作为我们的基线,我们发现添加空间偏见,纹理翘曲场和残差连接可改善新型视图合成的性能。我们的代码和数据可在以下网址获得:https://github.com/facebookresearch/multiface
translated by 谷歌翻译
Pretrained large-scale vision-language models like CLIP have exhibited strong generalization over unseen tasks. Yet imperceptible adversarial perturbations can significantly reduce CLIP's performance on new tasks. In this work, we identify and explore the problem of \emph{adapting large-scale models for zero-shot adversarial robustness}. We first identify two key factors during model adaption -- training losses and adaptation methods -- that affect the model's zero-shot adversarial robustness. We then propose a text-guided contrastive adversarial training loss, which aligns the text embeddings and the adversarial visual features with contrastive learning on a small set of training data. We apply this training loss to two adaption methods, model finetuning and visual prompt tuning. We find that visual prompt tuning is more effective in the absence of texts, while finetuning wins in the existence of text guidance. Overall, our approach significantly improves the zero-shot adversarial robustness over CLIP, seeing an average improvement of over 31 points over ImageNet and 15 zero-shot datasets. We hope this work can shed light on understanding the zero-shot adversarial robustness of large-scale models.
translated by 谷歌翻译
This paper is a technical overview of DeepMind and Google's recent work on reinforcement learning for controlling commercial cooling systems. Building on expertise that began with cooling Google's data centers more efficiently, we recently conducted live experiments on two real-world facilities in partnership with Trane Technologies, a building management system provider. These live experiments had a variety of challenges in areas such as evaluation, learning from offline data, and constraint satisfaction. Our paper describes these challenges in the hope that awareness of them will benefit future applied RL work. We also describe the way we adapted our RL system to deal with these challenges, resulting in energy savings of approximately 9% and 13% respectively at the two live experiment sites.
translated by 谷歌翻译
COVID-19的大流行造成了毁灭性的经济和社会破坏,使全球医疗机构的资源紧张。这导致全国范围内呼吁模型预测Covid-19患者的住院和严重疾病,以告知有限医疗资源的分配。我们回应针对儿科人群的其中一种。为了应对这一挑战,我们使用电子健康记录研究了针对儿科人群的两项预测任务:1)预测哪些儿童更有可能住院,而2)在住院儿童中,哪些孩子更有可能出现严重的症状。我们通过新颖的机器学习模型MEDML应对国家儿科Covid-19数据挑战。 MEDML根据超过600万个医学概念的医学知识和倾向得分提取了最预测的特征,并通过图神经网络(GNN)结合了异质医学特征之间的功能间关系。我们使用来自国家队列协作(N3C)数据集的数据评估了143,605名患者的MEDML,并在143,605名患者的住院预测任务中评估了严重性预测任务的11,465名患者。我们还报告了详细的小组级和个人级特征的重要性分析,以评估模型的解释性。与最佳的基线机器学习模型相比,MEDML的AUROC得分高达7%,AUPRC得分高达14%,并且自大流行以来的所有九个国家地理区域以及所有三个月的跨度都表现良好。我们的跨学科研究团队开发了一种将临床领域知识纳入新型机器学习模型的框架的方法,该框架比当前最新的数据驱动的功能选择方法更具预测性和可解释。
translated by 谷歌翻译
精神分裂症是一种慢性神经精神疾病,会引起大脑内部的不同结构改变。我们假设将深度学习应用于结构性神经影像学数据集可以检测到与疾病相关的改变,并提高分类和诊断准确性。我们使用单一可用的,常规的T1加权MRI扫描测试了这一假设,我们使用标准后处理方法从中提取了3D全脑结构。然后在三个开放数据集上开发,优化和评估了一个深度学习模型,并对精神分裂症患者进行T1加权MRI扫描。我们提出的模型优于基准模型,该模型还使用3D CNN体系结构对结构MR图像进行了训练。我们的模型几乎能够完美地(ROC曲线下的区域= 0.987),将精神分裂症患者与看不见的结构MRI扫描中的健康对照区分开。区域分析将皮质下区域和心室局部作为最预测的大脑区域。皮层结构在人类的认知,情感和社会功能中起关键作用,这些区域的结构异常与精神分裂症有关。我们的发现证实了精神分裂症与皮质下大脑结构的广泛改变有关,皮层结构信息在诊断分类中提供了突出的特征。总之,这些结果进一步证明了深度学习的潜力,以改善精神分裂症的诊断,并从单个标准的T1加权脑MRI中确定其结构性神经影像学特征。
translated by 谷歌翻译
物联网的最新研究已被广泛应用于工业实践,促进了数据和连接设备的指数增长。此后,各方通过某些数据共享策略将访问数据驱动的AI模型。但是,当前大多数培训程序都依赖于集中式数据收集策略和单个计算服务器。但是,这样的集中计划可能会导致许多问题。存储在集中数据库中的客户数据可能会被篡改,因此数据的出处和真实性是不能合理的。一旦出现上述安全问题,训练有素的AI模型的可信度将是值得怀疑的,甚至在测试阶段也可能产生不利的结果。最近,已经探索了行业4.0和Web 3.0的两种核心技术区块链和AI,以促进分散的AI培训策略。为了实现这一目的,我们提出了一种称为Appflchain的新系统体系结构,即基于Hyperledger织物的区块链和联合学习范式的集成体系结构。我们提出的新系统允许不同的各方共同培训AI模型,其客户或利益相关者由基于联盟区块链的网络连接。由于用户不需要向服务器共享敏感的个人信息,因此我们的新系统可以保持高度的安全性和隐私性。为了进行数值评估,我们模拟了现实世界的场景,以说明Appflchain的整个操作过程。仿真结果表明,利用联盟区块链和联邦学习的特征,Appflchain可以证明有利的特性,包括不可耐受性,可追溯性,隐私保护和可靠的决策。
translated by 谷歌翻译
随着AI芯片(例如GPU,TPU和NPU)的改进以及物联网(IOT)的快速发展,一些强大的深神经网络(DNN)通常由数百万甚至数亿个参数组成,这些参数是可能不适合直接部署在低计算和低容量单元(例如边缘设备)上。最近,知识蒸馏(KD)被认为是模型压缩的有效方法之一,以减少模型参数。 KD的主要概念是从大型模型(即教师模型)的特征图中提取有用的信息,以引用成功训练一个小型模型(即学生模型),该模型大小比老师小得多。尽管已经提出了许多基于KD的方法来利用教师模型中中间层的特征图中的信息,但是,它们中的大多数并未考虑教师模型和学生模型之间的特征图的相似性,这可能让学生模型学习无用的信息。受到注意机制的启发,我们提出了一种新颖的KD方法,称为代表教师钥匙(RTK),该方法不仅考虑了特征地图的相似性,而且还会过滤掉无用的信息以提高目标学生模型的性能。在实验中,我们使用多个骨干网络(例如Resnet和wideresnet)和数据集(例如CIFAR10,CIFAR100,SVHN和CINIC10)验证了我们提出的方法。结果表明,我们提出的RTK可以有效地提高基于注意的KD方法的分类精度。
translated by 谷歌翻译
扩散张量心脏磁共振(DT-CMR)使我们能够探测体内心肌内心肌细胞的微观结构排列,这是不可侵袭性的,这是其他成像方式不允许的。这种创新的技术可以彻底改变执行心脏临床诊断,风险分层,预后和治疗随访的能力。但是,DT-CMR目前效率低下,获得单个2D静态图像所需的六分钟以上。因此,DT-CMR目前仅限于研究,但在临床上不使用。我们建议减少生产DT-CMR数据集并随后将其降低所需的重复次数,从而减少通过线性因子的采集时间,同时保持可接受的图像质量。我们提出的基于生成的对抗网络,视觉变压器和合奏学习的方法比以前提出的方法表现出色,而且要好得多,从而使单一的呼吸息dt-CMR更接近现实。
translated by 谷歌翻译
在各种科学和临床环境中,快速无创探测空间变化的非相关事件(例如人类头骨下方的脑血流)是一项必不可少的任务。所使用的主要光学技术之一是弥漫性相关光谱(DC),其经典实现使用单个或几个单光子检测器,导致空间定位精度较差,时间分辨率相对较低。 Here, we propose a technique termed Classifying Rapid decorrelation Events via Parallelized single photon dEtection (CREPE)}, a new form of DCS that can probe and classify different decorrelating movements hidden underneath turbid volume with high sensitivity using parallelized speckle detection from a $32\times32 $像素SPAD阵列。我们通过对隐藏在5mm组织样的幻影下的不同时空 - 偏置模式进行分类来评估我们的设置,该模式由快速反相关的动态散射介质制成。十二个多模式纤维用于从组织幻影表面的不同位置收集散射光。为了验证我们的设置,我们通过在Multi-Kilo-Hertz速率下调制的数字微龙器设备(DMD)以及含有流动流体的容器幻影。除了具有胜过经典无监督学习方法的深层对比学习算法外,我们证明我们的方法可以准确地检测和分类浊度散射介质下的不同瞬态去相关事件(发生在0.1-0.4s中),而无需任何数据标记。这有可能应用于非侵入性的深层组织运动模式,例如在紧凑和静态检测探针内以多赫兹速率识别正常或异常的脑血流事件。
translated by 谷歌翻译