In this work, we introduce Panoptic-DeepLab, a simple, strong, and fast system for panoptic segmentation, aiming to establish a solid baseline for bottom-up methods that can achieve comparable performance of two-stage methods while yielding fast inference speed. In particular, Panoptic-DeepLab adopts the dual-ASPP and dual-decoder structures specific to semantic, and instance segmentation, respectively. The semantic segmentation branch is the same as the typical design of any semantic segmentation model (e.g., DeepLab), while the instance segmentation branch is class-agnostic, involving a simple instance center regression. As a result, our single Panoptic-DeepLab simultaneously ranks first at all three Cityscapes benchmarks, setting the new state-of-art of 84.2% mIoU, 39.0% AP, and 65.5% PQ on test set. Additionally, equipped with MobileNetV3, Panoptic-DeepLab runs nearly in real-time with a single 1025 × 2049 image (15.8 frames per second), while achieving a competitive performance on Cityscapes (54.1 PQ% on test set). On Mapillary Vistas test set, our ensemble of six models attains 42.7% PQ, outperforming the challenge winner in 2018 by a healthy margin of 1.5%. Finally, our Panoptic-DeepLab also performs on par with several topdown approaches on the challenging COCO dataset. For the first time, we demonstrate a bottom-up approach could deliver state-of-the-art results on panoptic segmentation.
translated by 谷歌翻译
This white paper lays out a vision of research and development in the field of artificial intelligence for the next decade (and beyond). Its denouement is a cyber-physical ecosystem of natural and synthetic sense-making, in which humans are integral participants$\unicode{x2014}$what we call ''shared intelligence''. This vision is premised on active inference, a formulation of adaptive behavior that can be read as a physics of intelligence, and which inherits from the physics of self-organization. In this context, we understand intelligence as the capacity to accumulate evidence for a generative model of one's sensed world$\unicode{x2014}$also known as self-evidencing. Formally, this corresponds to maximizing (Bayesian) model evidence, via belief updating over several scales: i.e., inference, learning, and model selection. Operationally, this self-evidencing can be realized via (variational) message passing or belief propagation on a factor graph. Crucially, active inference foregrounds an existential imperative of intelligent systems; namely, curiosity or the resolution of uncertainty. This same imperative underwrites belief sharing in ensembles of agents, in which certain aspects (i.e., factors) of each agent's generative world model provide a common ground or frame of reference. Active inference plays a foundational role in this ecology of belief sharing$\unicode{x2014}$leading to a formal account of collective intelligence that rests on shared narratives and goals. We also consider the kinds of communication protocols that must be developed to enable such an ecosystem of intelligences and motivate the development of a shared hyper-spatial modeling language and transaction protocol, as a first$\unicode{x2014}$and key$\unicode{x2014}$step towards such an ecology.
translated by 谷歌翻译
通用数据模型解决了标准化电子健康记录(EHR)数据的许多挑战,但无法将其集成深度表型所需的资源。开放的生物学和生物医学本体论(OBO)铸造本体论提供了可用于生物学知识的语义计算表示,并能够整合多种生物医学数据。但是,将EHR数据映射到OBO Foundry本体论需要大量的手动策展和域专业知识。我们介绍了一个框架,用于将观察性医学成果合作伙伴关系(OMOP)标准词汇介绍给OBO铸造本体。使用此框架,我们制作了92,367条条件,8,615种药物成分和10,673个测量结果的映射。域专家验证了映射准确性,并且在24家医院进行检查时,映射覆盖了99%的条件和药物成分和68%的测量结果。最后,我们证明OMOP2OBO映射可以帮助系统地识别可能受益于基因检测的未诊断罕见病患者。
translated by 谷歌翻译
现象学是对有意识经验的严格描述性研究。最近对侯赛利亚现象学形式化的尝试为我们提供了一种数学模型,这是先验知识和期望的函数。在本文中,我们通过主动推理的镜头重新检查了侯赛利亚现象学的元素。在这样做的过程中,我们旨在推进计算现象学的项目,正如主动推理的支持者最近概述的那样。我们建议,可以将胡塞尔对意识描述的关键方面映射到与主动推理方法相关的生成模型的各个方面。我们首先简要审查主动推论。然后,我们讨论了胡塞尔的现象学,重点是时间意识。最后,我们介绍了从侯赛利亚现象学到主动推断的映射。
translated by 谷歌翻译
视觉任务中变形金刚的兴起不仅可以推进网络骨干设计,而且还启动了一个全新的页面,以实现端到端的图像识别(例如,对象检测和泛型分段)。源自自然语言处理(NLP)的变压器体系结构,包括自我注意力和交叉注意力,有效地学习了序列中元素之间的远距离相互作用。但是,我们观察到,大多数现有的基于变压器的视觉模型只是从NLP中借用了这个想法,忽略了语言和图像之间的关键差异,尤其是空间扁平的像素特征的极高序列长度。随后,这阻碍了像素特征和对象查询之间的交叉注意力学习。在本文中,我们重新考虑像素和对象查询之间的关系,并建议将交叉注意学习作为一个聚类过程进行重新重新制定。受传统K-均值聚类算法的启发,我们开发了K-Means面膜Xformer(Kmax-Deeplab)进行细分任务,这不仅可以改善最先进的艺术品,而且享有简单而优雅的设计。结果,我们的Kmax-Deeplab在Coco Val设置上以58.0%的PQ实现了新的最先进的性能,而CityScapes Val设置为68.4%PQ,44.0%AP和83.5%MIOU,而无需测试时间增加或外部数据集。我们希望我们的工作能够阐明设计为视觉任务量身定制的变压器。代码和型号可在https://github.com/google-research/deeplab2上找到
translated by 谷歌翻译
我们提出了聚类蒙版变压器(CMT-DeepLab),这是一种基于变压器的框架,用于围绕聚类设计的泛型分割。它重新考虑了用于分割和检测的现有变压器架构;CMT-DeepLab认为对象查询是群集中心,该中心填充了应用于分割时将像素分组的作用。群集通过交替的过程计算,首先通过其功能亲和力将像素分配给簇,然后更新集群中心和像素功能。这些操作共同包含聚类蒙版变压器(CMT)层,该层产生了越野器的交叉注意,并且与最终的分割任务更加一致。CMT-DeepLab在可可Test-DEV集中实现了55.7%的PQ的新最先进的PQ,可显着提高先前ART的性能。
translated by 谷歌翻译
自动生物医学图像分析的领域至关重要地取决于算法验证的可靠和有意义的性能指标。但是,当前的度量使用通常是不明智的,并且不能反映基本的域名。在这里,我们提出了一个全面的框架,该框架指导研究人员以问题意识的方式选择绩效指标。具体而言,我们专注于生物医学图像分析问题,这些问题可以解释为图像,对象或像素级别的分类任务。该框架首先编译域兴趣 - 目标结构 - ,数据集和算法与输出问题相关的属性的属性与问题指纹相关,同时还将其映射到适当的问题类别,即图像级分类,语义分段,实例,实例细分或对象检测。然后,它指导用户选择和应用一组适当的验证指标的过程,同时使他们意识到与个人选择相关的潜在陷阱。在本文中,我们描述了指标重新加载推荐框架的当前状态,目的是从图像分析社区获得建设性的反馈。当前版本是在由60多个图像分析专家的国际联盟中开发的,将在社区驱动的优化之后公开作为用户友好的工具包提供。
translated by 谷歌翻译
软机器人抓手有助于富含接触的操作,包括对各种物体的强大抓握。然而,软抓手的有益依从性也会导致重大变形,从而使精确的操纵具有挑战性。我们提出视觉压力估计与控制(VPEC),这种方法可以使用外部摄像头的RGB图像施加的软握力施加的压力。当气动抓地力和肌腱握力与平坦的表面接触时,我们为视觉压力推断提供了结果。我们还表明,VPEC可以通过对推断压力图像的闭环控制进行精确操作。在我们的评估中,移动操纵器(来自Hello Robot的拉伸RE1)使用Visual Servoing在所需的压力下进行接触;遵循空间压力轨迹;并掌握小型低调的物体,包括microSD卡,一分钱和药丸。总体而言,我们的结果表明,对施加压力的视觉估计可以使软抓手能够执行精确操作。
translated by 谷歌翻译
随着人工智能系统变得越来越强大和普遍,人们对机器的道德或缺乏道德的关注变得越来越关注。然而,向机器讲授道德是一项艰巨的任务,因为道德仍然是人类中最激烈的争论问题之一,更不用说AI了。但是,部署到数百万用户的现有AI系统已经在做出充满道德影响的决策,这构成了一个看似不可能的挑战:教学机器的道德意义,而人类继续努力努力。为了探索这一挑战,我们介绍了Delphi,这是一个基于深层神经网络的实验框架,直接训练了描述性道德判断,例如,“帮助朋友”通常是不错的,而“帮助朋友传播假新闻”不是。经验结果提供了对机器伦理的承诺和局限性的新见解。面对新的道德情况,德尔菲(Delphi)表现出强大的概括能力,而现成的神经网络模型表现出明显差的判断,包括不公正的偏见,证实了对明确教学机器的道德意义的必要性。然而,德尔菲并不完美,表现出对普遍性偏见和不一致的敏感性。尽管如此,我们还是展示了不完美的Delphi的积极用例,包括在其他不完美的AI系统中将其用作组件模型。重要的是,我们根据著名的道德理论来解释Delphi的运营化,这使我们提出了重要的未来研究问题。
translated by 谷歌翻译
药物重新利用可以加速鉴定有效化合物用于针对SARS-COV-2的临床使用,并具有先前存在的临床安全数据和已建立的供应链的优势。 RNA病毒(例如SARS-COV-2)操纵细胞途径并诱导亚细胞结构的重组以支持其生命周期。可以使用生物成像技术来量化这些形态学的变化。在这项工作中,我们开发了DEEMD:使用深层神经网络模型在多个实例学习框架内的计算管道,以基于对公开可用RXRX19A数据集的形态分析来确定针对SARS-COV-2有效的推定治疗方法。该数据集由SARS-COV-2未感染的细胞和受感染细胞的荧光显微镜图像组成,有或没有药物治疗。 Deemd首先提取歧视性形态学特征,以产生来自未感染和感染细胞的细胞形态特征。然后在统计模型中使用这些形态学特征,以根据与未感染细胞的相似性估算受感染细胞的应用治疗疗效。 DEEMD能够通过弱监督定位受感染的细胞,而无需任何昂贵的像素级注释。 DEEMD确定已知的SARS-COV-2抑制剂,例如Remdesivir和Aloxistatin,支持我们方法的有效性。可以在其他新兴病毒和数据集上探索DEEMD,以便将来快速识别候选抗病毒药治疗}。我们的实施可在线网络https://www.github.com/sadegh-saberian/deemd
translated by 谷歌翻译