我们为视频中的人类活动识别提供了一种学习算法。我们的方法是为无人机视频而设计的,这些视频主要是从包含人类演员以及背景运动的倾斜放置动态摄像机中获得的。通常,人类参与者占据空间分辨率的十分之一。我们的方法同时利用频域表示的好处,信号处理中的经典分析工具以及数据驱动的神经网络。在对视频中的显着静态和动态像素建模之前,我们构建了一个可区分的静态频率掩码,对于动作识别的基本任务至关重要。在启用神经网络之前,我们可以使用这种可区分的掩码,以通过身份损失函数本质地学习分离的特征表示。我们的公式使网络能够固有地计算其层中的分离显着特征。此外,我们提出了一个封装时间相关性和空间内容的成本功能,以对均匀间隔的视频片段中最重要的框架进行采样。我们在UAV人类数据集和NEC无人机数据集上进行了广泛的实验,并证明比最先进的相对改善为5.72%-13.00%,比相应的基线模型进行了14.28%-38.05%。
translated by 谷歌翻译
我们提出了一种新颖的方法,可以将3D人类动画放入3D场景中,同时保持动画中的任何人类场景相互作用。我们使用计算动画中最重要的网格的概念,以与场景进行交互,我们称之为“键框”。这些关键框架使我们能够更好地优化动画在场景中的位置,从而使动画中的互动(站立,铺设,坐着等)与场景的负担相匹配(例如,站在地板上或躺在床上)。我们将我们称为PAAK的方法与先前的方法进行了比较,包括POSA,Prox地面真理和运动合成方法,并通过感知研究突出了我们方法的好处。人类评估者更喜欢我们的PAAK方法,而不是Prox地面真相数据64.6 \%。此外,在直接比较中,与POSA相比,评估者比竞争方法比包括61.5%的竞争方法更喜欢PAAK。
translated by 谷歌翻译
我们提出了一种新颖的方法,即沙拉,用于将预先训练的“源”域网络适应“目标”域的挑战性视觉任务,在“目标”域中注释的预算很小,标签空间的变化。此外,该任务假定由于隐私问题或其他方式,源数据无法适应。我们假设这样的系统需要共同优化(i)从目标域中选择固定数量的样本以进行注释的双重任务,以及(ii)知识从预训练的网络转移到目标域。为此,沙拉由一个新颖的引导注意转移网络(GATN)和一个主动学习功能组成。 GATN启用了从预训练的网络到目标网络的特征蒸馏,并与HAL采用的转移性和不确定性标准相辅相成。沙拉有三个关键的好处:(i)它是任务不合时宜的,可以在各种视觉任务(例如分类,分割和检测)中应用; (ii)它可以处理从预训练的源网络到目标域的输出标签空间的变化; (iii)它不需要访问源数据进行适应。我们对3个视觉任务进行了广泛的实验,即。数字分类(MNIST,SVHN,VISDA),合成(GTA5)与真实(CityScapes)图像分割和文档布局检测(PublayNet to DSSE)。我们表明,我们的无源方法(沙拉)比先前的适应方法提高了0.5%-31.3%(跨数据集和任务),该方法假设访问大量带注释的源数据以进行适应。
translated by 谷歌翻译
我们提出了一种算法,即傅立叶活动识别(FAR),以供无人机视频活动识别。我们的配方使用一种新颖的傅立叶对象分解方法将人类剂(通常很小)与背景区分开。我们的分离技术在频域中运行,以表征空间像素的时间变化的程度,并利用傅立叶变换的卷积 - 倍增性属性,以将此表示形式映射到从网络中获得的相应对象背景纠缠的特征。为了封装上下文信息和远程时空依赖性,我们提出了一种新颖的傅立叶注意算法,该算法通过对频域中的加权外产物进行建模来模仿自我注意的好处。我们的傅立叶注意力表述比自我注意力所使用的计算要少得多。我们已经在多个无人机数据集上评估了我们的方法,包括无人机人RGB,无人机人类夜,无人机动作和NEC无人机。我们证明,在前1位的准确性中,相对改善为8.02%-38.69%,并且在先前的工作中的相对提高了3倍。
translated by 谷歌翻译
我们提出了GANAV,这是一种新颖的小组注意机制,可以从RGB图像中识别出越野地形和非结构化环境中的安全和可通道的区域。我们的方法根据其可通道的语义分割根据其可通道水平对地形进行了分类。我们新颖的小组注意力损失使任何骨干网络都能明确关注具有低空间分辨率的不同组的特征。与现有的SOTA方法相比,我们的设计可提供有效的推断,同时保持高度的准确性。我们对RUGD和Rellis-3D数据集的广泛评估表明,GANAV在RUGD上的改善对SOTA MIOU的改善增长了2.25-39.05%,Rellis-3d的RUGD提高了5.17-19.06%。我们与Ganav进行了深入的增强基于学习的导航算法的接口,并在现实世界中的非结构化地形中突出了其在导航方面的好处。我们将基于GANAV的导航算法与ClearPath Jackal和Husky Robots集成在一起,并观察到成功率增加了10%,在选择表面最佳的可通道性和4.6-13.9%的表面方面为2-47%在轨迹粗糙度中。此外,加纳夫将禁区的假阳性降低37.79%。代码,视频和完整的技术报告可在https://gamma.umd.edu/offroad/上找到。
translated by 谷歌翻译
Virtual Product placement(VPP) is the advertising technique of digitally placing a branded object into the scene of a movie or TV show. This type of advertising provides the ability for brands to reach consumers without interrupting the viewing experience with a commercial break, as the products are seen in the background or as props. Despite this being a billion-dollar industry, ad rendering technique is currently executed at post production stage, manually either with the help of VFx artists or through semi-automated solutions. In this paper, we demonstrate a fully automated framework to digitally place 2-D ads in linear TV cooking shows captured using single-view camera with small camera movements. Without access to full video or production camera configuration, this framework performs the following tasks (i) identifying empty space for 2-D ad placement (ii) kitchen scene understanding (iii) occlusion handling (iv) ambient lighting and (v) ad tracking.
translated by 谷歌翻译
Modern Deep Learning (DL) models have grown to sizes requiring massive clusters of specialized, high-end nodes to train. Designing such clusters to maximize both performance and utilization to amortize their steep cost is a challenging task requiring careful balance of compute, memory, and network resources. Moreover, a plethora of each model's tuning knobs drastically affect the performance, with optimal values often depending on the underlying cluster's characteristics, which necessitates a complex cluster-workload co-design process. To facilitate the design space exploration of such massive DL training clusters, we introduce COMET a holistic cluster design methodology and workflow to jointly study the impact of parallelization strategies and key cluster resource provisioning on the performance of distributed DL training. We develop a step-by-step process to establish a reusable and flexible methodology, and demonstrate its application with a case study of training a Transformer-1T model on a cluster of variable compute, memory, and network resources. Our case study demonstrates COMET's utility in identifying promising architectural optimization directions and guiding system designers in configuring key model and cluster parameters.
translated by 谷歌翻译
PROteolysis TArgeting Chimeras (PROTACs) are an emerging therapeutic modality for degrading a protein of interest (POI) by marking it for degradation by the proteasome. Recent developments in artificial intelligence (AI) suggest that deep generative models can assist with the de novo design of molecules with desired properties, and their application to PROTAC design remains largely unexplored. We show that a graph-based generative model can be used to propose novel PROTAC-like structures from empty graphs. Our model can be guided towards the generation of large molecules (30--140 heavy atoms) predicted to degrade a POI through policy-gradient reinforcement learning (RL). Rewards during RL are applied using a boosted tree surrogate model that predicts a molecule's degradation potential for each POI. Using this approach, we steer the generative model towards compounds with higher likelihoods of predicted degradation activity. Despite being trained on sparse public data, the generative model proposes molecules with substructures found in known degraders. After fine-tuning, predicted activity against a challenging POI increases from 50% to >80% with near-perfect chemical validity for sampled compounds, suggesting this is a promising approach for the optimization of large, PROTAC-like molecules for targeted protein degradation.
translated by 谷歌翻译
ML-AS-A-Service继续增长,对非常强大的隐私保证的需求也在继续增长。安全推断已成为潜在的解决方案,其中加密原始图允许推理不向用户向用户揭示用户的输入或模型的权重。例如,模型提供商可以是一家诊断公司,该公司已经培训了一种最先进的Densenet-121模型来解释胸部X射线,并且用户可以在医院成为患者。尽管对于这种环境,确保推理原则上是可行的,但没有现有的技术使其大规模实用。 Cryptflow2框架提供了一种潜在的解决方案,其能力自动,正确地将清晰文本推理转换为安全模型的推断。但是,从Cryptflow2产生的安全推断在不切实际上很昂贵:在Densenet-121上解释单个X射线需要几乎3TB的通信。在本文中,我们解决了针对三项贡献的安全推断效率低下的重大挑战。首先,我们证明安全推理中的主要瓶颈是大型线性层,可以通过选择网络骨干的选择来优化,并使用用于有效的清晰文本推理开发的操作员。这一发现和强调与许多最近的作品偏离,这些作品着重于在执行较小网络的安全推断时优化非线性激活层。其次,基于对瓶颈卷积层的分析,我们设计了一个更有效的倒入替代品的X操作器。第三,我们表明,快速的Winograd卷积算法进一步提高了安全推断的效率。结合使用,这三个优化被证明对在CHEXPERT数据集中训练的X射线解释问题非常有效。
translated by 谷歌翻译
在COVID-19大流行期间,在COVID-19诊断的紧急环境中进行的大量成像量导致临床CXR获取的差异很大。在所使用的CXR投影,添加图像注释以及临床图像的旋转程度和旋转程度中可以看到这种变化。图像分析社区试图通过开发自动化的CoVID-19诊断算法来减轻大流行期间过度拉伸放射学部门的负担,该诊断算法是CXR成像的输入。已利用大量公开的CXR数据集来改善CoVID-19诊断的深度学习算法。然而,公开可用数据集中临床可获得的CXR的可变质量可能会对算法性能产生深远的影响。 COVID-19可以通过图像标签等图像上的非动物特征的算法来推断诊断。这些成像快捷方式可能是数据集特定的,并限制了AI系统的概括性。因此,了解和纠正CXR图像中的关键潜在偏差是CXR图像分析之前的重要第一步。在这项研究中,我们提出了一种简单有效的逐步方法,以预处理Covid-19胸部X射线数据集以消除不希望的偏见。我们进行消融研究以显示每个单个步骤的影响。结果表明,使用我们提出的管道可以将基线共证检测算法的精度提高到13%。
translated by 谷歌翻译