Weakly supervised video anomaly detection (WSVAD) is a challenging task since only video-level labels are available for training. In previous studies, the discriminative power of the learned features is not strong enough, and the data imbalance resulting from the mini-batch training strategy is ignored. To address these two issues, we propose a novel WSVAD method based on cross-batch clustering guidance. To enhance the discriminative power of features, we propose a batch clustering based loss to encourage a clustering branch to generate distinct normal and abnormal clusters based on a batch of data. Meanwhile, we design a cross-batch learning strategy by introducing clustering results from previous mini-batches to reduce the impact of data imbalance. In addition, we propose to generate more accurate segment-level anomaly scores based on batch clustering guidance further improving the performance of WSVAD. Extensive experiments on two public datasets demonstrate the effectiveness of our approach.
translated by 谷歌翻译
最近的隐私泄漏事件和更严格的政策法规要求公司和移动应用程序的合规标准更高。但是,此类义务还在应用程序开发人员遵守包含各种观点,活动和角色的这些法规方面面临重大挑战,尤其是对于在此问题或资源有限的小型公司和开发人员中。为了解决这些障碍,我们开发了一个自动工具NL2GDPR,该工具可以从开发人员的自然语言描述中制定策略,同时还可以确保该应用程序的功能符合通用数据保护法规(GDPR)。 NL2GDPR是通过利用由百度认知计算实验室开发的信息提取工具OIA(开放信息注释)开发的。核心,NL2GDPR是一个以隐私为中心的信息提取模型,附有GDPR策略查找器和策略生成器。我们进行一项全面的研究,以掌握提取以隐私为中心的信息和制定隐私政策的挑战,同时利用针对此特定任务的优化。借助NL2GDPR,我们可以在正确识别与个人数据存储,过程和共享类型相关的GDPR策略方面获得92.9%,95.2%和98.4%的精度。据我们所知,NL2GDPR是第一个允许开发人员自动生成GDPR策略的工具,只需要输入自然语言来描述应用程序功能。请注意,其他非GDPR相关功能可能与生成的功能集成在一起,以构建复杂的应用程序。
translated by 谷歌翻译
本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率,轨迹〜2靶向压缩视频的超分辨率。在轨道1中,我们使用流行的数据集DIV2K作为培训,验证和测试集。在轨道2中,我们提出了LDV 3.0数据集,其中包含365个视频,包括LDV 2.0数据集(335个视频)和30个其他视频。在这一挑战中,有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。
translated by 谷歌翻译
长期椎骨骨折严重影响了患者的生活质量,导致脑诊断,腰椎畸形甚至瘫痪。计算机断层扫描(CT)是在早期筛查该疾病的常见临床检查。但是,微弱的放射学表现和非特异性症状导致遗体诊断的高风险。特别是,对于深度学习模型和缺乏经验的医生而言,轻度骨折和正常对照很难区分。在本文中,我们认为增强微弱的断裂特征以鼓励阶层间的可分离性是提高准确性的关键。在此激励的情况下,我们提出了一个基于对比度学习的监督模型,以通过CT扫描估算Genent的椎骨骨折等级。作为一项辅助任务,受监督的对比学习在将其他人推开的同时缩小了同一类中特征的距离,从而增强了模型捕获椎骨骨折的微妙特征的能力。考虑到该领域缺乏数据集,我们构建了一个数据库,其中包括经验丰富的放射科医生注释的208个样本。我们的方法的特异性为99 \%,在二元分类中的敏感性为85%,在多分类中的Macio-F1为77 \%,表明对比度学习显着提高了椎骨骨折筛选的准确性,尤其是在轻度断裂和正常对照。我们的脱敏数据和代码将公开为社区提供。
translated by 谷歌翻译
组合推荐人(CR)系统一次在结果页面中一次将项目列表馈送给用户,其中用户行为受到上下文信息和项目的影响。 CR被称为组合优化问题,目的是最大程度地提高整个列表的建议奖励。尽管它很重要,但由于在线环境中的效率,动态和个性化要求,建立实用的CR系统仍然是一个挑战。特别是,我们将问题分为两个子问题,即列表生成和列表评估。新颖和实用的模型体系结构是为这些子问题设计的,旨在共同优化有效性和效率。为了适应在线案例,给出了形成参与者批判性增强框架的自举算法,以探索在长期用户互动中更好的推荐模式。离线和在线实验结果证明了拟议的JDREC框架的功效。 JDREC已应用于在线JD建议中,将点击率提高了2.6%,平台的合成价值提高了5.03%。我们将发布本研究中使用的大规模数据集,以为研究界做出贡献。
translated by 谷歌翻译
随着移动设备的快速开发,现代使用的手机通常允许用户捕获4K分辨率(即超高定义)图像。然而,对于图像进行示范,在低级视觉中,一项艰巨的任务,现有作品通常是在低分辨率或合成图像上进行的。因此,这些方法对4K分辨率图像的有效性仍然未知。在本文中,我们探索了Moire模式的删除,以进行超高定义图像。为此,我们提出了第一个超高定义的演示数据集(UHDM),其中包含5,000个现实世界4K分辨率图像对,并对当前最新方法进行基准研究。此外,我们提出了一个有效的基线模型ESDNET来解决4K Moire图像,其中我们构建了一个语义对准的比例感知模块来解决Moire模式的尺度变化。广泛的实验表明了我们的方法的有效性,这可以超过最轻巧的优于最先进的方法。代码和数据集可在https://xinyu-andy.github.io/uhdm-page上找到。
translated by 谷歌翻译
事件摄像机是受生物启发的传感器,在具有挑战性的照明条件下表现良好,并且具有高时间分辨率。但是,他们的概念与传统的基于框架的相机根本不同。事件摄像机的像素独立和不同步。他们测量对数亮度的变化,并以高度离散的时间stamp事件形式返回它们,表明自上次事件以来一定数量的相对变化。需要新的模型和算法来处理这种测量。目前的工作着眼于事件摄像机的几个运动估计问题。事件的流以时空量的一般均应翘曲为模型,并且该目标被提出为扭曲事件图像中对比度的最大化。我们的核心贡献包括针对这些通常非凸的问题得出全球最佳解决方案,从而消除了对困扰现有方法的良好初始猜测的依赖。我们的方法依赖于分支和结合的优化,并采用了针对六个不同的对比度估计函数得出的新颖和高效的递归上限和下限。通过成功应用于三个不同的事件摄像机运动估计问题,我们的方法的实际有效性证明了这一点。
translated by 谷歌翻译
This paper describes the PASH participation in TREC 2021 Deep Learning Track. In the recall stage, we adopt a scheme combining sparse and dense retrieval method. In the multi-stage ranking phase, point-wise and pair-wise ranking strategies are used one after another based on model continual pre-trained on general knowledge and document-level data. Compared to TREC 2020 Deep Learning Track, we have additionally introduced the generative model T5 to further enhance the performance.
translated by 谷歌翻译
最近,基于神经辐射场(NERF)的进步,在3D人类渲染方面取得了迅速的进展,包括新的视图合成和姿势动画。但是,大多数现有方法集中在特定于人的培训上,他们的培训通常需要多视频视频。本文涉及一项新的挑战性任务 - 为在培训中看不见的人提供新颖的观点和新颖的姿势,仅使用多视图图像作为输入。对于此任务,我们提出了一种简单而有效的方法,以训练具有多视图像作为条件输入的可推广的NERF。关键成分是结合规范NERF和体积变形方案的专用表示。使用规范空间使我们的方法能够学习人类的共享特性,并轻松地推广到不同的人。音量变形用于将规范空间与输入和目标图像以及查询图像特征连接起来,以进行辐射和密度预测。我们利用拟合在输入图像上的参数3D人类模型来得出变形,与我们的规范NERF结合使用,它在实践中效果很好。具有新的观点合成和构成动画任务的真实和合成数据的实验共同证明了我们方法的功效。
translated by 谷歌翻译
立体声匹配是许多视觉和机器人应用程序的基本构建块。信息性和简洁的成本量表示对于高准确性和效率的立体声匹配至关重要。在本文中,我们提出了一种新颖的成本量构建方法,该方法从相关线索中产生了注意力,以抑制冗余信息并增强串联量中与匹配相关的信息。为了产生可靠的注意力权重,我们提出了多层次自适应补丁匹配,以提高在不同差异区域以不同差异的匹配成本的独特性。提出的成本量被命名为注意串联量(ACV),可以将其无缝嵌入大多数立体声匹配网络中,结果网络可以使用更轻巧的聚合网络,同时实现更高的精度,例如。仅使用聚合网络的1/25参数可以实现GWCNET的更高精度。此外,我们根据ACV设计了一个高度准确的网络(ACVNET),该网络(ACVNET)在几个基准上实现了最先进的性能。
translated by 谷歌翻译