由于COVID-19,许多学校通过视频会议软件在线考试已经采用了许多学校。虽然方便,但教师要同时显示的学生变焦窗口监督在线考试是具有挑战性的。在本文中,我们提出了IEXAM,这是一种智能的在线考试监测和分析系统,不仅可以使用面部检测来帮助监护人实时学生识别,而且还可以检测到常见的异常行为(包括面部消失,旋转的面部,旋转的面部,旋转,,旋转,并在考试期间用另一个人替换)通过基于面部识别后的外观后视频分析。为了建立这样的新型系统,我们克服了三个挑战。首先,我们发现了一种轻巧的方法来捕获考试视频流并实时分析它们。其次,我们利用每个学生的变焦窗口上显示的左角名称,并提出了改进的OCR(光学角色识别)技术来自动收集具有动态位置的学生面孔的地面真相。第三,我们进行了几次实验比较和优化,以有效缩短教师PC所需的训练时间和测试时间。我们的评估表明,IEXAM可以实现高精度,实时面部检测为90.4%,后验后面部识别率为98.4%,同时保持可接受的运行时性能。我们已经在https://github.com/vprlab/iexam上提供了IEXAM的源代码。
translated by 谷歌翻译
最近,神经辐射场(NERF)正在彻底改变新型视图合成(NVS)的卓越性能。但是,NERF及其变体通常需要进行冗长的每场训练程序,其中将多层感知器(MLP)拟合到捕获的图像中。为了解决挑战,已经提出了体素网格表示,以显着加快训练的速度。但是,这些现有方法只能处理静态场景。如何开发有效,准确的动态视图合成方法仍然是一个开放的问题。将静态场景的方法扩展到动态场景并不简单,因为场景几何形状和外观随时间变化。在本文中,基于素素网格优化的最新进展,我们提出了一种快速变形的辐射场方法来处理动态场景。我们的方法由两个模块组成。第一个模块采用变形网格来存储3D动态功能,以及使用插值功能将观测空间中的3D点映射到规范空间的变形的轻巧MLP。第二个模块包含密度和颜色网格,以建模场景的几何形状和密度。明确对阻塞进行了建模,以进一步提高渲染质量。实验结果表明,我们的方法仅使用20分钟的训练就可以实现与D-NERF相当的性能,该训练比D-NERF快70倍以上,这清楚地证明了我们提出的方法的效率。
translated by 谷歌翻译
我们介绍了一种新颖的屏蔽图AutoEncoder(MGAE)框架,以在图形结构数据上执行有效的学习。从自我监督学习中欣识见,我们随机掩盖了大部分边缘,并在训练期间尝试重建这些缺失的边缘。 Mgae有两个核心设计。首先,我们发现掩蔽了输入图结构的高比率,例如70 \%$,产生一个非凡和有意义的自我监督任务,使下游应用程序受益。其次,我们使用图形神经网络(GNN)作为编码器,以在部分掩蔽的图表上执行消息传播。为了重建大量掩模边缘,提出了一种定制的互相关解码器。它可以捕获多粒度的锚边的头部和尾部节点之间的互相关。耦合这两种设计使MGAE能够有效且有效地培训。在多个开放数据集(Planetoid和OGB基准测试)上进行了广泛的实验,证明MGAE通常比链接预测和节点分类更好地表现优于最先进的无监督竞争对手。
translated by 谷歌翻译
低成本单眼的3D对象检测在自主驾驶中起着基本作用,而其精度仍然远非令人满意。在本文中,我们挖掘了3D对象检测任务,并将其重构为对象本地化和外观感知的子任务,这有​​利于整个任务的互惠信息的深度挖掘。我们介绍了一个名为DFR-Net的动态特征反射网络,其中包含两种新的独立模块:(i)首先将任务特征分开的外观定位特征反射模块(ALFR),然后自相互反映互核特征; (ii)通过自学习方式自适应地重建各个子任务的培训过程的动态内部交易模块(DIT)。关于挑战基蒂数据集的广泛实验证明了DFR网的有效性和泛化。我们在基蒂测试集中的所有单眼3D对象探测器中排名第一(直到2021年3月16日)。所提出的方法在许多尖端的3D检测框架中也容易在较忽略的成本下以忽略的成本来播放。该代码将公开可用。
translated by 谷歌翻译
由于LIDAR传感器捕获的精确深度信息缺乏准确的深度信息,单眼3D对象检测是一个关键而挑战的自主驾驶任务。在本文中,我们提出了一种立体引导的单目3D对象检测网络,称为SGM3D,其利用立体图像提取的鲁棒3D特征来增强从单眼图像中学到的特征。我们创新地研究了多粒度域适配模块(MG-DA)以利用网络的能力,以便仅基于单手套提示产生立体模拟功能。利用粗均衡特征级以及精细锚级域适配,以引导单眼分支。我们介绍了一个基于IOO匹配的对齐模块(iou-ma),用于立体声和单眼域之间的对象级域适应,以减轻先前阶段中的不匹配。我们对最具挑战性的基蒂和Lyft数据集进行了广泛的实验,并实现了新的最先进的性能。此外,我们的方法可以集成到许多其他单眼的方法中以提高性能而不引入任何额外的计算成本。
translated by 谷歌翻译
数据保护法规中规定的权利允许患者要求数据持有人消除有关其信息的知识。随着AI在数据上学习的出现,人们可以想象,这种权利可以要求忘记AI模型中患者数据知识的要求。但是,忘记了来自AI模型的患者的成像数据仍然是一个爆炸案。在本文中,我们研究了患者数据对模型性能的影响,并为患者的数据提出了两个假设:他们是常见的,并且与其他患者相似,或者形成边缘病例,即独特的和罕见的病例。我们表明,不可能轻松地忘记患者数据。我们提出了一种有针对性的遗忘方法,以执行患者遗忘。基准自动化心脏诊断挑战数据集的广泛实验展示了所提出的目标遗忘方法的性能,而不是最先进的方法。
translated by 谷歌翻译
培训医学图像分割模型通常需要大量标记的数据。相比之下,人类可以迅速学会从医学(例如MRI和CT)图像中准确地识别出有限的指导性解剖学。这种识别能力可以很容易地推广到来自不同临床中心的新图像。这种快速且可普遍的学习能力主要是由于人脑中图像模式的组成结构所致,该图像模式在医学图像分割中较少纳入。在本文中,我们将人类解剖结构的组成成分(即模式)建模为可学习的von-mises-fisher(VMF)内核,它们对从不同领域(例如临床中心)收集的图像具有鲁棒性。图像特征可以分解为具有组成操作的组件(或由)组成的组件,即VMF可能性。 VMF的可能性证明了每个解剖部分在图像的每个位置的可能性。因此,可以根据VMF的可能性预测分割掩模。此外,使用重建模块,未标记的数据也可以通过重新组合重建输入图像来学习VMF内核和可能性。广泛的实验表明,所提出的VMFNET在两个基准上实现了改善的概括性能,尤其是在注释有限的情况下。代码可在以下网址公开获取:https://github.com/vios-s/vmfnet。
translated by 谷歌翻译
作者最近给出了$ n^{o(\ log \ log n)} $时间成员资格查询算法,用于在统一分布下正确学习决策树(Blanc等,2021)。此问题的先前最快算法以$ n^{o(\ log n)} $ time运行,这是Ehrenfeucht和Haussler(1989)的经典算法,这是无分配设置的经典算法。在本文中,我们强调了获得多项式时间算法的自然开放问题,讨论获得它的可能途径以及我们认为具有独立利益的状态中级里程碑。
translated by 谷歌翻译
符号知识图(kgs)是通过昂贵的人众包或特定于域特异性的复杂信息提取管道来构建的。诸如BERT之类的新兴大型语言模型(LMS)已显示出隐式编码的大量知识,可以使用正确设计的提示来查询。但是,与明确的公斤相比,黑盒LMS中的知识通常很难访问或编辑,并且缺乏解释性。在这项工作中,我们旨在从LMS收获符号KG,这是一个由神经LMS的灵活性和可扩展性增强的自动kg构造的新框架。与通常依赖大型人类注释的数据或现有大量KG的先前作品相比,我们的方法仅需要对关系的最小定义作为输入,因此适合于以前无法提取有关丰富新关系的知识。该方法会自动生成多样化的提示,并在给定的LM内执行有效的知识搜索,以进行一致和广泛的输出。与以前的方法相比,使用我们的方法收获的知识要准确得多,如自动和人类评估所示。结果,我们源于多元化的LMS,一个新的KG家族(例如Bertnet和Robertanet),其中包含一套更丰富的常识关系,包括复杂的关系(例如,A对B的能力,但不擅长B”)人类注销的kg(例如概念网)。此外,由此产生的kg也是解释各自的源LMS的工具,从而导致对不同LMS不同知识能力的新见解。
translated by 谷歌翻译
分子和形态特征是生物分类学的重要部分,是矛盾的,但需要整合。如今,有机体的图像识别和生物信息学正在出现和热门问题,但它们之间存在差距。在这项工作中,由遗传信息介导的一个多分支识别框架桥接了这个障碍,该障碍建立了宏观形态学和蘑菇的微分子信息之间的联系。提出了新型的多角度结构来融合三个分支模型的特征图像,从而显着提高了识别的准确性约10%,高达90%以上。此外,通过使用遗传距离嵌入作为预测图像距离和物种识别的表示空间,将遗传信息实现到蘑菇图像识别任务中。还首次深入讨论了传统分类任务的语义过度拟合和细粒图像识别的粒度。使用零拍学习任务在细粒度的情况下研究了该模型的普遍性,这可以预测看不见样本的分类和进化信息。我们提出了第一种将图像映射到DNA的方法,即使用编码器映射图像来遗传距离,然后通过预先训练的解码器解码DNA,其中37种DNA预测的总检验准确性为87.45%。这项研究通过系统地研究蘑菇图像识别问题,弥合宏观生物学信息和微观分子信息之间的差距,从而创建一个新颖的识别框架,这将为未来的智能生物识别技术提供新的参考。
translated by 谷歌翻译