我们提出了Sauron,这是一种过滤器修剪方法,它通过使用自动调整的层特异性阈值丢弃相应的过滤器来消除冗余特征图。此外,Sauron最大程度地减少了一个正规化术语,正如我们所显示的各种指标所显示的那样,促进了特征地图簇的形成。与大多数过滤器修剪方法相反,Sauron是单相,类似于典型的神经网络优化,需要更少的超参数和设计决策。此外,与其他基于群集的方法不同,我们的方法不需要预选簇的数量,而簇的数量是非平凡的,以确定和随着层的变化。我们在三个医学图像分割任务上评估了Sauron和三种最先进的过滤器修剪方法。在这个领域,过滤器修剪很少受到关注,并且可以帮助建立有效的医疗级计算机模型,这些计算机由于隐私考虑而无法使用云服务。索伦(Sauron)比竞争的修剪方法实现了具有更高性能和修剪率的模型。此外,由于Sauron在训练过程中除去过滤器,因此随着时间的推移,其优化加速了。最后,我们证明了Sauron-Prun的模型的特征地图是高度可解释的。 Sauron代码可在https://github.com/jmlipman/sauronunet上公开获得。
translated by 谷歌翻译
特征形式的图像补丁的独特表示是许多计算机视觉和机器人任务的关键组成部分,例如图像匹配,图像检索和视觉定位。最先进的描述符,来自手工制作的描述符,例如SIFT到诸如HardNet之类的学习者,通常是高维的; 128个维度甚至更多。维度越高,使用此类描述符的方法的内存消耗和计算时间越大。在本文中,我们研究了多层感知器(MLP),以提取低维但高质量的描述符。我们在无监督,自我监督和监督的设置中彻底分析了我们的方法,并评估了四个代表性描述符的降维结果。我们考虑不同的应用程序,包括视觉定位,补丁验证,图像匹配和检索。实验表明,我们的轻量级MLP比PCA获得了更好的尺寸降低。我们的方法生成的较低维描述符在下游任务中的原始高维描述符,尤其是对于手工制作的任务。该代码将在https://github.com/prbonn/descriptor-dr上找到。
translated by 谷歌翻译
盲源分离(BSS)算法是无监督的方法,通过允许物理有意义的数据分解,它们是高光谱数据分析的基石。 BSS问题不足,解决方案需要有效的正则化方案,以更好地区分来源并产生可解释的解决方案。为此,我们研究了一种半监督的源分离方法,在这种方法中,我们将预测的交替最小二乘算法与基于学习的正则化方案结合在一起。在本文中,我们专注于通过使用生成模型来限制混合矩阵属于学习的歧管。总而言之,我们表明,这允许具有创新的BSS算法,具有提高的精度,可提供物理上可解释的解决方案。在涉及强噪声,高度相关的光谱和不平衡来源的挑战性场景中,对现实的高光谱天体物理数据进行了测试。结果突出了在减少来源之间的泄漏之前,学到的重大好处,这可以使总体上更好的分解。
translated by 谷歌翻译
人工智能(AI)系统越来越多地用于提供建议以促进人类决策。尽管大量工作探讨了如何优化AI系统以产生准确且公平的建议以及如何向人类决策者提供算法建议,但在这项工作中,我们提出了一个不同的基本问题:何时应该提供建议?由于当前不断提供算法建议的局限性的限制,我们提出了以双向方式与人类用户互动的AI系统的设计。我们的AI系统学习使用过去的人类决策为政策提供建议。然后,对于新案例,学识渊博的政策利用人类的意见来确定算法建议将是有用的案例,以及人类最好单独决定的情况。我们通过使用美国刑事司法系统的数据对审前释放决策进行大规模实验来评估我们的方法。在我们的实验中,要求参与者评估被告违反其释放条款的风险,如果释放,并受到不同建议方法的建议。结果表明,与固定的非交互式建议方法相比,我们的交互式辅助方法可以在需要时提供建议,并显着改善人类决策。我们的方法在促进人类学习,保留人类决策者的互补优势以及对建议的更积极反应方面具有额外的优势。
translated by 谷歌翻译
在过去几年中,水下车辆操纵器系统(UVMS)变得越来越小,越来越小,在计划和控制系统时,考虑操纵器和车辆之间的耦合力变得越来越重要。但是,处理这些力的典型方法需要媒介物的精确流体动力模型,并在操纵器上使用低级扭矩控制,这两者在现场都很少见。因此,许多UVMS控制方法都是基于运动学的,无法固有地解释这些效果。我们的工作通过训练模拟UVMS数据上的复发性神经网络来弥合运动学控制与动态之间的差距,以根据系统以前的状态预测将来车辆的音高。运动学计划者和控制者可以使用此指标来合并动态知识,而无需计算昂贵的模型,从而提高了他们执行水下操纵任务的能力。
translated by 谷歌翻译
计算模型已成为定量科学中的强大工具,以了解随时间发展的复杂系统的行为。但是,它们通常包含可能无法从理论中获得的值,但需要从数据中推断出其值。社会科学,经济学或计算流行病学中的模型尤其如此。然而,许多当前参数估计方法在数学上涉及,并且运行速度慢。在本文中,我们提出了一种计算简单且快速的方法,可以使用神经微分方程检索模型参数的准确概率密度。我们提出了一条管道,该管道包含多代理模型,该模型充当了普通或随机微分方程系统的前向求解器以及一个神经网络,然后从模型生成的数据中提取参数。这两个组合创建了一个强大的工具,即使对于非常大的系统,也可以快速估计模型参数的密度。我们演示了感染传播的SIR模型的合成时间序列数据的方法,并对网络上的Harris-Wilson经济活动模型进行了深入的分析,代表了非凸面问题。对于后者,我们将我们的方法应用于大伦敦的合成数据和经济活动数据。我们发现,我们的方法比先前使用经典技术对同一数据集进行的研究更准确地校准了数量级,同时运行的速度快于195至390倍。
translated by 谷歌翻译
皮质假体是植入视觉皮层中的设备,试图通过电刺激神经元来恢复视力失去视力。当前,这些设备提供的视觉是有限的,并且准确预测刺激引起的视觉感知是一个开放的挑战。我们建议通过利用“大脑样”卷积神经网络(CNN)来应对这一挑战,这些卷积神经网络已成为视觉系统的有前途的模型。为了研究适应大脑样的CNN来建模视觉假体的可行性,我们开发了一种概念验证模型,以预测电刺激引起的感知。我们表明,CNN激活的神经学启发的解码会产生定性准确的磷酸,可与实际患者报道的磷酸相媲美。总体而言,这是建立类似大脑的电刺激模型的重要第一步,这可能不仅可以提高皮质假体提供的视力质量,而且还可以进一步提高我们对神经视力守则的理解。
translated by 谷歌翻译
完全有监督的语义细分从密集的口罩中学习,这需要封闭设置的大量注释成本。在本文中,我们使用自然语言作为监督,而无需任何像素级注释进行开放世界细分。我们将提出的框架称为FreeSeg,在该框架上可以从训练训练型模型的原始功能图中免费获得。与零射击或开放集分割相比,freeSeg不需要任何带注释的掩码,并且可以广泛预测超出类无需监督的分段之外的类别。具体而言,FreeSeg从图像文本相似性图(ITSM)中获得了可解释的对比度图像预处理(ICLIP)的自由掩码。我们的核心改进是浓密ICLIP的平滑最小池,具有部分标签和像素的分割策略。此外,没有复杂的设计,例如分组,聚类或检索,很简单。除了简单性外,Freeseg的表现超过了以前的最先进的边缘,例如在同一设置中,MIOU在MIOU上的13.4%。
translated by 谷歌翻译
时间序列数据出现在各种应用程序中,例如智能运输和环境监测。时间序列分析的基本问题之一是时间序列预测。尽管最近的深度时间序列预测方法取得了成功,但它们仍需要足够的历史价值观察才能进行准确的预测。换句话说,输出长度(或预测范围)与输入和输出长度之和的比率应足够低(例如,0.3)。随着比率的增加(例如,到0.8),预测准确性的不确定性显着增加。在本文中,我们从理论和经验上都表明,通过将相关时间序列检索作为参考文献可以有效地降低不确定性。在理论分析中,我们首先量化不确定性,并显示其与平方误差(MSE)的连接。然后,我们证明,带有参考的模型比没有参考的模型更容易学习,因为检索到的参考可能会降低不确定性。为了凭经验证明基于检索的时间序列预测模型的有效性,我们引入了一种简单而有效的两阶段方法,称为“保留”,该方法由关系检索和内容合成组成。我们还表明,可以轻松地适应时空时间序列和时间序列插补设置。最后,我们评估了现实世界数据集上的延迟,以证明其有效性。
translated by 谷歌翻译
解释神经网络模型是一项具有挑战性的任务,至今仍无法解决。对于高维和复杂数据尤其如此。通过目前的工作,我们介绍了两个概念,以了解神经网络的概念观点,特别是一个值得称赞的和象征性的观点。两者都提供了新颖的分析方法,以使人AI分析师能够更深入地了解网络神经元所捕获的知识。我们通过对ImageNet和Fruit-360数据集的不同实验来测试新观点的概念表达。此外,我们展示了观点在多大程度上允许量化不同学习体系结构的概念相似性。最后,我们证明了如何将概念观点应用于神经元对人类可理解规则的绑架学习。总而言之,通过我们的工作,我们为全球解释神经网络模型的最相关任务做出了贡献。
translated by 谷歌翻译
濒危语言的用户努力在数字化介导的世界中蓬勃发展。我们开发了一种自动化方法,用于评估ISO 639认可的每种语言在数字语言支持方面的表现。该评估是基于从143个数字工具的网站上删除支持语言的名称,以代表数字技术可以支持语言的各种方式。该方法使用Mokken量表分析来生成可解释的模型,以量化数字语言支持并在全球范围内监视它。
translated by 谷歌翻译
鉴于其广泛的应用,已经对人面部交换的任务进行了许多尝试。尽管现有的方法主要依赖于乏味的网络和损失设计,但它们仍然在源和目标面之间的信息平衡中挣扎,并倾向于产生可见的人工制品。在这项工作中,我们引入了一个名为StylesWap的简洁有效的框架。我们的核心想法是利用基于样式的生成器来增强高保真性和稳健的面部交换,因此可以采用发电机的优势来优化身份相似性。我们仅通过最小的修改来确定,StyleGAN2体系结构可以成功地处理来自源和目标的所需信息。此外,受到TORGB层的启发,进一步设计了交换驱动的面具分支以改善信息的融合。此外,可以采用stylegan倒置的优势。特别是,提出了交换引导的ID反转策略来优化身份相似性。广泛的实验验证了我们的框架会产生高质量的面部交换结果,从而超过了最先进的方法,既有定性和定量。
translated by 谷歌翻译
大脑区域之间的功能连通性(FC)通常是通过应用于功能磁共振成像(FMRI)数据的统计依赖度量来估计的。所得的功能连接矩阵(FCM)通常用于表示脑图的邻接矩阵。最近,图形神经网络(GNN)已成功应用于FCM,以学习脑图表示。但是,现有GNN方法的一个普遍局限性是,它们要求在模型训练之前知道图形邻接矩阵。因此,隐含地假设数据的基础依赖性结构已知。不幸的是,对于fMRI而言,情况并非如此,因为哪种统计度量的选择最能代表数据的依赖性结构是非平凡的。同样,大多数GNN应用于功能磁共振成像,FC都会随着时间的推移而静态,这与神经科学的证据相反,表明功能性脑网络是随时间变化且动态的。这些复合问题可能会对GNN学习脑图表示的能力产生不利影响。作为解决方案,我们提出了动态大脑图结构学习(DBGSL),这是一种学习fMRI数据最佳时变依赖性结构的监督方法。具体而言,DBGSL通过应用于大脑区域嵌入的时空注意力从fMRI时间表中学习了动态图。然后将所得的图馈送到空间GNN中,以学习分类的图表。大型休息状态以及性别分类任务的fMRI数据集的实验表明,DBGSL可以实现最新的性能。此外,对学习动态图的分析突出了与现有神经科学文献的发现相符的预测相关大脑区域。
translated by 谷歌翻译
应用于物理工程系统的纯粹数据驱动的深神经网络(DNN)可以推断出违反物理定律的关系,从而导致意外后果。为了应对这一挑战,我们提出了一个基于物理模型的DNN框架,即Phy-Taylor,该框架以物理知识加速了学习合规的表示。 Phy-Taylor框架做出了两个关键的贡献。它引入了一个新的建筑物理兼容神经网络(PHN),并具有新颖的合规机制,我们称{\ em物理学引导的神经网络编辑\/}。 PHN的目的是直接捕获受物质量的启发的非线性,例如动能,势能,电力和空气动力阻力。为此,PHN增强了具有两个关键组成部分的神经网络层:(i)泰勒级数序列扩展的非线性功能捕获物理知识的扩展,以及(ii)缓解噪声影响的抑制器。神经网络编辑机制进一步修改了网络链接和激活功能与物理知识一致。作为扩展,我们还提出了一个自我校正的Phy-Taylor框架,该框架介绍了两个其他功能:(i)基于物理模型的安全关系学习,以及(ii)在违反安全性的情况下自动输出校正。通过实验,我们表明(通过直接表达难以学习的非线性并通过限制依赖性)Phy-Taylor的特征较少的参数和明显加速的训练过程,同时提供增强的模型稳健性和准确性。
translated by 谷歌翻译
人类机器人相互作用(HRI)对于在日常生活中广泛使用机器人至关重要。机器人最终将能够通过有效的社会互动来履行人类文明的各种职责。创建直接且易于理解的界面,以与机器人开始在个人工作区中扩散时与机器人互动至关重要。通常,与模拟机器人的交互显示在屏幕上。虚拟现实(VR)是一个更具吸引力的替代方法,它为视觉提示提供了更像现实世界中看到的线索。在这项研究中,我们介绍了Jubileo,这是一种机器人的动画面孔,并使用人类机器人社会互动领域的各种研究和应用开发工具。Jubileo Project不仅提供功能齐全的开源物理机器人。它还提供了一个全面的框架,可以通过VR接口进行操作,从而为HRI应用程序测试带来沉浸式环境,并明显更好地部署速度。
translated by 谷歌翻译
预测交通参与者的多模式未来行为对于机器人车辆做出安全决策至关重要。现有作品探索以直接根据潜在特征预测未来的轨迹,或利用密集的目标候选者来识别代理商的目的地,在这种情况下,由于所有运动模式均来自相同的功能,而后者的策略具有效率问题,因此前者策略的收敛缓慢,因为其性能高度依赖关于候选目标的密度。在本文中,我们提出了运动变压器(MTR)框架,该框架将运动预测模拟为全球意图定位和局部运动改进的联合优化。 MTR不使用目标候选者,而是通过采用一系列可学习的运动查询对来结合空间意图。每个运动查询对负责特定运动模式的轨迹预测和完善,这可以稳定训练过程并促进更好的多模式预测。实验表明,MTR在边际和联合运动预测挑战上都达到了最新的性能,在Waymo Open Motion DataSet排行榜上排名第一。代码将在https://github.com/sshaoshuai/mtr上找到。
translated by 谷歌翻译
为了以低成本的自动驾驶成本实现准确的3D对象检测,已经提出了许多多摄像机方法并解决了单眼方法的闭塞问题。但是,由于缺乏准确的估计深度,现有的多摄像机方法通常会沿着深度方向产生多个边界框,例如行人等困难的小物体,从而产生极低的召回。此外,将深度预测模块直接应用于通常由大型网络体系结构组成的现有多摄像机方法,无法满足自动驾驶应用程序的实时要求。为了解决这些问题,我们提出了3D对象检测的跨视图和深度引导的变压器,CrossDTR。首先,我们的轻质深度预测器旨在生成精确的对象稀疏深度图和低维深度嵌入,而在监督过程中,无需额外的深度数据集。其次,开发了一个跨视图引导的变压器,以融合深度嵌入以及来自不同视图的相机的图像特征并生成3D边界框。广泛的实验表明,我们的方法在行人检测中大大超过了10%,总体图和NDS指标中约为3%。同样,计算分析表明,我们的方法比以前的方法快5倍。我们的代码将在https://github.com/sty61010/crossdtr上公开提供。
translated by 谷歌翻译
高效用顺序模式采矿(HUSPM)是具有许多真实世界应用的知识发现和数据分析中的重要活动。在某些情况下,HUSPM无法提供出色的措施来预测会发生什么。高效用顺序规则挖掘(HUSRM)发现了高实用性和高置信顺序规则,从而使其可以解决HUSPM中的问题。所有现有的HUSRM算法旨在找到与现实不一致的,可能会产生假的HUSRS的高级序列顺序规则(HUSRS)。因此,在本文中,我们制定了高公用事业完全订购的顺序规则挖掘的问题,并提出了两种称为petalsr和totalsr+的新型算法,旨在识别所有高实用性完全订购的顺序规则(HTSRS)。 TotalSR创建了一个实用表,该表可以有效地计算前提支持和一个效用前缀总和列表,该列表可以计算序列中O(1)时间中的剩余实用程序。我们还引入了左侧的扩展策略,该策略可以利用反单调性属性来使用信心修剪策略。 TotalSr还可以在实用程序上限的修剪策略的帮助下大大减少搜索空间,从而避免更加有意义的计算。此外,TotalSr+使用辅助前期记录表来更有效地发现HTSR。最后,在真实和合成数据集上都有许多实验结果,表明topalsR比较少的修剪策略的算法要高得多,并且在运行时间和可伸缩性方面,topalsr+效率更高。
translated by 谷歌翻译
准确的车辆类型分类在智能运输系统中起重要作用。对于统治者而言,重要的是要了解道路状况,通常为交通灯控制系统的贡献,以相应地响应以减轻交通拥堵。新技术和全面数据源,例如航空照片和遥感数据,提供了更丰富,高维的信息。同样,由于深度神经网络技术的快速发展,基于图像的车辆分类方法可以在处理数据时更好地提取基本的客观特征。最近,已经提出了几种深度学习模型来解决该问题。但是,基于纯卷积的传统方法对全球信息提取有限制,而复杂的环境(例如恶劣的天气)严重限制了识别能力。为了在复杂环境下提高车辆类型的分类能力,本研究提出了一种新型连接的卷积变压器在变压器神经网络(密度TNT)框架中,通过堆叠密集连接的卷积网络(Densenet)和变压器(TNT)(TNT)(TNT)(TNT )层。部署了三个区域的数据和四个不同的天气条件以评估识别能力。实验发现,即使在严重的雾气天气条件下,我们提出的车辆分类模型的识别能力也很少。
translated by 谷歌翻译
选举演讲在交流候选人的愿景和使命中起着不可或缺的作用。从崇高的承诺到泥泞,选举候选人都对所有人说明了。但是,关于选民究竟赢得了什么胜利,仍然存在一个公开的问题。在这项工作中,我们使用最先进的自然语言处理方法来研究共和党候选人唐纳德·特朗普(Donald Trump)和民主党候选人乔·拜登(Joe Biden)的讲话和情感,他们争夺2020年美国总统大选。比较美国的种族二分法,我们分析了导致不同候选人的胜利和失败的原因。我们认为,这项工作将为选举竞选策略提供信息,并为与各种人群进行沟通提供基础。
translated by 谷歌翻译
赤道等离子体气泡(EPB)是低密度血浆的羽毛,它们从F层的底部升至Exosphere。 EPB是无线电波闪烁的已知原因,可以降低与航天器的通信。我们构建了一个随机的森林回归剂,以预测和预测IBI处理器在船上检测到的EPB [0-1]的可能性。我们使用从2014年到2021年的8年群数据,并将数据从时间序列转换为5维空间,该空间包括纬度,经度,MLT,年份和年度。我们还增加了KP,F10.7厘米和太阳风速。关于地理位置,当地时间,季节和太阳活动的EPB的观察主要与现有工作一致,而链接的地磁活动尚不清楚。该预测的精度为88%,并且在EPB特异性时空尺度上的性能很好。这证明了XGBoost方法能够成功捕获群EPB的气候和每日变异性。由于电离层内的局部和随机特征,捕获每日方差长期以来一直逃避研究人员。我们利用Shapley值来解释该模型并深入了解EPB的物理学。我们发现,随着太阳能速度的增加,EPB的概率降低。我们还确定了EPB概率周围的尖峰。这两个见解直接源自XGBoost和Shapley技术。
translated by 谷歌翻译
通过采用卷积神经网络(CNN)进行电路结构的分割,深度学习在具有挑战性的电路注释任务中取得了巨大的成功。深度学习方法需要大量手动注释的培训数据才能实现良好的性能,如果在给定数据集上培训的深度学习模型被应用于其他数据集,则可能导致性能降解。这通常称为电路注释的域移位问题,这源于不同图像数据集的分布的较大变化。可以从单个设备中的不同设备或不同层获得不同的图像数据集。为了解决域移位问题,我们提出了直方图门控图像翻译(HGIT),这是一个无监督的域适应框架,将图像从给定的源数据集转换为目标数据集的域,并利用转换的图像来训练段网络。具体而言,我们的HGIT执行基于生成的对抗网络(GAN)的图像翻译,并利用直方图统计数据进行数据策划。实验是在适应三个不同目标数据集(无标签的单个标记源数据集上进行的,并评估了每个目标数据集的分割性能。我们已经证明,与报道的域适应技术相比,我们的方法达到了最佳性能,并且还可以合理地接近完全监督的基准。
translated by 谷歌翻译
最近的研究表明,减少时间和空间冗余都是有效的视频识别方法的有效方法,例如,将大多数计算分配给与任务相关的框架或每个帧中最有价值的图像区域。但是,在大多数现有的作品中,任何一种类型的冗余通常都是用另一个缺失建模的。本文探讨了在最近提出的ADAFOCUSV2算法之上的时空动态计算的统一配方,从而有助于改进的ADAFOCUSV3框架。我们的方法仅在一些小但有益的3D视频立方体上激活昂贵的高容量网络来降低计算成本。这些立方体是从框架高度,宽度和视频持续时间形成的空间中裁剪的,而它们的位置则以每样本样本为基础的轻加权政策网络自适应地确定。在测试时间,与每个视频相对应的立方体的数量是动态配置的,即,对视频立方体进行顺序处理,直到产生足够可靠的预测为止。值得注意的是,可以通过近似可插入深度特征的插值来有效地训练adafocusv3。六个基准数据集(即ActivityNet,FCVID,Mini-Kinetics,Something Something V1&V2和潜水48)上的广泛经验结果表明,我们的模型比竞争性基线要高得多。
translated by 谷歌翻译
最近,通过“向导”模拟游戏收集了一类以任务为导向的对话(TOD)数据集。但是,《巫师》数据实际上是模拟的数据,因此与现实生活中的对话根本不同,这些对话更加嘈杂和随意。最近,Seretod挑战赛是组织的,并发布了Mobilecs数据集,该数据集由来自中国移动的真实用户和客户服务人员之间的真实世界对话框组成。基于Mobilecs数据集,Seretod挑战具有两个任务,不仅评估了对话系统本身的构建,而且还检查了对话框成绩单中的信息提取,这对于建立TOD的知识库至关重要。本文主要介绍了Mobilecs数据集对这两项任务的基线研究。我们介绍了如何构建两个基线,遇到的问题以及结果。我们预计基线可以促进令人兴奋的未来研究,以建立针对现实生活任务的人类机器人对话系统。
translated by 谷歌翻译
作为世界上口语最广泛的语言之一,孟加拉国的使用在社交媒体世界中也在增加。讽刺是一种积极的陈述或言论,其基本的负面动机在当今的社交媒体平台中广泛使用。在过去的许多年中,英语的讽刺检测有了显着改善,但是有关孟加拉讽刺检测的情况仍然没有改变。结果,仍然很难识别孟加拉国中的讽刺,缺乏高质量的数据是主要因素。本文提出了Banglasarc,该数据集是专门为孟加拉文本数据讽刺检测的数据集。该数据集包含5112条评论/状态和从各种在线社交平台(例如Facebook,YouTube)以及一些在线博客中收集的内容。由于孟加拉语中分类评论的数据收集数量有限,因此该数据集将有助于确定讽刺的研究,认识到人们的情绪,检测到各种类型的孟加拉语表达式和其他领域。该数据集可在https://www.kaggle.com/datasets/sakibapon/banglasarc上公开获得。
translated by 谷歌翻译
速度控制预测是驾驶员行为分析中一个具有挑战性的问题,旨在预测驾驶员在控制车速(例如制动或加速度)中的未来行动。在本文中,我们尝试仅使用以自我为中心的视频数据来应对这一挑战,与使用第三人称视图数据或额外的车辆传感器数据(例如GPS或两者)的文献中的大多数作品相比。为此,我们提出了一个基于新型的图形卷积网络(GCN)网络,即Egospeed-net。我们的动机是,随着时间的推移,对象的位置变化可以为我们提供非常有用的线索,以预测未来的速度变化。我们首先使用完全连接的图形图将每个类的对象之间的空间关系建模,并在其上应用GCN进行特征提取。然后,我们利用一个长期的短期内存网络将每个类别的此类特征随着时间的流逝融合到矢量中,加入此类矢量并使用多层perceptron分类器预测速度控制动作。我们在本田研究所驾驶数据集上进行了广泛的实验,并证明了Egospeed-NET的出色性能。
translated by 谷歌翻译
随着数字时代的出现,由于技术进步,每天的任务都是自动化的。但是,技术尚未为人们提供足够的工具和保障措施。随着互联网连接全球越来越多的设备,确保连接设备的问题以均匀的螺旋速率增长。数据盗窃,身份盗窃,欺诈交易,密码妥协和系统漏洞正在成为常规的日常新闻。最近的人工智能进步引起了网络攻击的激烈威胁。 AI几乎应用于不同科学和工程的每个领域。 AI的干预不仅可以使特定任务自动化,而且可以提高效率。因此,很明显,如此美味的传播对网络犯罪分子来说是非常开胃的。因此,传统的网络威胁和攻击现在是``智能威胁''。本文讨论了网络安全和网络威胁,以及传统和智能的防御方式,以防止网络攻击。最终,结束讨论,以潜在的潜在前景结束讨论AI网络安全。
translated by 谷歌翻译
可解释的机器学习旨在了解复杂的黑盒系统的推理过程,这些系统因缺乏解释性而臭名昭著。一种不断增长的解释方法是通过反事实解释,这超出了为什么系统做出一定决定,以进一步提供有关用户可以采取哪些方法来改变结果的建议。反事实示例必须能够应对黑框分类器的原始预测,同时还满足实用应用程序的各种约束。这些限制存在于一个和另一个之间的权衡处,对现有作品提出了根本的挑战。为此,我们提出了一个基于随机学习的框架,可以有效地平衡反事实权衡。该框架由具有互补角色的一代和特征选择模块组成:前者的目标是建模有效的反事实的分布,而后者则以允许可区分训练和摊销优化的方式执行其他约束。我们证明了我们方法在产生可行和合理的反事实中的有效性,这些反事实比现有方法更多样化,尤其是比具有相同能力的对应物更有效的方式。
translated by 谷歌翻译
近年来,多任务学习在各种应用程序中都取得了巨大的成功。尽管这些年来,单个模型培训已承诺取得出色的成果,但它忽略了有价值的信息,这些信息可能有助于我们更好地估计一个指标。在与学习相关的任务下,多任务学习能够更好地概括模型。我们试图通过在相关任务和归纳转移学习之间共享功能来增强多任务模型的功能映射。此外,我们的兴趣是学习各种任务之间的任务关系,以从多任务学习中获得更好的收益。在本章中,我们的目标是可视化现有的多任务模型,比较其性能,用于评估多任务模型性能的方法,讨论在各个领域的设计和实施过程中所面临的问题,以及他们实现的优势和里程碑
translated by 谷歌翻译
随着深度神经网络(DNN)的出现,成为许多计算机视觉任务中的骨干,它们在现实世界中的消费应用程序中的采用不断扩大。鉴于智能设备的丰富性和无所不能,正在形成“智能生态系统”,同时进行感应而不是独立。这将处式推理范式转移到在边缘部署集中式神经加工单元(NPU),其中多个设备(例如,在智能家居或自动驾驶汽车中)可以通过动态速率流式传输数据以进行处理。尽管这为输入批处理提供了增强的潜力,但幼稚的解决方案可以导致表现不佳的性能和经验质量,尤其是在尖峰负载下。同时,动态DNN的部署,包括随机计算图(例如早期 - 外观(EE)模型),引入了此类系统中动态行为的新维度。在这项工作中,我们提出了一种新颖的早期感知的调度算法,该算法允许在运行时进行样本抢占,以说明到达和早期外来过程引入的动态性。同时,我们向NPU硬件体系结构的设计空间介绍了两个新颖的维度,即流体批处理和可堆叠的处理元素,这些元素可以使运行时适应性适应不同的批次尺寸,并显着改善了NPU利用率,即使在小批次尺寸下也是如此。我们的评估表明,我们的系统分别在平均延迟和尾部潜伏期SLO满意度方面,平均达到1.97倍和6.7倍的改善。
translated by 谷歌翻译
深度神经网络端对端训练有素,将(嘈杂)图像映射到干净的图像的测量值非常适合各种线性反问题。当前的方法仅在数百或数千张图像上进行训练,而不是在其他领域进行了数百万个示例。在这项工作中,我们研究是否可以通过扩大训练组规模来获得重大的性能提高。我们考虑图像降解,加速磁共振成像以及超分辨率,并在经验上确定重建质量是训练集大小的函数,同时最佳地扩展了网络大小。对于所有三个任务,我们发现最初陡峭的幂律缩放率已经在适度的训练集大小上大大减慢。插值这些缩放定律表明,即使对数百万图像进行培训也不会显着提高性能。为了了解预期的行为,我们分析表征了以早期梯度下降学到的线性估计器的性能。结果正式的直觉是,一旦通过学习信号模型引起的误差,相对于误差地板,更多的训练示例不会提高性能。
translated by 谷歌翻译
在本文中,我们对数值模拟的加速感兴趣。我们专注于高超音速行星再入问题,该问题涉及耦合流体动力学和化学反应。模拟化学反应需要大部分计算时间,但另一方面,无法避免获得准确的预测。我们面临成本效率和准确性之间的权衡:模拟代码必须足够有效地在操作环境中使用,但必须足够准确,以忠实地预测现象。为了解决这个权衡,我们设计了一个混合模拟代码,将传统的流体动态求解器与近似化学反应的神经网络耦合。当在大数据上下文中应用以及它们源于其矩阵矢量结构的效率时,我们依靠它们的力量来实现重要的加速因子($ \ tims 10 $至$ \ times 18.6 $)。本文旨在解释我们如何在实践中设计这种具有成本效益的混合模拟代码。最重要的是,我们描述了确保准确性保证的方法论,使我们能够超越传统的替代建模,并将这些代码用作参考。
translated by 谷歌翻译
图像中的3D重建在虚拟现实和自动驾驶中具有广泛的应用,在此精确要求非常高。通过利用多层感知,在神经辐射场(NERF)中进行的突破性研究已大大提高了3D对象的表示质量。后来的一些研究通过建立截短的签名距离场(TSDF)改善了NERF,但仍遭受3D重建中表面模糊的问题。在这项工作中,通过提出一种新颖的3D形状表示方式Omninerf来解决这种表面歧义。它基于训练Omni方向距离场(ODF)和神经辐射场的混合隐式场,用全向信息代替NERF中的明显密度。此外,我们在深度图上介绍了其他监督,以进一步提高重建质量。该提出的方法已被证明可以有效处理表面重建边缘的NERF缺陷,从而提供了更高质量的3D场景重建结果。
translated by 谷歌翻译
共处的触觉传感是一种基本的启发技术,用于灵巧操纵。然而,可变形的传感器在机器人,握住的对象和环境之间引入了复杂的动力学,必须考虑进行精细操纵。在这里,我们提出了一种学习软触觉传感器膜动力学的方法,该动力学解释了由握把对象和环境之间的物理相互作用引起的传感器变形。我们的方法将膜的感知3D几何形状与本体感受反应扳手结合在一起,以预测以机器人作用为条件的未来变形。从膜的几何形状和反应扳手中回收了抓握的物体姿势,从触觉观察模型中解耦相互作用动力学。我们在两个现实世界的接触任务上基准了我们的方法:用握把标记和手中旋转的绘画。我们的结果表明,明确建模膜动力学比基准实现了更好的任务性能和对看不见的对象的概括。
translated by 谷歌翻译
具有对比目标的训练前视觉模型已显示出令人鼓舞的结果,这些结果既可以扩展到大型未经切割的数据集,又可以传输到许多下游应用程序。以下一些作品针对提高数据效率,通过添加自学意义来提高数据效率,但是在这些作品中的单个空间上定义了对比度损失(图像文本)对比度损失和内域(图像图像)对比度损失,因此许多可行的可行性监督的组合被忽略了。为了克服这个问题,我们提出了Uniclip,这是对对比语言图像预训练的统一框架。 Uniclip将域间对和域内对的对比损失整合到一个单一的通用空间中。 Uniclip的三个关键组成部分解决了整合不同域之间对比度损失时发生的差异:(1)增强感知功能嵌入,(2)MP-NCE损失和(3)域相似性度量。 Uniclip的表现优于以前的视觉语言预训练方法,在下游任务的各种单模式和多模式上。在我们的实验中,我们表明每个组成的分支都对最终性能有很好的贡献。
translated by 谷歌翻译
沙普利价值是衡量单个特征影响的流行方法。尽管Shapley功能归因是基于游戏理论的Desiderata,但在某些机器学习设置中,其某些约束可能不太自然,从而导致不直觉的模型解释。特别是,Shapley值对所有边际贡献都使用相同的权重 - 即,当给出大量其他功能时,当给出少数其他功能时,它具有相同的重要性。如果较大的功能集比较小的功能集更具信息性,则此属性可能是有问题的。我们的工作对沙普利特征归因的潜在局限性进行了严格的分析。我们通过为较小的影响力特征分配较大的属性来确定Shapley值在数学上是次优的设置。在这一观察结果的驱动下,我们提出了加权图,它概括了沙普利的价值,并了解到直接从数据中关注哪些边际贡献。在几个现实世界数据集上,我们证明,与沙普利值确定的功能相比,加权图确定的有影响力的特征可以更好地概括模型的预测。
translated by 谷歌翻译
改善人与人之间的互动性和互连性是元视频的亮点之一。荟萃分析依赖于核心方法,数字孪生,这是将物理世界对象,人,动作和场景复制到虚拟世界中的一种手段。能够在实时和移动性的情况下访问与物理世界相关的场景和信息,对于为所有用户开发高度可访问,互动和互连体验至关重要。这种开发使来自其他位置的用户可以访问有关另一个位置发生的事件的高质量现实世界和最新信息,并与他人进行超相互交流的社交。然而,由于虚拟世界图形的数据大小以及对低延迟传输的需求,因此其他人从元评估中产生的持续,平稳的更新是一项具有挑战性的任务。随着移动增强现实(MAR)的开发,用户也可以通过高度交互方式(即使在移动性下)通过元视频进行交互。因此,在我们的工作中,我们考虑了一个环境,其中包括移动车辆互联网(IOV)的用户,并通过无线通信从Metaverse Service Provister Pasting Stations(MSPCSS)下载实时虚拟世界更新。我们设计了一个具有多个单元站的环境,其中将在细胞站之间交换用户虚拟世界图形下载任务。由于传输延迟是在移动性下接收虚拟世界更新的主要关注点,因此我们的工作旨在分配系统资源,以最大程度地减少用户在车辆中使用的总时间,以便从单元站下载其虚拟世界场景。我们利用深度强化学习并评估不同环境配置下算法的性能。我们的工作提供了启用AI支持的6G通信的元视体的用例。
translated by 谷歌翻译
鉴于大量具有相似属性但域不同的标记数据的可用性,域的适应性是一种有吸引力的方法。在图像分类任务中,获得足够的标签数据具有挑战性。我们提出了一种名为Selda的新方法,用于通过扩展三种域适应方法来堆叠合奏学习,以有效解决现实世界中的问题。主要假设是,当将基本域适应模型组合起来时,我们可以通过利用每个基本模型的能力来获得更准确,更健壮的模型。我们扩展最大平均差异(MMD),低级别编码和相关比对(珊瑚),以计算三个基本模型中的适应损失。同样,我们利用一个两双连接的层网络作为元模型来堆叠这三个表现良好的域适应模型的输出预测,以获得眼科图像分类任务的高精度。使用与年龄相关的眼病研究(AREDS)基准眼科数据集的实验结果证明了该模型的有效性。
translated by 谷歌翻译
与计算机视觉合并的基于无人机的遥感系统(UAV)遥感系统具有协助建筑物建设和灾难管理的潜力,例如地震期间的损害评估。可以通过检查来评估建筑物到地震的脆弱性,该检查考虑到相关组件的预期损害进展以及组件对结构系统性能的贡献。这些检查中的大多数是手动进行的,导致高利用人力,时间和成本。本文提出了一种通过基于无人机的图像数据收集和用于后处理的软件库来自动化这些检查的方法,该方法有助于估算地震结构参数。这里考虑的关键参数是相邻建筑物,建筑计划形状,建筑计划区域,屋顶上的对象和屋顶布局之间的距离。通过使用距离测量传感器以及通过Google Earth获得的数据进行的现场测量,可以验证所提出的方法在估计上述参数估算上述参数方面的准确性。可以从https://uvrsabi.github.io/访问其他详细信息和代码。
translated by 谷歌翻译
通常,在加固学习(RL)中,奖励会随着时间的流逝而使用指数函数来模拟时间偏好,从而限制了预期的长期奖励。相反,在经济学和心理学中,已经表明人类通常采用双曲线折现方案,当假定特定的任务终止时间分布时,这是最佳的。在这项工作中,我们提出了一种基于连续的基于模型的强化学习的理论,将其推广到任意折扣功能。该公式涵盖了存在非指数随机终止时间的情况。我们得出了表征最佳策略的汉密尔顿 - 雅各比 - 贝尔曼(HJB)方程,并描述了如何使用搭配方法来求解它,该方法使用深度学习进行函数近似。此外,我们展示了如何解决逆RL问题,其中人们试图恢复给定决策数据的折现功能的属性。我们在两个模拟问题上验证了我们提出的方法的适用性。我们的方法为分析在顺序决策任务中分析人类折现的道路开辟了道路。
translated by 谷歌翻译
病理学家通过检查载玻片上的针头活检的组织来诊断和坡度前列腺癌。癌症的严重程度和转移风险取决于格里森等级,这是基于前列腺癌腺体的组织和形态的分数。为了进行诊断检查,病理学家首先将腺体定位在整个活检核心中,如果发现癌症 - 他们分配了Gleason等级。尽管严格的诊断标准,但这种耗时的过程仍会出现错误和明显的观察者间变异性。本文提出了一个自动化的工作流程,该工作流程遵循病理学家的\ textit {modus operandi},对整个幻灯片图像(WSI)的多尺度斑块进行隔离和分类。分别对基质和腺体边界; (2)分类器网络以高放大倍数将良性与癌症分离; (3)另一个分类器可以在低放大倍率下预测每个癌症的等级。总的来说,此过程为前列腺癌分级提供了一种特定于腺体的方法,我们将其与其他基于机器学习的分级方法进行比较。
translated by 谷歌翻译
Covid-19是一种攻击上呼吸道和肺部的新型病毒。它的人对人的传播性非常迅速,这在个人生活的各个方面都引起了严重的问题。尽管一些感染的人可能仍然完全无症状,但经常被目睹有轻度至重度症状。除此之外,全球成千上万的死亡案件表明,检测Covid-19是社区的紧急需求。实际上,这是在筛选医学图像(例如计算机断层扫描(CT)和X射线图像)的帮助下进行的。但是,繁琐的临床程序和大量的每日病例对医生构成了巨大挑战。基于深度学习的方法在广泛的医疗任务中表现出了巨大的潜力。结果,我们引入了一种基于变压器的方法,用于使用紧凑卷积变压器(CCT)自动从X射线图像中自动检测COVID-19。我们的广泛实验证明了该方法的疗效,精度为98%,比以前的作品表现优于先前的作品。
translated by 谷歌翻译
传感器仿真已成为一种有前途且强大的技术,可以找到许多现实世界机器人任务(例如本地化和姿势跟踪)的解决方案。但是,常用的模拟器具有高硬件要求,因此主要用于高端计算机。在本文中,我们提出了一种方法,可以直接在使用三角形网格作为环境图的移动机器人的嵌入式硬件上模拟范围传感器。这个名为Rmagine的库允许机器人直接通过射线缩放模拟传感器数据为任意范围传感器。由于机器人通常只有有限的计算资源,因此Rmagine的目的是灵活且轻巧,同时甚至可以很好地扩展到大型环境图。它通过将统一的API放在硬件制造商提供的特定专有库上,将统一的API放置在诸如Nvidia Jetson之类的多个平台上,例如Nvidia Jetson。这项工作旨在根据范围数据的模拟来支持机器人应用程序的未来开发,这些数据以前在移动系统上的合理时间内无法计算。
translated by 谷歌翻译
要了解深层relu网络的动态,我们通过将其分解为级级$ w(t)$ and Angle $ \ phi(t):= \ pi- \ theta,研究了梯度流量$ W(t)$的动态系统(t)$组件。特别是,对于具有球形对称数据分布和平方损耗函数的多层单晶元神经元,我们为大小和角度成分提供上限和下限,以描述梯度流动的动力学。使用获得的边界,我们得出结论,小规模初始化会导致深单重质神经元的缓慢收敛速度。最后,通过利用梯度流和梯度下降的关系,我们将结果扩展到梯度下降方法。所有理论结果均通过实验验证。
translated by 谷歌翻译
尽管存在许多减少卷积神经网络(CNN)过度拟合的方法,但仍不清楚如何自信地衡量过度拟合的程度。但是,反映过度拟合水平的度量可能非常有用,可对不同体系结构的比较和评估各种技术来应对过度拟合。由于过度拟合的神经网络倾向于记住训练数据中的噪声而不是普遍看不见的数据,因此我们研究了训练精度在增加数据扰动的存在并研究与过度拟合的联系时如何变化。尽管以前的工作仅针对标签噪声,但我们还是研究了一系列技术,以将噪声注入训练数据,包括对抗性扰动和输入损坏。基于此,我们定义了两个新的指标,可以自信地区分正确的模型和过度拟合模型。为了进行评估,我们得出了事先已知过度拟合行为的模型池。为了测试各种因素的效果,我们基于VGG和Resnet引入了架构中的几种反拟合措施,并研究其影响,包括正则化技术,训练集大小和参数数量。最后,我们通过测量模型池外几个CNN体系结构的过度拟合度来评估所提出的指标的适用性。
translated by 谷歌翻译
在训练之前对神经网络进行修剪不仅会压缩原始模型,还可以加速其具有实质性应用值的网络培训阶段。当前的工作着重于细粒修剪,该修剪使用指标来计算重量筛查的重量评分,并从初始的单阶修剪到迭代修剪。通过这些作品,我们认为可以将网络修剪总结为权重的表达力传递过程,其中保留权重将从被删除的力量中占据表达力,以维持原始网络的性能。为了实现最佳的表达力调度,我们在训练名为神经网络Pannaging之前提出了一种修剪计划,该方案通过多指数和多进程步骤指导表达力转移,并设计一种基于强化学习以自动化过程的平移代理。实验结果表明,平平在训练方法之前的性能优于各种可用的修剪。
translated by 谷歌翻译
在本文中,我们解决了神经面部重演的问题,鉴于一对源和目标面部图像,我们需要通过将目标的姿势(定义为头部姿势及其面部表情定义)通过同时保留源的身份特征(例如面部形状,发型等),即使在源头和目标面属于不同身份的挑战性情况下也是如此。在此过程中,我们解决了最先进作品的一些局限在推理期间标记的数据以及c)它们不保留大型头部姿势变化中的身份。更具体地说,我们提出了一个框架,该框架使用未配对的随机生成的面部图像学会通过合并最近引入的样式空间$ \ Mathcal $ \ Mathcal {S} $ of Stylegan2的姿势,以将面部的身份特征从其姿势中解脱出来表现出显着的分解特性。通过利用这一点,我们学会使用3D模型的监督成功地混合了一对源和目标样式代码。随后用于重新制定的最终潜在代码由仅与源的面部姿势相对应的潜在单位和仅与源身份相对应的单位组成,从而显着改善了与最近的状态性能相比的重新制定性能。艺术方法。与艺术的状态相比,我们定量和定性地表明,即使在极端的姿势变化下,提出的方法也会产生更高的质量结果。最后,我们通过首先将它们嵌入预告片发电机的潜在空间来报告实际图像。我们在:https://github.com/stelabou/stylemask上公开提供代码和预估计的模型
translated by 谷歌翻译
合奏方法是将多种模型相结合以实现卓越性能的可靠方法。但是,关于集合方法在遥感对象检测方案中的应用的研究大多被忽略了。出现了两个问题。首先,遥感对象检测的一个独特特征是对象的定向边界框(OBB)和多个OBB的融合需要进一步的研究注意。其次,广泛使用的深度学习对象检测器为每个检测到的对象提供了一个分数作为置信度的指标,但是如何在集合方法中有效使用这些指标仍然是一个问题。试图解决这些问题,本文提出了与OBB兼容的合奏方法,并以学习的方式结合了检测结果。这种合奏方法有助于在挑战轨道\ textit {高分辨率光学图像中的细粒对象识别}中排名第一,该{\ textit {2021 Gaofen挑战在自动化高分辨率的地球观测图像}中均具有特征。 DOTA数据集和FAIR1M数据集的实验表明,分析了Obbstacking的性能以及Obbstacking的功能。
translated by 谷歌翻译
轻巧的飞行时间(TOF)深度传感器很小,便宜,低能量,并且已在移动设备上大量部署在移动设备上,以进行自动对焦,障碍物检测等。但是,由于其特定的测量值(深度分布)在某个像素时的区域而不是深度值,并且分辨率极低,它们不足以用于需要高保真深度(例如3D重建)的应用。在本文中,我们提出了Deltar,这是一种新颖的方法,可以通过与颜色图像合作来赋予高分辨率和准确深度的能力。作为Deltar的核心,提出了一种用于深度分布的特征提取器,并提出了基于注意力的神经体系结构,以有效地从颜色和TOF域中融合信息。为了在现实世界中评估我们的系统,我们设计了一个数据收集设备,并提出了一种校准RGB摄像头和TOF传感器的新方法。实验表明,我们的方法比旨在使用商品级RGB-D传感器的PAR性能实现的现有框架比现有的框架产生更准确的深度。代码和数据可在https://zju3dv.github.io/deltar/上获得。
translated by 谷歌翻译
基于对抗斑块的攻击旨在欺骗一个有意产生的噪声的神经网络,该网络集中在输入图像的特定区域中。在这项工作中,我们对不同的贴片生成参数进行了深入的分析,包括初始化,贴剂大小,尤其是在训练过程中将贴剂放置在图像中。我们专注于对象消失的攻击,并以Yolov3作为白色盒子设置中的攻击的模型运行实验,并使用COCO数据集中的图像。我们的实验表明,在训练期间,将斑块插入大小增加的窗口内,与固定位置相比,攻击强度显着提高。当斑块在训练过程中随机定位时,获得了最佳结果,而贴片位置则在批处理中也有所不同。
translated by 谷歌翻译