对于开放式域问题的密集检索已被证明通过在问题通道对的大型数据集上培训来实现令人印象深刻的性能。我们调查是否可以以自我监督的方式学习密集的检索,并有效地应用没有任何注释。我们观察到这种情况下的检索斗争的现有借用模型,并提出了一种设计用于检索的新预制方案:重复跨度检索。我们在文档中使用经常性跨度来创建用于对比学习的伪示例。由此产生的模型 - 蜘蛛 - 在广泛的ODQA数据集上没有任何示例,并且与BM25具有竞争力,具有强烈的稀疏基线。此外,蜘蛛通常优于DPR在其他数据集的问题上培训的DPR培训的强大基线。我们将蜘蛛与BM25结合的混合猎犬改进了所有数据集的组件,并且通常与域中DPR模型具有竞争力,这些模型培训数万例培训。
translated by 谷歌翻译
最近,视频变压器在视频理解方面取得了巨大成功,超过了CNN性能;然而,现有的视频变换器模型不会明确地模拟对象,尽管对象对于识别操作至关重要。在这项工作中,我们呈现对象区域视频变换器(Orvit),一个\ emph {对象为中心}方法,它与直接包含对象表示的块扩展视频变压器图层。关键的想法是从早期层开始融合以对象形式的表示,并将它们传播到变压器层中,从而影响整个网络的时空表示。我们的orvit块由两个对象级流组成:外观和动态。在外观流中,“对象区域关注”模块在修补程序上应用自我关注和\ emph {对象区域}。以这种方式,Visual对象区域与统一修补程序令牌交互,并通过上下文化对象信息来丰富它们。我们通过单独的“对象 - 动态模块”进一步模型对象动态,捕获轨迹交互,并显示如何集成两个流。我们在四个任务和五个数据集中评估我们的模型:在某事物中的某些问题和几次射击动作识别,以及在AVA上的某些时空动作检测,以及在某种东西上的标准动作识别 - 某种东西 - 东西,潜水48和EPIC-Kitchen100。我们在考虑的所有任务和数据集中展示了强大的性能改进,展示了将对象表示的模型的值集成到变压器体系结构中。对于代码和预用模型,请访问项目页面\ url {https://roeiherz.github.io/orvit/}
translated by 谷歌翻译
微调是深度学习的常见做法,使用相对较少的训练数据来实现卓越的普遍性导致下游任务。虽然在实践中广泛使用,但它缺乏强烈的理论理解。我们分析了若干架构中线性教师的回归的本方案的样本复杂性。直观地,微调的成功取决于源任务与目标任务之间的相似性,但是测量它是非微不足道的。我们表明相关措施考虑了源任务,目标任务和目标数据的协方差结构之间的关系。在线性回归的设置中,我们表明,在现实的情况下,当上述措施低时,在实际设置下,显着的样本复杂性降低是合理的。对于深线性回归,我们在用预制权重初始化网络时,我们提出了关于基于梯度训练的感应偏差的新颖结果。使用此结果,我们显示此设置的相似度量也受网络深度的影响。我们进一步在浅relu模型上显示结果,并分析了在源和目标任务中的样本复杂性的依赖性。我们经验证明了我们对合成和现实数据的结果。
translated by 谷歌翻译
最近对物体检测的自我监督预防方法在很大程度上专注于预先绘制物体探测器的骨干,忽略了检测架构的关键部分。相反,我们介绍了DetReg,这是一种新的自我监督方法,用于预先列出整个对象检测网络,包括对象本地化和嵌入组件。在预先绘制期间,DetReg预测对象本地化以与无监督区域提议生成器匹配本地化,并同时将相应的特征嵌入与自我监控图像编码器的嵌入式对齐。我们使用DETR系列探测器实施DetReg,并显示它在Coco,Pascal VOC和空中客车船基准上的Fineetuned时改善了竞争性基线。在低数据制度中,包括半监督和几秒钟学习设置,DetReg建立了许多最先进的结果,例如,在Coco上,我们看到10次检测和+3.5的AP改进A +6.0 AP改进当培训只有1%的标签时。对于代码和预用模型,请访问https://amirbar.net/detreg的项目页面
translated by 谷歌翻译
图像分类模型可以取决于图像的多个不同语义属性。对分类器的决定的说明需要对这些属性进行发现和可视化这些属性。在这里,我们通过训练生成模型来具体解释基于分类器决策的多个属性来实现这一点的样式x。此类属性的自然来源是样式语的风格,已知在图像中生成语义有意义的维度。但是,由于标准GaN训练不依赖于分类器,所以它可能不代表对分类器决定很重要的这些属性,并且风格的尺寸可以表示无关属性。为了克服这一点,我们提出了一种培训程序,该培训程序包括分类器模型,以便学习特定于分类器的风格。然后从该空间中选择解释性属性。这些可用于可视化每个图像改变多个属性的效果,从而提供特定于图像的解释。我们将风格x应用于多个域,包括动物,叶子,面和视网膜图像。为此,我们展示了如何以不同方式修改图像以改变其分类器输出。我们的结果表明,该方法发现与语义上保持良好的属性,生成有意义的图像特定的解释,并且是在用户研究中测量的人为解释。
translated by 谷歌翻译
Adaptive partial linear beamforming meets the need of 5G and future 6G applications for high flexibility and adaptability. Choosing an appropriate tradeoff between conflicting goals opens the recently proposed multiuser (MU) detection method. Due to their high spatial resolution, nonlinear beamforming filters can significantly outperform linear approaches in stationary scenarios with massive connectivity. However, a dramatic decrease in performance can be expected in high mobility scenarios because they are very susceptible to changes in the wireless channel. The robustness of linear filters is required, considering these changes. One way to respond appropriately is to use online machine learning algorithms. The theory of algorithms based on the adaptive projected subgradient method (APSM) is rich, and they promise accurate tracking capabilities in dynamic wireless environments. However, one of the main challenges comes from the real-time implementation of these algorithms, which involve projections on time-varying closed convex sets. While the projection operations are relatively simple, their vast number poses a challenge in ultralow latency (ULL) applications where latency constraints must be satisfied in every radio frame. Taking non-orthogonal multiple access (NOMA) systems as an example, this paper explores the acceleration of APSM-based algorithms through massive parallelization. The result is a GPUaccelerated real-time implementation of an orthogonal frequency-division multiplexing (OFDM)based transceiver that enables detection latency of less than one millisecond and therefore complies with the requirements of 5G and beyond. To meet the stringent physical layer latency requirements, careful co-design of hardware and software is essential, especially in virtualized wireless systems with hardware accelerators.
translated by 谷歌翻译
口语内容中的话语码切换(CS)的普及性具有强制ASR系统来处理混合输入。然而,设计CS-ASR具有许多挑战,主要原因是数据稀缺,语法结构复杂性和不匹配以及不平衡的语言使用分配。最近的ASR研究表明E2E-ASR使用多语种数据来处理CS现象的少量CS数据。但是,对CS数据的依赖仍然存在。在这项工作中,我们提出了一种方法来增加用于人工生成的CS文本的单格式数据以改善不同的语音模块。我们在利用对齐的转换对的同时基于对等效约束理论的方法,以生成语法有效的CS内容。我们的经验结果表明,两种生态和嘈杂的CS测试集,在困惑中的相对增益为29-34%,而在WER中约为2%。最后,人类评估表明,人类可以获得83.8%的生成数据。
translated by 谷歌翻译
预防和无线网络检测入侵和攻击已成为一个重要而严峻​​的挑战。在另一方面,由于无线节点的资源有限,使用监测在无线传感器网络中的永久监视节点,以防止和检测这种类型的网络的入侵和攻击的是几乎不存在。因此,今天来克服这个问题的解决方案是远程控制系统的讨论,并已成为在各个领域感兴趣的话题之一。远程监控的无线传感器网络节点的性能和行为,除了在网络内检测恶意节点,也可以在以后的预测恶意节点的行为。在目前的研究,采用基于鲸优化算法(WOA)和遗传算法(GA)和基于样本的分类的组合特征选择一个网络入侵检测系统,提出了在这项研究中,标准的数据集KDDCUP1999已经使用在这关系到健康的节点和类型的恶意节点的特性被存储基础网络中的攻击类型。该方法是基于特征选择的基础上的精度标准方面鲸优化算法和遗传算法KNN分类相结合,具有比其他以前的方法更好的结果。在此基础上,它可以说是鲸鱼优化算法和遗传算法提取了相关的类标签井的特征和KNN方法已经能够很好地检测出在无线网络的入侵检测数据集的不当行为节点。
translated by 谷歌翻译
肺癌是最致命的癌症之一,部分诊断和治疗取决于肿瘤的准确描绘。目前是最常见的方法的人以人为本的分割,须遵守观察者间变异性,并且考虑到专家只能提供注释的事实,也是耗时的。最近展示了有前途的结果,自动和半自动肿瘤分割方法。然而,随着不同的研究人员使用各种数据集和性能指标验证了其算法,可靠地评估这些方法仍然是一个开放的挑战。通过2018年IEEE视频和图像处理(VIP)杯竞赛创建的计算机断层摄影扫描(LOTUS)基准测试的肺起源肿瘤分割的目标是提供唯一的数据集和预定义的指标,因此不同的研究人员可以开发和以统一的方式评估他们的方法。 2018年VIP杯始于42个国家的全球参与,以获得竞争数据。在注册阶段,有129名成员组成了来自10个国家的28个团队,其中9个团队将其达到最后阶段,6队成功完成了所有必要的任务。简而言之,竞争期间提出的所有算法都是基于深度学习模型与假阳性降低技术相结合。三种决赛选手开发的方法表明,有希望的肿瘤细分导致导致越来越大的努力应降低假阳性率。本次竞争稿件概述了VIP-Cup挑战,以及所提出的算法和结果。
translated by 谷歌翻译
目的:本文侧重于开发鲁棒和准确的加工解决方案,用于连续和较低的血压(BP)监测。在这方面,提出了一种基于深入的基于深度学习的框架,用于计算收缩和舒张BP上的低延迟,连续和无校准的上限和下界。方法:称为BP-Net,所提出的框架是一种新型卷积架构,可提供更长的有效内存,同时实现偶然拨号卷积和残留连接的卓越性能。利用深度学习的实际潜力在提取内在特征(深度特征)并增强长期稳健性,BP-Net使用原始的心电图(ECG)和光电觉体图(PPG)信号而无需提取任何形式的手工制作功能在现有解决方案中很常见。结果:通过利用最近文献中使用的数据集未统一和正确定义的事实,基准数据集由来自PhysoioNet获得的模拟I和MIMIC-III数据库构建。所提出的BP-Net是基于该基准数据集进行评估,展示了有希望的性能并显示出优异的普遍能力。结论:提出的BP-NET架构比规范复发网络更准确,增强了BP估计任务的长期鲁棒性。意义:建议的BP-NET架构解决了现有的BP估计解决方案的关键缺点,即,严重依赖于提取手工制作的特征,例如脉冲到达时间(PAT),以及;缺乏稳健性。最后,构造的BP-Net DataSet提供了一个统一的基础,用于评估和比较基于深度学习的BP估计算法。
translated by 谷歌翻译