Neyman-Scott processes (NSPs) are point process models that generate clusters of points in time or space. They are natural models for a wide range of phenomena, ranging from neural spike trains to document streams. The clustering property is achieved via a doubly stochastic formulation: first, a set of latent events is drawn from a Poisson process; then, each latent event generates a set of observed data points according to another Poisson process. This construction is similar to Bayesian nonparametric mixture models like the Dirichlet process mixture model (DPMM) in that the number of latent events (i.e. clusters) is a random variable, but the point process formulation makes the NSP especially well suited to modeling spatiotemporal data. While many specialized algorithms have been developed for DPMMs, comparatively fewer works have focused on inference in NSPs. Here, we present novel connections between NSPs and DPMMs, with the key link being a third class of Bayesian mixture models called mixture of finite mixture models (MFMMs). Leveraging this connection, we adapt the standard collapsed Gibbs sampling algorithm for DPMMs to enable scalable Bayesian inference on NSP models. We demonstrate the potential of Neyman-Scott processes on a variety of applications including sequence detection in neural spike trains and event detection in document streams.
translated by 谷歌翻译
在本文中,我们介绍了我们在VSPW 2021挑战中使用的解决方案。我们的实验基于两个基线模型,Swin Transformer和MaskFormer。为了进一步提高性能,我们采用随机体重平均技术和设计层次集合策略。不使用任何外部语义分段数据集,我们的解决方案在私人排行榜中排名第5位。此外,我们有一些有趣的尝试解决长尾识别和过度装备的问题,从而实现了Val子集的改进。也许由于分发差异,这些尝试不适用于测试子集。我们还将介绍这些尝试并希望激励其他研究人员。
translated by 谷歌翻译
我们启动了对MLP架构进行了视觉和语言(VL)融合的第一个实证研究。通过对5 VL任务和5个强大的VQA基准测试的广泛实验,我们发现:(i)没有预先训练,使用MLP进行多模式融合,与变压器相比具有明显的性能差距; (ii)但是,VL预培训可以帮助关闭性能差距; (iii)代替重大的多主头注意力,将微小的单臂注意MLPS增加足以实现对变压器的可比性。此外,我们还发现,当在更难的鲁棒VQA基准测试时,MLP和变压器之间的性能差距不会扩大,建议使用MLP融合可以大致呈现与使用变压器相似的程度。这些结果提示MLP可以有效地学会对准从较低级别的编码器中提取的视觉和文本功能,而不依赖于自我关注。基于此,我们提出了一个更大胆的问题:我们可以为VL建模提供全部MLP架构,其中VL融合和视觉编码器都用MLPS替换吗?我们的结果表明,与最先进的全功能VL模型相比,全部MLP VL模型是当它们都获得预先培训的时型vl模型。然而,预先培训ALL-MLP可能令人惊讶地实现比没有预先训练的完整变压器模型更好的平均分数。这表明VL建模的MLP样架构的大规模预培训的潜力,并激发了未来的研究方向,简化了较少的归纳设计偏差的良好的VL建模。我们的代码可公开提供:https://github.com/easonnie/mlp-vil
translated by 谷歌翻译
变压器是一种基于关注的编码器解码器架构,彻底改变了自然语言处理领域。灵感来自这一重大成就,最近在将变形式架构调整到计算机视觉(CV)领域的一些开创性作品,这已经证明了他们对各种简历任务的有效性。依靠竞争力的建模能力,与现代卷积神经网络相比在本文中,我们已经为三百不同的视觉变压器进行了全面的审查,用于三个基本的CV任务(分类,检测和分割),提出了根据其动机,结构和使用情况组织这些方法的分类。 。由于培训设置和面向任务的差异,我们还在不同的配置上进行了评估了这些方法,以便于易于和直观的比较而不是各种基准。此外,我们已经揭示了一系列必不可少的,但可能使变压器能够从众多架构中脱颖而出,例如松弛的高级语义嵌入,以弥合视觉和顺序变压器之间的差距。最后,提出了三个未来的未来研究方向进行进一步投资。
translated by 谷歌翻译
最近的特征对比学习(FCL)在无监督的代表学习中表现出了有希望的表现。然而,对于近置表示学习,其中标记的数据和未标记数据属于相同的语义空间,FCL不能显示由于在优化期间不涉及类语义而无法占用的压倒性增益。因此,产生的特征不保证由来自标记数据中学到的类重量轻松归类,尽管它们是富有的信息。为了解决这个问题,我们在本文中提出了一种新颖的概率对比学习(PCL),这不仅产生了丰富的功能,而且还强制执行它们以分布在课堂上的原型。具体而言,我们建议在SoftMax之后使用输出概率来执行对比学习而不是FCL中提取的功能。显然,这种方法可以在优化期间利用类语义。此外,我们建议在传统的FCL中删除$ \ ell_ {2} $归一化,并直接使用$ \ ell_ {1} $ - 归一化对比学习的概率。我们提出的PCL简单有效。我们在三个近距离图像分类任务中进行广泛的实验,即无监督域适应,半监督学习和半监督域适应。多个数据集上的结果表明,我们的PCL可以一致地获得相当大的收益并实现所有三个任务的最先进的性能。
translated by 谷歌翻译
结构化修剪是一种常用的技术,用于将深神经网络(DNN)部署到资源受限的设备上。但是,现有的修剪方法通常是启发式,任务指定的,并且需要额外的微调过程。为了克服这些限制,我们提出了一个框架,将DNN压缩成纤薄的架构,具有竞争性表现,并且仅通过列车 - 一次(OTO)减少重大拖车。 OTO包含两个键:(i)我们将DNN的参数分区为零不变组,使我们能够修剪零组而不影响输出; (ii)促进零群,我们制定了结构性稀疏优化问题,提出了一种新颖的优化算法,半空间随机投影梯度(HSPG),以解决它,这优于组稀疏性探索的标准近端方法和保持可比的收敛性。为了展示OTO的有效性,我们从划痕上同时培训和压缩全模型,而无需微调推理加速和参数减少,并且在CIFAR10的VGG16实现最先进的结果,为CIFAR10和Squad的BERT为BERT竞争结果在resnet50上为想象成。源代码可在https://github.com/tianyic/only_train_once上获得。
translated by 谷歌翻译
现有的胃癌诊断深层学习方法,常用卷积神经网络。最近,视觉变压器由于其性能和效率而引起了极大的关注,但其应用主要在计算机视野领域。本文提出了一种用于Gashis变压器的多尺度视觉变压器模型,用于胃组织病理学图像分类(GHIC),其使微观胃图像自动分类为异常和正常情况。 GASHIS-COMPURANCER模型由两个关键模块组成:全球信息模块和局部信息模块有效提取组织病理特征。在我们的实验中,具有280个异常和正常图像的公共血毒素和曙红(H&E)染色的胃组织病理学数据集分为训练,验证和测试组,比率为1:1:2胃组织病理学数据集测试组精度,召回,F1分数和准确性分别为98.0%,100.0%,96.0%和98.0%。此外,进行了关键的研究以评估Gashis变压器的稳健性,其中添加了10个不同的噪声,包括四种对抗性攻击和六种传统图像噪声。此外,执行临床上有意义的研究以测试Gashis变压器的胃肠癌鉴定性能,具有620个异常图像,精度达到96.8%。最后,进行比较研究以测试在淋巴瘤图像数据集和乳腺癌数据集上的H&E和免疫组织化学染色图像的概括性,产生可比的F1分数(85.6%和82.8%)和精度(83.9%和89.4%) , 分别。总之,Gashistransformer演示了高分类性能,并在GHIC任务中显示出其显着潜力。
translated by 谷歌翻译
操纵任务,如装载洗碗机,可以被视为不同对象之间的空间约束和关系序列。我们的目标是通过将操纵作为图表构成操作来发现这些规则,其节点代表了对象和目标等任务相关实体,并呈现了从示范中解决此问题的图形神经网络(GNN)策略架构。在我们的实验中,使用20个专家演示的模仿学习(IL)培训的单个GNN策略可以解决块根,重排和洗碗机加载任务;一旦策略了解了空间结构,它就可以概括到更大数量的对象,目标配置,以及从模拟到现实世界。这些实验表明,图形IL可以解决复杂的长地平衡操作问题而不需要详细的任务描述。视频可以找到:https://youtu.be/poxatdaj7ay。
translated by 谷歌翻译
我们介绍了CVSS,这是一种大规模的多语言对语音转换(S2ST)语料库,从21种语言覆盖了21种语言的句子级并行S2ST对。通过将Covost 2从Covost 2的翻译文本综合将翻译文本与最先进的TTS系统合成语音,源自公共语音语音语料库和COVOST 2语音到文本转换(ST)语料库。提供了两个版本的翻译演讲:1)CVSS-C:所有翻译演讲都是一种高质量的规范声音; 2)CVSS-T:翻译语音从相应的源语音传输。此外,CVSS提供标准化的翻译文本,它与翻译语音中的发音匹配。在每个版本的CVSS上,我们建立了基线多语言直接S2ST模型和Cascade S2ST模型,验证了语料库的有效性。为了构建强大的Cascade S2ST基准,我们在Covost 2上培训了St模型,这优于前一种最先进的培训,而无需额外的数据。尽管如此,直接S2ST模型的性能在从头开始训练时接近强级联基线,并且在匹配ST模型中初始化时,仅在ASR转换转换时的0.1或0.7bleu差异。
translated by 谷歌翻译
我们在本文中重新审视语义场景(SSC),是预测3D场景的语义和占用表示的有用任务。此任务的许多方法始终基于用于保存本地场景结构的体蛋白化场景表示。然而,由于存在可见空体素,当网络更深时,这些方法总是遭受重型计算冗余,从而限制完成质量。为了解决这种困境,我们提出了我们为此任务的新型点体素聚集网络。首先,我们通过去除这些可见的空体素来将Voxized场景传输到点云,并采用深点流,以有效地从场景中捕获语义信息。同时,仅包含两个3D卷积层的轻重体素流保留了体蛋白化场景的局部结构。此外,我们设计一个各向异性体素聚合运算符,将结构细节从体素流融合到点流中,并通过语义标签来增强点流中的上采样过程的语义感知传播模块。我们展示了我们的模型在两个基准上超越了最先进的余量,只有深度图像作为输入。
translated by 谷歌翻译