Predicting personality traits based on online posts has emerged as an important task in many fields such as social network analysis. One of the challenges of this task is assembling information from various posts into an overall profile for each user. While many previous solutions simply concatenate the posts into a long document and then encode the document by sequential or hierarchical models, they introduce unwarranted orders for the posts, which may mislead the models. In this paper, we propose a dynamic deep graph convolutional network (D-DGCN) to overcome the above limitation. Specifically, we design a learn-to-connect approach that adopts a dynamic multi-hop structure instead of a deterministic structure, and combine it with a DGCN module to automatically learn the connections between posts. The modules of post encoder, learn-to-connect, and DGCN are jointly trained in an end-to-end manner. Experimental results on the Kaggle and Pandora datasets show the superior performance of D-DGCN to state-of-the-art baselines. Our code is available at https://github.com/djz233/D-DGCN.
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
随着自我监督学习的快速发展(例如,对比度学习),在医学图像分析中广泛认识到具有大规模图像(即使没有注释)来训练更具概括的AI模型的重要性。但是,大规模收集大规模任务的未注释数据对于单个实验室来说可能具有挑战性。现有的在线资源(例如数字书籍,出版物和搜索引擎)为获取大型图像提供了新的资源。然而,在医疗保健中发布的图像(例如放射学和病理学)由大量的带有子图的复合图组成。为了提取和分离化合物形象为下游学习的可用单个图像,我们提出了一个简单的复合图分离(SIMCFS)框架,而无需使用传统所需的检测边界框注释,并具有新的损失函数和硬案例模拟。我们的技术贡献是四倍:(1)我们引入了一个基于模拟的培训框架,该框架最小化了对资源广泛的边界框注释的需求; (2)我们提出了一种新的侧损失,可针对复合人物分离进行优化; (3)我们提出了一种阶层内图像增强方法来模拟硬病例; (4)据我们所知,这是第一项评估利用复合图像分离的自我监督学习功效的研究。从结果来看,提出的SIMCF在ImageClef 2016复合人物分离数据库上实现了最先进的性能。使用大规模开采数字的预审预革的学习模型通过对比度学习算法提高了下游图像分类任务的准确性。 SIMCF的源代码可在https://github.com/hrlblab/imageseperation上公开获得。
translated by 谷歌翻译
在图像之间生成健壮和可靠的对应关系是多种应用程序的基本任务。为了在全球和局部粒度上捕获上下文,我们提出了Aspanformer,这是一种基于变压器的无探测器匹配器,建立在层次的注意力结构上,采用了一种新颖的注意操作,能够以自适应方式调整注意力跨度。为了实现这一目标,首先,在每个跨注意阶段都会回归流图,以定位搜索区域的中心。接下来,在中心周围生成一个采样网格,其大小不是根据固定的经验配置为固定的,而是根据与流图一起估计的像素不确定性的自适应计算。最后,在派生区域内的两个图像上计算注意力,称为注意跨度。通过这些方式,我们不仅能够维持长期依赖性,而且能够在高相关性的像素之间获得细粒度的注意,从而补偿基本位置和匹配任务中的零件平滑度。在广泛的评估基准上的最新准确性验证了我们方法的强匹配能力。
translated by 谷歌翻译
变压器的注意机制有效地从输入序列中提取相关信息。然而,自我注意力的二次复杂性W.R.T序列长度会产生沉重的计算和记忆负担,尤其是对于长序列的任务。现有的加速器在这些任务中面临性能退化。为此,我们建议Salo为长序列提供杂交稀疏注意机制。Salo包含一个数据调度程序,将混合稀疏注意模式映射到硬件和空间加速器上,以执行有效的注意力计算。我们表明,与GPU和CPU实施相比,Salo平均达到17.66 X和89.33倍的速度,即典型的工作负载,即Longformer和VIL。
translated by 谷歌翻译
由于物体的异质尺度,肾脏病理图像的全面语义分割具有挑战性。例如,在整个幻灯片图像(WSI)上,肾小球的横截面区域的距离可能比周围毛细管的64倍,这使得以相同尺度上的同一贴片对两个对象进行分割是不切实际的。为了解决这个缩放问题,先前的研究通常已经训练了多个分割网络,以匹配异质组织类型的最佳像素分辨率。这种多网络解决方案是资源密集型的,无法对组织类型之间的空间关系进行建模。在本文中,我们提出了Omni-Seg+网络,这是一种通过单个神经网络实现多对象(六种组织类型)和多尺度(5倍至40倍尺度)的多尺度(5倍至40倍尺度)的动态神经网络。本文的贡献是三个方面的:(1)提出了一种新型的量表感知控制器,以将动态神经网络从单尺度到多尺度推广; (2)引入了伪标签的半监督一致性正规化,以建模未经注释的组织类型的尺度相关性成单个端到端的学习范式; (3)直接将在人类肾脏图像训练的模型中直接应用于小鼠肾脏图像,而无需再培训,就可以证明高尺度感知的概括。通过从三种不同分辨率下从六种组织类型中学习的约150,000个人类病理图像斑块,我们的方法根据人类的视觉评估和图像词的评估(即空间转录组学)获得了卓越的分割性能。官方实施可在https://github.com/ddrrnn123/omni-seg上获得。
translated by 谷歌翻译
神经隐式功能最近显示了来自多个视图的表面重建的有希望的结果。但是,当重建无限或复杂的场景时,当前的方法仍然遭受过度复杂性和稳健性不佳。在本文中,我们介绍了RegSDF,这表明适当的点云监督和几何正规化足以产生高质量和健壮的重建结果。具体而言,RegSDF将额外的定向点云作为输入,并优化了可区分渲染框架内的签名距离字段和表面灯场。我们还介绍了这两个关键的正规化。第一个是在给定嘈杂和不完整输入的整个距离字段中平稳扩散签名距离值的Hessian正则化。第二个是最小的表面正则化,可紧凑并推断缺失的几何形状。大量实验是在DTU,BlendenDMV以及储罐和寺庙数据集上进行的。与最近的神经表面重建方法相比,RegSDF即使对于具有复杂拓扑和非结构化摄像头轨迹的开放场景,RegSDF也能够重建表面。
translated by 谷歌翻译
测量不同文本的语义相似性在数字人文研究中具有许多重要应用,例如信息检索,文档聚类和文本摘要。不同方法的性能取决于文本,域和语言的长度。本研究侧重于试验一些目前的芬兰方法,这是一种形态学丰富的语言。与此同时,我们提出了一种简单的方法TFW2V,它在处理长文本文档和有限的数据时显示出高效率。此外,我们设计了一种客观评估方法,可以用作基准标记文本相似性方法的框架。
translated by 谷歌翻译
具有长飞行阶段的高度敏捷杂技动作需要完美的时机,高精度,以及整个身体运动的协调。为了解决这些挑战,本文提出了一个统一的时序和轨迹优化框架,可用于执行激进的3D跳跃的腿机器人。在我们的方法中,我们首先利用了有效的优化框架,使用简化的刚体动力学来解决机器人身体的接触时间和参考轨迹。然后使用该模块的解决方案基于机器人的全部非线性动力学制定全身轨迹优化。这种组合允许我们有效地优化接触定时,同时保证可以在硬件中实现的跳跃轨迹的准确性。我们在A1机器人模型上验证了所提出的框架,以获得各种3D跳跃任务,如双后跳和双桶分别从2M和0.8米的高海拔滚动。对于不同的3D跳跃动作,还成功地进行了实验验证,例如来自盒子或对角线跳转的桶卷。
translated by 谷歌翻译
先进的体积成像方法和遗传编码的活性指标已允许在\ textit {caenorhabditis elegans}中对全脑活性进行全面表征。然而,线虫神经系统的恒定运动和变形对行为动物中的密集填充神经元的一致构成了巨大的挑战。在这里,我们提出了一种级联解决方案,用于在自由移动的\ textit {c中长期和快速识别头发神经节神经元。秀丽隐杆线}。首先,通过深度学习算法检测到来自荧光图像的潜在神经元区。第二,二维神经元区域被融合到三维神经元实体中。第三,通过利用神经元和神经元之间的相对位置信息的神经元密度分布,多级人工神经网络将工程的神经元向量转化为数字神经元身份。有了少量的培训样品,我们的自下而上的方法能够处理每一卷 - $ 1024 \ times 1024 \ times 18 $ in Voxels-少于1秒钟,并获得了$ 91 \%\%$ $ $ 91 \%的神经元检测及以上的准确性$ 80 \%$ in Neuronal跟踪在长时间的视频录制中。我们的工作代表了迈向快速和完全自动化算法的一步,用于解码自然主义行为的全部大脑活动。
translated by 谷歌翻译