The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
Node classification for graph-structured data aims to classify nodes whose labels are unknown. While studies on static graphs are prevalent, few studies have focused on dynamic graph node classification. Node classification on dynamic graphs is challenging for two reasons. First, the model needs to capture both structural and temporal information, particularly on dynamic graphs with a long history and require large receptive fields. Second, model scalability becomes a significant concern as the size of the dynamic graph increases. To address these problems, we propose the Time Augmented Dynamic Graph Neural Network (TADGNN) framework. TADGNN consists of two modules: 1) a time augmentation module that captures the temporal evolution of nodes across time structurally, creating a time-augmented spatio-temporal graph, and 2) an information propagation module that learns the dynamic representations for each node across time using the constructed time-augmented graph. We perform node classification experiments on four dynamic graph benchmarks. Experimental results demonstrate that TADGNN framework outperforms several static and dynamic state-of-the-art (SOTA) GNN models while demonstrating superior scalability. We also conduct theoretical and empirical analyses to validate the efficiency of the proposed method. Our code is available at https://sites.google.com/view/tadgnn.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
寻找特定任务说明的YouTube用户可能会花费很长时间浏览内容,以寻找与他们需求相匹配的正确视频。创建视觉摘要(视频的删节版本)为观众提供了快速概述,并大大减少了搜索时间。在这项工作中,我们专注于总结教学视频,这​​是视频摘要的探索领域。与通用视频相比,可以将教学视频解析为语义上有意义的细分,这些细分与所示任务的重要步骤相对应。现有的视频摘要数据集依靠手动框架级注释,使其主观且大小有限。为了克服这一点,我们首先通过利用两个关键假设来自动为教学视频语料库生成伪摘要:(i)相关步骤可能会出现在相同任务(任务相关性)的多个视频中,并且(ii)它们更重要。可能由示威者口头描述(跨模式显着)。我们提出了一个教学视频摘要网络,该网络结合了上下文感知的时间视频编码器和段评分变压器。使用伪摘要作为弱监督,我们的网络为仅给出视频和转录语音的教学视频构建了视觉摘要。为了评估我们的模型,我们通过刮擦包含视频演示的Wikihow文章和步骤的视觉描绘,从而收集了高质量的测试集,即Wikihow摘要,从而使我们能够获得地面真实性摘要。我们的表现优于几个基线和这个新基准的最先进的视频摘要模型。
translated by 谷歌翻译
在心理实验期间,使用选择反应时间数据观察人类决策行为。该数据的漂移扩散模型由维纳(Wiener)的第一邮箱时间(WFPT)分布组成,并通过认知参数描述:漂移速率,边界分离和起点。这些估计的参数是神经科学家的感兴趣,因为它们可以映射到决策过程的特征(例如速度,谨慎和偏见),并且与大脑活动有关。观察到的RT模式还反映了从神经动力学介导的试验到试验的认知过程的可变性。我们调整了基于SINCNET的浅神经网络体系结构,以使用每项实验试验中的EEG信号符合漂移扩散模型。该模型由SINCNET层,深度空间卷积层和两个单独的FC层组成,可预测每个试验的漂移速率和边界。 SINCNET层参数化了内核,以直接学习应用于脑电图数据以预测漂移和边界参数的带通滤波器的低和高截止频率。在训练过程中,通过最大程度地降低给定试验RT的WFPT分布的负模可能性函数来更新模型参数。我们为执行两项强制选择任务的每个参与者开发了单独的决策SINCNET模型。我们的结果表明,与训练和测试数据集中的中位数估计相比,漂移和边界的单试估计在预测RT方面的性能更好,这表明我们的模型可以成功地使用EEG特征来估计有意义的单试扩散模型参数。此外,浅层SINCNET体系结构确定了与证据积累和谨慎相关的信息处理的时间窗口以及反映每个参与者中这些过程的EEG频段。
translated by 谷歌翻译
快速移动受试者的运动模糊是摄影中的一个长期问题,由于收集效率有限,尤其是在弱光条件下,在手机上非常常见。尽管近年来我们目睹了图像脱毛的巨大进展,但大多数方法都需要显着的计算能力,并且在处理高分辨率照片的情况下具有严重的局部动作。为此,我们根据手机的双摄像头融合技术开发了一种新颖的面部脱毛系统。该系统检测到主题运动以动态启用参考摄像头,例如,最近在高级手机上通常可用的Ultrawide Angle摄像机,并捕获带有更快快门设置的辅助照片。虽然主镜头是低噪音但模糊的,但参考镜头却很锋利,但嘈杂。我们学习ML模型,以对齐和融合这两张镜头,并在没有运动模糊的情况下输出清晰的照片。我们的算法在Google Pixel 6上有效运行,每次拍摄需要463毫秒的开销。我们的实验证明了系统对替代单片,多帧,面部特异性和视频脱张算法以及商业产品的优势和鲁棒性。据我们所知,我们的工作是第一个用于面部运动脱毛的移动解决方案,在各种运动和照明条件下,在数千个图像中可靠地工作。
translated by 谷歌翻译
近年来,3D视觉的自我监督预训练引起了研究的兴趣。为了学习信息的表示,许多以前的作品都利用了3D功能的不向导,\ eg,同一场景的视图之间的透视感,深度和RGB图像之间的模态侵权次数,点云和voxels之间的格式不变。尽管他们取得了令人鼓舞的结果,但以前的研究缺乏对这些不稳定的系统性比较。为了解决这个问题,我们的工作首次引入了一个统一的框架,根据该框架可以研究各种预培训方法。我们进行了广泛的实验,并仔细研究了3D预训练中不同不变的贡献。另外,我们提出了一种简单但有效的方法,该方法可以共同预先培训3D编码器和使用对比度学习的深度图编码器。通过我们的方法进行预训练的模型在下游任务方面具有显着的性能提高。例如,预先训练的投票表现优于Sun RGB-D和扫描对象检测基准的先前方法,并具有明显的利润。
translated by 谷歌翻译
子图GNNS是最近表达的图形神经网络(GNN)的一类,它们将图形图形为子图的集合。到目前为止,可能的子图GNN体系结构的设计空间及其基本理论属性仍然在很大程度上尚未探索。在本文中,我们研究了子图方法的最突出形式,该方法采用了基于节点的子图选择策略,例如自我网络或节点标记和删除。我们解决了两个中心问题:(1)这些方法的表达能力的上限是什么? (2)在这些子图集上传递层的模棱两可的消息家族是什么?我们回答这些问题的第一步是一种新颖的对称分析,该分析表明,建模基于节点的子图集的对称性需要比以前的作品中所采用的对称组明显小。然后,该分析用于建立子图GNN和不变图网络(IGNS)之间的联系。我们通过首先通过3-WL来界定子图方法的表达能力,然后提出一个通用子图方法的一般家族,以将所有先前基于节点的子图GNN泛化。最后,我们设计了一个新颖的子图Gnn称为Sun,从理论上讲,该子gnn统一了以前的体系结构,同时在多个基准上提供了更好的经验性能。
translated by 谷歌翻译
与靶蛋白具有高结合亲和力的药物样分子的产生仍然是药物发现中的一项困难和资源密集型任务。现有的方法主要采用强化学习,马尔可夫采样或以高斯过程为指导的深层生成模型,在生成具有高结合亲和力的分子时,通过基于计算量的物理学方法计算出的高结合亲和力。我们提出了对分子(豪华轿车)的潜在构成主义,它通过类似于Inceptionism的技术显着加速了分子的产生。豪华轿车采用序列的两个神经网络采用变异自动编码器生成的潜在空间和性质预测,从而使基于梯度的分子特性更快地基于梯度的反相比。综合实验表明,豪华轿车在基准任务上具有竞争力,并且在产生具有高结合亲和力的类似药物的化合物的新任务上,其最先进的技术表现出了最先进的技术,可针对两个蛋白质靶标达到纳摩尔范围。我们通过对绝对结合能的基于更准确的基于分子动力学的计算来证实这些基于对接的结果,并表明我们生成的类似药物的化合物之一的预测$ k_d $(结合亲和力的量度)为$ 6 \ cdot 10^ {-14} $ m针对人类雌激素受体,远远超出了典型的早期药物候选物和大多数FDA批准的药物的亲和力。代码可从https://github.com/rose-stl-lab/limo获得。
translated by 谷歌翻译
培训细节和数据集对于筏等最新的光流模型有多重要?它们会概括吗?为了探索这些问题,而不是开发新的模型,我们将重新访问三个突出的模型,即PWC-NET,IRR-PWC和RAFT,并采用一组常见的现代培训技术和数据集,并观察到显着的性能增长,证明了重要性和普遍性这些培训细节。我们新训练的PWC-NET和IRR-PWC模型显示出惊人的改进,与Sintel和Kitti 2015 Benchmarks相比,最高30%的结果与原始发布的结果相比。他们的表现胜过2015年Kitti的最新流程1D,而推断过程中的速度快3倍。我们新训练的筏子在2015年的Kitti上获得了4.31%的成绩,比写作时所有已发表的光流方法更准确。我们的结果表明,分析光流方法的性能提高时,分离模型,训练技术和数据集的贡献的好处。我们的源代码将公开可用。
translated by 谷歌翻译