The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
尽管强化学习可以为复杂的任务取得令人印象深刻的结果,但学习的政策通常容易在下游任务中失败,甚至较小的模型不匹配或意外的扰动。最近的工作表明,具有不同行为特征的政策人群可以推广到具有各种差异的下游环境。但是,由于受过训练的政策的不受限制行为,这种政策在部署过程中的部署期间可能会导致灾难性损害。此外,培训不同的策略而不对行为进行调节的策略可能导致不足的政策,以推断出具有动态变化的广泛测试条件。在这项工作中,我们旨在根据行为模式的正规化培训各种政策。我们通过观察环境中的反向动态来激励我们的范式,并提出了通过调节行为进行调节的多样性(DIR)培训各种政策,以发现受益的概括的所需模式。对不同环境的各种变化的大量经验结果表明,我们的方法比其他多样性驱动的对应物取得了改进。
translated by 谷歌翻译
培训强大的政策对于现实世界中的政策部署至关重要,或者处理不同动态系统中未知动态不匹配。域随机化〜(DR)是一种简单而优雅的方法,可以训练保守的政策,以反对不同的动态系统,而无需有关目标系统参数的专家知识。但是,现有的作品表明,通过DR培训的政策往往保守过度保守,并且在目标领域的表现差。我们的关键见解是,具有不同参数的动态系统为策略提供了不同级别的难度,并且由于策略的发展,在系统中表现良好的难度正在不断变化。如果我们可以为该政策进行适当的困难来积极地对系统进行采样,它将稳定培训过程,并防止政策变得过于保守或过度优势。为了实现这一想法,我们引入了主动动力学偏好(ADP),从而量化了采样系统参数的信息性和密度。 ADP积极选择具有高信息性和低密度的系统参数。我们在四个机器人运动任务中验证我们的方法,并在训练环境和测试环境之间存在各种差异。广泛的结果表明,与几个基线相比,我们的方法对系统不一致具有较高的鲁棒性。
translated by 谷歌翻译
尽管条件变异自动编码器(CVAE)模型比传统的SEQ2SEQ模型可以产生更多的多样化响应,但响应通常与输入词的相关性低或与问题不合逻辑。进行因果分析以研究背后的原因,并提供了一种寻找调解人并减轻对话中混杂偏见的方法。具体而言,我们建议预测调解人,以保留相关信息,并自动将调解人纳入生成过程中。此外,动态主题图指导条件变异自动编码器(TGG-CVAE)模型用于补充语义空间并减少响应中的混杂偏置。广泛的实验表明,所提出的模型能够产生相关和信息性的响应,并且在自动指标和人类评估方面优于最先进的响应。
translated by 谷歌翻译
模型不匹配在现实世界应用中占上风。因此,为具有不确定动态模型的系统设计可靠的安全控制算法很重要。主要的挑战是,不确定性导致难以实时寻找可行的安全控制。现有方法通常简化了问题,例如限制不确定性类型,忽略控制限制或放弃可行性保证。在这项工作中,我们通过为有限国家依赖性的不确定性提出一个强大的安全控制框架来克服这些问题。我们首先通过学习控制控制限制,不确定的安全性索引来保证安全控制不确定动态的可行性。然后,我们证明可以将稳健的安全控制作为凸问题(凸度半侵入编程或二阶锥编程)配制,并提出可以实时运行的相应最佳求解器。此外,我们分析了在未建模的不确定性下何时以及如何保留安全性。实验结果表明,我们的方法成功地发现了针对不同的不确定性实时的可靠安全控制,并且比强大的基线算法要保守得多。
translated by 谷歌翻译
神经文本排名模型已经见证了显着的进步,并越来越多地在实践中部署。不幸的是,它们还继承了一般神经模型的对抗性脆弱性,这些神经模型已被检测到,但仍未被先前的研究所忽视。此外,Blackhat SEO可能会利用继承的对抗性漏洞来击败受保护的搜索引擎。在这项研究中,我们提出了对黑盒神经通道排名模型的模仿对抗攻击。我们首先表明,可以通过列举关键查询/候选者,然后训练排名模仿模型来透明和模仿目标段落排名模型。利用排名模仿模型,我们可以精心操纵排名结果并将操纵攻击转移到目标排名模型。为此,我们提出了一种由成对目标函数授权的基于创新的基于梯度的攻击方法,以产生对抗性触发器,该触发器会导致有预谋的混乱,而具有很少的令牌。为了配备触发器的伪装,我们将下一个句子预测损失和语言模型流利度限制添加到目标函数中。对通过排名的实验结果证明了对各种SOTA神经排名模型的排名模仿攻击模型和对抗触发器的有效性。此外,各种缓解分析和人类评估表明,在面对潜在的缓解方法时,伪装的有效性。为了激励其他学者进一步研究这一新颖和重要的问题,我们将实验数据和代码公开可用。
translated by 谷歌翻译
这项工作提出了下一代人类机器人界面,只能通过视觉来推断和实现用户的操纵意图。具体而言,我们开发了一个集成了近眼跟踪和机器人操作的系统,以实现用户指定的操作(例如,抓取,拾取和位置等),在其中将视觉信息与人类的注意合并在一起,以创建为所需的映射机器人动作。为了实现视力指导的操纵,开发了一个头部安装的近眼跟踪设备,以实时跟踪眼球运动,以便可以确定用户的视觉注意力。为了提高抓地力性能,然后开发出基于变压器的GRASP模型。堆叠的变压器块用于提取层次特征,其中在每个阶段扩展了通道的体积,同时挤压了特征地图的分辨率。实验验证表明,眼球跟踪系统产生低的凝视估计误差,抓地力系统在多个握把数据集上产生有希望的结果。这项工作是基于凝视互动的辅助机器人的概念证明,该机器人具有巨大的希望,可以帮助老年人或上肢残疾在日常生活中。可在\ url {https://www.youtube.com/watch?v=yuz1hukyurm}上获得演示视频。
translated by 谷歌翻译
我们提出了Memprop,即采用基于梯度的学习来培训完全的申请尖峰神经网络(MSNNS)。我们的方法利用固有的设备动力学来触发自然产生的电压尖峰。这些由回忆动力学发出的尖峰本质上是类似物,因此完全可区分,这消除了尖峰神经网络(SNN)文献中普遍存在的替代梯度方法的需求。回忆性神经网络通常将备忘录集成为映射离线培训网络的突触,或者以其他方式依靠关联学习机制来训练候选神经元的网络。相反,我们直接在循环神经元和突触的模拟香料模型上应用了通过时间(BPTT)训练算法的反向传播。我们的实现是完全的综合性,因为突触重量和尖峰神经元都集成在电阻RAM(RRAM)阵列上,而无需其他电路来实现尖峰动态,例如模数转换器(ADCS)或阈值比较器。结果,高阶电物理效应被充分利用,以在运行时使用磁性神经元的状态驱动动力学。通过朝着非同一梯度的学习迈进,我们在以前报道的几个基准上的轻巧密集的完全MSNN中获得了高度竞争的准确性。
translated by 谷歌翻译
语音识别的RNN-TransDucer(RNN-T)框架一直在越来越受欢迎,尤其是用于实时部署的ASR系统,因为它将高精度与自然流识别结合在一起。RNN-T的缺点之一是其损耗函数相对较慢,并且可以使用大量内存。在词汇大小较大的情况下,使用RNN-T损失的过多GPU记忆使用可能会使使用RNN-T损失是不切实际的:例如,对于基于中文的ASR而言。我们介绍了一种方法,用于更快,更快的记忆效率RNN-T损失计算。我们首先使用在编码器和解码器嵌入式中线性的简单木器网络获得RNN-T递归的修剪边界;我们可以在不使用很多内存的情况下对此进行评估。然后,我们使用那些修剪界限来评估完整的非线性木匠网络。
translated by 谷歌翻译
Fisheye镜头由于其广泛的视野(FOV)而增加了计算摄影和辅助驾驶的应用。但是,鱼眼图像通常包含其成像模型引起的无效黑色区域。在本文中,我们提出了一种鱼眼方法,该方法通过超越无效的地区来扩展鱼眼镜头的FOV,从而改善了被捕获的场景的完整性。与矩形和未发生的图像相比,Fisheye图像支出面临两个挑战:不规则的绘画区域和失真合成。在观察鱼眼图像的径向对称性时,我们首先提出了一种极地支出策略,以推断从中心到外部区域的相干语义。这样的支出方式考虑了径向失真和圆边界的分布模式,从而提高了更合理的完成方向。对于失真合成,我们提出了一个螺旋失真感知的感知模块,其中学习路径与Fisheye图像的扭曲保持一致。随后,场景修订模块将生成的像素与估计的失真重新安排以匹配鱼眼图像,从而扩展了FOV。在实验中,我们在三个受欢迎的户外数据集上评估了拟议的fisheeex:CityScapes,BDD100K和Kitti和一个真实世界的Fisheye Image DataSet。结果表明,我们的方法显着优于最先进的方法,超出原始鱼眼图像的内容多约27%。
translated by 谷歌翻译