State-of-the-art named entity recognition systems rely heavily on hand-crafted features and domain-specific knowledge in order to learn effectively from the small, supervised training corpora that are available. In this paper, we introduce two new neural architectures-one based on bidirectional LSTMs and conditional random fields, and the other that constructs and labels segments using a transition-based approach inspired by shift-reduce parsers. Our models rely on two sources of information about words: character-based word representations learned from the supervised corpus and unsupervised word representations learned from unannotated corpora. Our models obtain state-of-the-art performance in NER in four languages without resorting to any language-specific knowledge or resources such as gazetteers. 1
translated by 谷歌翻译
Target Propagation (TP) is a biologically more plausible algorithm than the error backpropagation (BP) to train deep networks, and improving practicality of TP is an open issue. TP methods require the feedforward and feedback networks to form layer-wise autoencoders for propagating the target values generated at the output layer. However, this causes certain drawbacks; e.g., careful hyperparameter tuning is required to synchronize the feedforward and feedback training, and frequent updates of the feedback path are usually required than that of the feedforward path. Learning of the feedforward and feedback networks is sufficient to make TP methods capable of training, but is having these layer-wise autoencoders a necessary condition for TP to work? We answer this question by presenting Fixed-Weight Difference Target Propagation (FW-DTP) that keeps the feedback weights constant during training. We confirmed that this simple method, which naturally resolves the abovementioned problems of TP, can still deliver informative target values to hidden layers for a given task; indeed, FW-DTP consistently achieves higher test performance than a baseline, the Difference Target Propagation (DTP), on four classification datasets. We also present a novel propagation architecture that explains the exact form of the feedback function of DTP to analyze FW-DTP.
translated by 谷歌翻译
Deep Metric Learning (DML) is a prominent field in machine learning with extensive practical applications that concentrate on learning visual similarities. It is known that inputs such as Adversarial Examples (AXs), which follow a distribution different from that of clean data, result in false predictions from DML systems. This paper proposes MDProp, a framework to simultaneously improve the performance of DML models on clean data and inputs following multiple distributions. MDProp utilizes multi-distribution data through an AX generation process while leveraging disentangled learning through multiple batch normalization layers during the training of a DML model. MDProp is the first to generate feature space multi-targeted AXs to perform targeted regularization on the training model's denser embedding space regions, resulting in improved embedding space densities contributing to the improved generalization in the trained models. From a comprehensive experimental analysis, we show that MDProp results in up to 2.95% increased clean data Recall@1 scores and up to 2.12 times increased robustness against different input distributions compared to the conventional methods.
translated by 谷歌翻译
自动故障检测是许多运动的主要挑战。在比赛中,裁判根据规则在视觉上判断缺点。因此,在判断时确保客观性和公平性很重要。为了解决这个问题,一些研究试图使用传感器和机器学习来自动检测故障。但是,与传感器的附件和设备(例如高速摄像头)相关的问题,这些问题与裁判的视觉判断以及故障检测模型的可解释性相抵触。在这项研究中,我们提出了一个用于非接触测量的断层检测系统。我们使用了根据多个合格裁判的判断进行训练的姿势估计和机器学习模型,以实现公平的错误判断。我们使用智能手机视频在包括东京奥运会的奖牌获得者中,使用了正常比赛的智能手机视频,并有意地走路。验证结果表明,所提出的系统的平均准确度超过90%。我们还透露,机器学习模型根据种族步行规则检测到故障。此外,奖牌获得者的故意故障步行运动与大学步行者不同。这一发现符合更通用的故障检测模型的实现。该代码和数据可在https://github.com/szucchini/racewalk-aijudge上获得。
translated by 谷歌翻译
联合学习是一种机器学习方法,其中未在服务器上汇总数据,而是根据安全性和隐私性分配给边缘。 Resnet是一个经典但代表性的神经网络,通过学习将输入和输出加在一起的残留功能,成功地加深了神经网络。在联合学习中,服务器和边缘设备之间执行交流以交换权重参数,但是Resnet具有深层和大量参数,因此通信大小变得很大。在本文中,我们将神经颂歌用作重新设计的轻量级模型,以减少联合学习中的沟通规模。此外,我们使用具有不同数量的迭代的神经ODE模型新引入了灵活的联合学习,这与具有不同深度的重新连接相对应。 CIFAR-10数据集用于评估中,与RESNET相比,神经ODE的使用将通信大小降低了约90%。我们还表明,提出的灵活联合学习可以与不同的迭代计数合并模型。
translated by 谷歌翻译
关于车辆路径预测的推理是自动驾驶系统安全运行的必不可少的问题。有许多用于路径预测的研究工作。但是,其中大多数不使用车道信息,也不基于变压器体系结构。通过利用从配备自动驾驶车辆的传感器收集的不同类型的数据,我们提出了一个名为多模式变压器路径预测(MTPP)的路径预测系统,该系统旨在预测目标试剂的长期未来轨迹。为了实现更准确的路径预测,在我们的模型中采用了变压器体系结构。为了更好地利用车道信息,目标试剂不太可能采用与目标试剂相反的车道,因此被过滤掉。另外,将连续的车道块组合在一起,以确保车道输入足够长以进行路径预测。进行了广泛的评估,以显示使用Nuscene(现实世界中的轨迹预测数据集)的拟议系统的功效。
translated by 谷歌翻译
经过深入的研究,最低限度的损失景观的局部形状,尤其是平坦度对于深层模型的概括起重要作用。我们开发了一种称为POF的培训算法:特征提取器的训练后培训,该培训更新了已经训练的深层模型的特征提取器部分,以搜索最小的最小值。特征是两倍:1)特征提取器在高层参数空间中的参数扰动下受到训练,基于表明使更高层参数空间变平的观测值,以及2)扰动范围以数据驱动的方式确定旨在减少由正损失曲率引起的一部分测试损失。我们提供了理论分析,该分析表明所提出的算法隐含地减少了目标Hessian组件以及损失。实验结果表明,POF仅针对CIFAR-10和CIFAR-100数据集的基线方法提高了模型性能,仅用于10个上学后培训,以及用于50个上学后培训的SVHN数据集。源代码可用:\ url {https://github.com/densoitlab/pof-v1
translated by 谷歌翻译
这项工作旨在将有效性考虑到有关是否以及如何在高风险域中构建数据驱动算法的审议。为此,我们将关键概念从有效性理论转化为预测算法。我们描述了问题制定和数据问题中的共同挑战,这些问题危害了预测算法的有效性。我们将这些问题提炼成一系列高级问题,旨在促进和记录有关预测任务和数据适用性的合法性的思考。这项贡献为共同设计有效性协议的基础与现实世界中的利益相关者合作,包括决策者,建模者和潜在影响社区的成员,以严格评估数据驱动的算法的特定设计的合理性和使用系统。
translated by 谷歌翻译
生物系统对形态损害非常强大,但人工系统(机器人)目前却不是。在本文中,我们介绍了一个基于神经细胞自动机的系统,其中运动机器人的进化,然后赋予能够通过基于梯度的训练从损害中再生其形态。因此,我们的方法结合了进化的好处,可以发现各种不同的机器人形态,以及通过可区别的更新规则对鲁棒性的监督培训的效率。所得的神经细胞自动机能够生长能够恢复超过80 \%功能的虚拟机器人,即使经过严重的形态损害。
translated by 谷歌翻译
评估足球运动员队友的个人运动对于评估队伍,侦察和粉丝的参与至关重要。据说,在90分钟的比赛中,球员平均没有大约87分钟的球。但是,在不接球的情况下评估进攻球员并揭示运动如何为队友创造得分机会的贡献一直很困难。在本文中,我们评估了通过将实际动作与通过轨迹预测产生的参考运动进行比较来评估创建球外评分机会的玩家。首先,我们使用图形差异神经网络预测玩家的轨迹,该神经网络可以准确地模拟玩家之间的关系并预测长期轨迹。接下来,基于实际运动轨迹和预测轨迹之间修改的外球评估指数的差异,我们评估实际运动与预测运动相比如何促进得分机会。为了进行验证,我们研究了专家一年中专业球队的所有比赛的年薪,目标和比赛的关系。结果表明,年薪和拟议的指标与现有指标和目标无法解释。我们的结果表明,该方法作为没有球的球员为队友创造得分机会的指标的有效性。
translated by 谷歌翻译