我们旨在使用医学术语来增强临床名称 - 实体识别(NER)的监督模型的性能。为了用法语评估我们的系统,我们为5种类型的临床建立了一个语料库。我们使用基于术语的系统作为基线,基于UMLS和SNOMED。然后,我们评估了biGRU-CRF,以及使用基于术语的系统的预测作为biGRU-CRF的特征的混合系统。在InEnglish中,我们评估了i2b2-2009药物名称识别药物挑战中的NER系统,其中包含8,573个实体,用于268个文档。在法国,我们建立了APcNER,这是一份包含5个实体(药物名称,标志或症状,疾病或病症,诊断程序或实验室测试和治疗程序)的147个文件的语料库。我们使用针对NER的F-measure的精确和部分匹配定义来评估每个NER系统。 APcNER包含4,837个实体,需要28个小时进行注释,注释器间协议对于完全匹配的药物名称(85%)是可接受的,并且对于非完全匹配的其他实体类型(> 70%)是可接受的。对于i2b2-2009和APcNER的药物名称识别,biGRU-CRF比基于术语的系统表现更好,精确匹配F-测量值分别为91.1%和73%以及81.9%和75%。此外,混合系统的表现优于biGRU-CRF,其非对称F-测量值为92.2%,而91.1%(i2b2-2009)和88.4%对比81.9%(APcNER)。在APcNER语料库中,5个实体上混合系统的微观平均F-度量在精确匹配中为69.5%,在非精确匹配中为84.1%。 APcNER是一个法语语料库,用于五种实体的临床NER,涵盖各种各样的文档类型。扩展监督模型,使用术语轻松获得,特别是在低实体制度中,以及在i2b2-2009语料库中建立的最先进的结果。
translated by 谷歌翻译
机器学习正在从艺术和科学转变为可供每个开发人员使用的技术。在不久的将来,每个平台上的每个应用程序都将包含训练有素的模型,以编码开发人员无法创作的基于数据的决策。这提出了一个重要的工程挑战,因为目前数据科学和建模在很大程度上与标准软件开发过程脱钩。这种分离使得在应用程序内部的机器学习能力不必要地变得困难,并且进一步阻碍了开发人员将MLin置于首位。在本文中,我们介绍了ML .NET,这是一个在过去十年中在Microsoft开发的框架,用于应对在大型软件应用程序中轻松发布机器学习模型的挑战。我们提出了它的架构,并阐明了形成它的应用程序需求。具体而言,我们引入了DataView,它是ML .NET的核心数据抽象,它可以有效地,一致地捕获完整的预测管道,并在训练和推理生命周期中进行。我们结束了论文,对ML .NET进行了令人惊讶的有利的性能研究,与更多的接受者相比,并讨论了一些经验教训。
translated by 谷歌翻译
虽然人类分析领域的许多个人任务最近都接受了深度学习方法的准确性提升,但由于缺乏数据,多任务学习大多被忽略。正在发布新的合成数据集,用合成生成的数据填补这一空白。在这项工作中,通过利用这些数据集,在多任务场景中分析静态图像中的四个相关人工分析任务。具体来说,我们研究了2D / 3D姿态估计,身体部位分割和全身深度估计的相关性。这些任务是通过众所周知的Stacked Hourglass模块学习的,因此任务特定流的数据与其他流共享信息。 maingoal将分析如何共同训练这四个相关任务可以有利于个人任务,以实现更好的概括。新发布的SUREAL数据集上的结果显示,所有四个任务都受益于多任务方法,但具有不同的任务组合:虽然组合所有四个任务最大程度地提高了2D姿态估计,但2D姿势改善了3D姿态和全身深度估计。另一方面,2D零件分割可以受益于2D姿势,但不受益于3D姿势。在所有情况下,正如预期的那样,在那些显示出空间分布,外观和形状的更多可变性的人体部位上实现了最大的改进。手腕和脚踝。
translated by 谷歌翻译
鱼眼摄像机通常用于获得大视场监视,增强现实以及特别是汽车应用。尽管普遍存在,但很少有公共数据集用于详细评估鱼眼图像上的计算机视觉算法。我们发布了第一个广泛的鱼眼汽车数据集WoodScape,它以1906年发明了鱼眼摄像机的罗伯特·伍德的名字命名.WoodScape包括四个环视摄像机和一些任务,包括分割,深度估计,3D边界框检测和污染检测。实例级别的40个类的语义标注为10,000多个图像提供,并为超过100,000个图像提供其他任务的注释。我们希望鼓励社区适应鱼眼摄像机的计算机视觉模型,而不是天真的整改。
translated by 谷歌翻译
我们提出了GraphTSNE,一种基于t-SNE的图形结构数据的新型可视化技术。对图形结构数据越来越感兴趣,增加了通过可视化获得人类对这些数据集的洞察力的重要性。然而,在最流行的可视化技术中,经典t-SNE不适用于此类数据集,因为它没有机制来使用来自图形连接的信息。另一方面,标准图可视化技术,例如拉普拉斯算子特征图,没有机制来利用来自节点特征的信息。我们提出的方法GraphTSNE可以产生可视化,其可以解释图形连接和节点特征。它基于对改进的t-SNE损失的图形卷积网络的可扩展和无监督训练。通过汇总一套评估指标,我们证明了我们的方法在三个基准数据集上产生了理想的可视化。
translated by 谷歌翻译
本文关注的是通过人工神经网络逼近偏微分方程的解。这里使用前馈神经网络来近似偏微分方程的解。将学习问题表述为最小二乘法,选择偏微分方程的残差作为损失函数,而采用多级Levenberg-Marquardt方法作为训练方法。此设置允许我们进一步了解多级方法的潜力。实际上,当最小二乘问题源于人工神经网络的训练时,受优化的变量与任何几何约束无关,并且标准插值和限制算子不能再使用。然后提出了由代数多重网格方法启发的启发式方法,以构建多级传输算子。数值实验表明,与标准的相应一级程序相比,新的多重开发方法对人工神经网络训练的效率有相关的结果。
translated by 谷歌翻译
无人监督的人员重新识别(Re-ID)方法包括使用经过仔细标记的源数据集进行训练,然后对未标记的目标数据集进行推广,即人员身份信息不可用。受域调整技术的启发,这些方法避免了代价高昂,繁琐且经常难以承受的贴标签过程。本文研究了摄像机索引信息的使用,即哪个摄像机捕获了哪个图像,用于监督人员Re-ID。更准确地说,受领域适应对抗方法的启发,我们开发了一个对抗框架,其中特征提取器的输出应该对人Re-ID有用,同时应该欺骗相机鉴别器。我们将所提出的方法称为摄像机对偶传输(CAT)。我们评估对抗性变体,以及每种变体实现的相机稳健性。我们报告了交叉数据集ReIDperformance,我们将我们的方法的变体与几种最先进的方法进行比较,从而表明了在无人监督的人Re-ID的对抗框架内利用相机索引信息的兴趣。
translated by 谷歌翻译
正式道德领域正在经历从独特或标准方法到规范推理的转变,例如所谓的标准化学,以及各种特定应用理论。然而,正如义务,许可,禁止和道德承诺这样的规范性概念的充分处理是具有挑战性的,正如臭名昭着的道德逻辑悖论所说明的那样。在本文中,我们介绍了一种设计和评估规范推理理论的方法。特别是,我们提出了一个基于高阶逻辑的正式框架,一个设计方法,并讨论了工具支持。此外,我们使用一个实现的例子说明了这个方法,我们演示了使用它的不同方法,并讨论了如何设计现在,非专业用户和开发人员可以访问规范理论。
translated by 谷歌翻译
机器学习算法越来越多地涉及敏感的决策过程,并对个人产生对抗性影响。本文介绍了mdfa,这种方法可以识别分类器歧视的受害者的特征。我们将歧视衡量为多差异公平的避免。多差异公平性保证黑盒分类器的结果不会泄漏关于一小组个体的敏感属性的信息。我们将识别最坏情况违规的问题减少到匹配的分布,并预测敏感属性和分类器的结果重合。我们将mdfa应用于累犯风险评估分类器,并证明被认定为具有较少犯罪历史的非洲裔美国人的个体被认为是暴力再犯的高风险的三倍,而不是非洲裔美国人。
translated by 谷歌翻译
我们考虑梯度反馈下的顺序随机资源分配问题,其中每个资源的奖励是凹的。我们构造了适应问题复杂性的通用算法,该算法使用{\ L} ojasiewicz不等式中的指数进行测量。我们的算法在非强凹面和强凹面率之间进行,而不依赖于强 - 凹度参数,并恢复经典多臂强盗的快速率(大致对应于线性奖励函数)。
translated by 谷歌翻译