在基于文本的分类器中测试公平性问题的一种常见方法是通过使用反事实来:如果更改输入中的敏感属性,则分类器输出是否会更改?现有的反事实生成方法通常依赖于单词列表或模板,产生不考虑语法,上下文或微妙敏感属性引用的简单反事实,并且可能会错过WordList创建者未考虑的问题。在本文中,我们介绍了一项为克服这些缺点而产生的反事实的任务,并证明了如何利用大型语言模型(LLM)来在此任务上取得进展。我们表明,这种基于LLM的方法可以产生现有方法无法实现的复杂反事实,从而比较了民事评论数据集中各种反事实生成方法的性能,并在评估毒性分类器时显示出它们的价值。
translated by 谷歌翻译
在本文中,我们分享了我们努力建立能够翻译一千多种语言的实用机器翻译(MT)系统的发现。我们在三个研究领域中描述了结果:(i)通过利用半监督预训练的语言识别和开发数据驱动的过滤技术来构建1500多种语言的清洁,网挖数据集; (ii)通过利用大规模的多语言模型来开发用于服务不足的语言的实用MT模型,该模型训练了有监督的并行数据,以使用100多种高资源语言和单语言数据集,以增加1000多种语言; (iii)研究这些语言的评估指标的局限性,并对我们MT模型的输出进行定性分析,突出显示了这些类型模型的几种频繁误差模式。我们希望我们的工作为旨在为当前研究的语言构建MT系统的从业者提供有用的见解,并突出显示可以补充Data-Sparse设置中大量多语言模型的弱点的研究方向。
translated by 谷歌翻译
For conceptual design, engineers rely on conventional iterative (often manual) techniques. Emerging parametric models facilitate design space exploration based on quantifiable performance metrics, yet remain time-consuming and computationally expensive. Pure optimisation methods, however, ignore qualitative aspects (e.g. aesthetics or construction methods). This paper provides a performance-driven design exploration framework to augment the human designer through a Conditional Variational Autoencoder (CVAE), which serves as forward performance predictor for given design features as well as an inverse design feature predictor conditioned on a set of performance requests. The CVAE is trained on 18'000 synthetically generated instances of a pedestrian bridge in Switzerland. Sensitivity analysis is employed for explainability and informing designers about (i) relations of the model between features and/or performances and (ii) structural improvements under user-defined objectives. A case study proved our framework's potential to serve as a future co-pilot for conceptual design studies of pedestrian bridges and beyond.
translated by 谷歌翻译
Histopathology imaging is crucial for the diagnosis and treatment of skin diseases. For this reason, computer-assisted approaches have gained popularity and shown promising results in tasks such as segmentation and classification of skin disorders. However, collecting essential data and sufficiently high-quality annotations is a challenge. This work describes a pipeline that uses suspected melanoma samples that have been characterized using Multi-Epitope-Ligand Cartography (MELC). This cellular-level tissue characterisation is then represented as a graph and used to train a graph neural network. This imaging technology, combined with the methodology proposed in this work, achieves a classification accuracy of 87%, outperforming existing approaches by 10%.
translated by 谷歌翻译
医学图像分割模型的性能指标用于衡量参考注释和预测之间的一致性。在开发此类模型中,使用了一组通用指标,以使结果更具可比性。但是,公共数据集中的分布与临床实践中遇到的案例之间存在不匹配。许多常见的指标无法衡量这种不匹配的影响,尤其是对于包含不确定,小或空参考注释的临床数据集。因此,可能无法通过此类指标来验证模型在临床上有意义的一致性。评估临床价值的维度包括独立于参考注释量的大小,考虑参考注释的不确定性,体积计和/或位置一致性的奖励以及对空参考注释正确分类的奖励。与普通的公共数据集不同,我们的内部数据集更具代表性。它包含不确定的,小或空的参考注释。我们研究了有关深度学习框架的预测的公开度量指标,以确定哪些设置共同指标可提供有意义的结果。我们将公共基准数据集进行比较而没有不确定,小或空参考注释。该代码将发布。
translated by 谷歌翻译
我们提供了证据表明,学到的密度功能理论(``dft')的力场已准备好进行基态催化剂发现。我们的关键发现是,尽管预测的力与地面真相有很大差异,但使用从超过50 \%的评估系统中使用RPBE功能的能量与使用RPBE功能相似或较低能量的力量的力量与使用RPBE功能相似或较低的力量放松。这具有令人惊讶的含义,即学习的潜力可能已经准备好在挑战性的催化系统中替换DFT,例如在Open Catalyst 2020数据集中发现的电位。此外,我们表明,在局部谐波能量表面上具有与目标DFT能量相同的局部谐波能量表面训练的力场也能够在50 \%的情况下找到较低或相似的能量结构。与在真实能量和力量训练的标准模型相比,这种``简易电位''的收敛步骤更少,这进一步加速了计算。它的成功说明了一个关键:即使模型具有高力误差,学到的电位也可以定位能量最小值。结构优化的主要要求仅仅是学到的电位具有正确的最小值。由于学到的电位与系统大小的速度快速且尺寸为线性,因此我们的结果开辟了快速找到大型系统基础状态的可能性。
translated by 谷歌翻译
受欢迎程度的偏见是,推荐系统将在向用户推荐艺术家时过度偏爱流行艺术家。因此,他们可能会为赢家众多的市场做出贡献,其中少数艺术家几乎受到了所有关注,而同样不太可能被发现。在本文中,我们尝试衡量三种最先进的推荐系统模型(例如Slim,Multi-Vae,WRMF)和三种商用音乐流服务(Spotify,Amazon Music,YouTube)中的流行偏见。我们发现,最准确的模型(Slim)也具有最受欢迎的偏见,而准确的模型的流行性偏差较小。我们还没有根据模拟用户实验发现商业建议中流行偏见的证据。
translated by 谷歌翻译
分子照片开关是光激活药物的基础。关键的照片开关是偶氮苯,它表现出对光线的反式cis异构主义。顺式异构体的热半衰期至关重要,因为它控制着光诱导的生物学效应的持续时间。在这里,我们介绍了一种计算工具,用于预测偶氮苯衍生物的热半衰期。我们的自动化方法使用了经过量子化学数据训练的快速准确的机器学习潜力。在建立在良好的早期证据的基础上,我们认为热异构化是通过Intersystem Crossing介导的旋转来进行的,并将这种机制纳入我们的自动化工作流程。我们使用我们的方法来预测19,000种偶氮苯衍生物的热半衰期。我们探索障碍和吸收波长之间的趋势和权衡,并开源我们的数据和软件以加速光精神病学研究。
translated by 谷歌翻译
当使用临床医生或人工智能(AI)系统的医学图像进行诊断时,重要的是图像具有高质量。当图像质量低时,产生图像的体检通常需要重做。在远程医疗中,一个普遍的问题是,只有在患者离开诊所后才标记质量问题,这意味着他们必须返回才能重做考试。对于居住在偏远地区的人们来说,这可能是特别困难的,他们在巴西的数字医疗组织Portemedicina占了大部分患者。在本文中,我们报告了有关(i)实时标记和解释低质量医学图像的AI系统的正在进行的工作,(ii)采访研究,以了解使用AI系统的利益相关者的解释需求在OurCompany和(iii)纵向用户研究设计,旨在检查包括对我们诊所中技术人员工作流程的解释的效果。据我们所知,这将是评估XAI方法对最终用户的影响的首次纵向研究 - 使用AI系统但没有AI特定专业知识的利益相关者。我们欢迎对我们的实验设置的反馈和建议。
translated by 谷歌翻译
由于信息源通常不完美,因此有必要考虑其在多源信息融合任务中的可靠性。在本文中,我们提出了一个新的深层框架,使我们能够使用Dempster-Shafer理论的形式合并多MR图像分割结果,同时考虑到相对于不同类别的不同模式的可靠性。该框架由编码器折线功能提取模块组成,该模块是每个模态在每个体素上计算信念函数的证据分割模块,以及多模式的证据融合模块,该模块为每个模态证据和每个模态证据和折现率分配使用Dempster规则结合折扣证据。整个框架是通过根据折扣骰子指数最小化新的损失功能来培训的,以提高细分精度和可靠性。该方法在1251例脑肿瘤患者的Brats 2021数据库中进行了评估。定量和定性的结果表明,我们的方法表现优于最新技术,并实现了在深神经网络中合并多信息的有效新想法。
translated by 谷歌翻译