制定了具有机器学习模拟(骆驼)项目的宇宙学和天体物理学,通过数千名宇宙的流体动力模拟和机器学习将宇宙学与天体物理学结合起来。骆驼包含4,233个宇宙学仿真,2,049个n-body和2,184个最先进的流体动力模拟,在参数空间中采样巨大的体积。在本文中,我们介绍了骆驼公共数据发布,描述了骆驼模拟的特性和由它们产生的各种数据产品,包括光环,次麦,银河系和空隙目录,功率谱,Bispectra,Lyman - $ \ Alpha $光谱,概率分布函数,光环径向轮廓和X射线光子列表。我们还释放了超过骆驼 - 山姆的数十亿个星系的目录:与Santa Cruz半分析模型相结合的大量N身体模拟。我们释放包含350多个Terabytes的所有数据,并包含143,922个快照,数百万光环,星系和摘要统计数据。我们提供有关如何访问,下载,读取和处理数据AT \ URL {https://camels.readthedocs.io}的进一步技术详细信息。
translated by 谷歌翻译
胎儿超声(US)中胎盘的自动分割由于(i)(i)胎盘外观的高度多样性而具有挑战性我们禁止在妊娠晚期进行整个胎盘评估的观点。在这项工作中,我们通过多任务学习方法解决了这三个挑战,该方法结合了单个卷积神经网络中胎盘位置(例如,前,后部)和语义胎盘分段的分类。通过分类任务,模型可以从更大,更多样化的数据集中学习,同时在有限的训练集条件下提高分割任务的准确性。通过这种方法,我们研究了多个评估者的注释的变异性,并表明我们的自动分割(前胎盘的骰子为0.86,后胎盘的骰子为0.83),与观察者内和观察者间的变异性相比,我们的自动段性能达到了人级的性能。最后,我们的方法可以使用由三个阶段组成的多视图US采集管道提供整个胎盘分割:多探针图像采集,图像融合和图像分段。这会导致对较大结构(例如胎盘中的胎盘)的高质量分割,其图像伪像降低,这超出了单个探针的视野。
translated by 谷歌翻译
本文介绍了用于交易单一资产的双重Q网络算法,即E-MINI S&P 500连续期货合约。我们使用经过验证的设置作为我们环境的基础,并具有多个扩展。我们的贸易代理商的功能不断扩展,包括其他资产,例如商品,从而产生了四种型号。我们还应对环境条件,包括成本和危机。我们的贸易代理商首先接受了特定时间段的培训,并根据新数据进行了测试,并将其与长期策略(市场)进行了比较。我们分析了各种模型与样本中/样本外性能之间有关环境的差异。实验结果表明,贸易代理人遵循适当的行为。它可以将其政策调整为不同的情况,例如在存在交易成本时更广泛地使用中性位置。此外,净资产价值超过了基准的净值,代理商在测试集中的市场优于市场。我们使用DDQN算法对代理商在金融领域中的行为提供初步见解。这项研究的结果可用于进一步发展。
translated by 谷歌翻译
手机数据可以改善计划的目标吗?通过将来自阿富汗的“大推动”反贫困计划与计划受益人的详细手机日志结合在一起,我们研究了机器学习方法可以在多大程度上准确地区分有资格从不合格家庭中获得计划收益的超贫困家庭。我们表明,利用手机数据的机器学习方法可以识别超贫困家庭的准确性,几乎与基于调查的消费和财富量度一样准确。而将基于调查的措施与手机数据结合起来比基于单个数据源的措施更准确。
translated by 谷歌翻译
有关后门毒物攻击的广泛文献研究了使用“数字触发图案”的后门攻击和防御措施。相比之下,“物理后门”使用物理对象作为触发器,直到最近才被确定,并且在质量上足够不同,可以抵抗针对数字触发后门的所有防御。对物理后门的研究受到了访问大型数据集的限制,该数据集包含包含与分类目标共同位置的物理对象的真实图像。构建这些数据集是时间和劳动力密集的。这项工作旨在应对有关物理后门攻击研究的可访问性挑战。我们假设在流行数据集(例如Imagenet)中可能存在天然存在的物理共同存在的对象。一旦确定,这些数据的仔细重新标记可以将它们转化为训练样本,以进行物理后门攻击。我们提出了一种方法,可以通过在现有数据集中识别这些潜在触发器的这些亚集,以及它们可能毒害的特定类别。我们称这些天然存在的触发级子集自然后门数据集。我们的技术成功地识别了广泛可用的数据集中的自然后门,并在行为上等同于在手动策划数据集中训练的模型。我们发布我们的代码,以使研究社区可以创建自己的数据集,以研究物理后门攻击。
translated by 谷歌翻译
这项研究研究了在美国国税局(IRS)为税收审计选择的系统中,算法公平性问题。尽管算法公平的领域主要围绕着像个人一样对待的概念发展,但我们却探索了垂直平等的概念 - 适当地考虑到个人之间的相关差异 - 这在许多公共政策环境中都是公平性的核心组成部分。应用于美国个人所得税体系的设计,垂直权益与不同收入水平的纳税人之间的税收和执法负担的公平分配有关。通过与财政部和国税局的独特合作,我们使用匿名个人纳税人微型数据,风险选择的审计以及2010 - 14年度的随机审计来研究税务管理的垂直平等。特别是,我们评估了现代机器学习方法选择审核的使用如何影响垂直权益。首先,我们展示了更灵活的机器学习(分类)方法(而不是简单的模型)如何将审计负担从高收入纳税人转移到中等收入纳税人。其次,我们表明,尽管现有的算法公平技术可以减轻跨收入的某些差异,但它们可能会造成巨大的绩效成本。第三,我们表明,是否将低报告的风险视为分类或回归问题的选择是高度的。从分类转变为回归模型,以预测不足的审计转变会大大向高收入个人转移,同时增加收入。最后,我们探讨了差异审计成本在塑造审计分配中的作用。我们表明,对回报的狭窄关注会破坏垂直权益。我们的结果对整个公共部门的算法工具的设计具有影响。
translated by 谷歌翻译
尽管电子健康记录是生物医学研究的丰富数据来源,但这些系统并未在医疗环境中统一地实施,并且由于医疗保健碎片化和孤立的电子健康记录之间缺乏互操作性,可能缺少大量数据。考虑到缺少数据的案例的删除可能会在随后的分析中引起严重的偏见,因此,一些作者更喜欢采用多重插补策略来恢复缺失的信息。不幸的是,尽管几项文献作品已经通过使用现在可以自由研究的任何不同的多个归档算法记录了有希望的结果,但尚无共识,MI算法效果最好。除了选择MI策略之外,归纳算法及其应用程序设置的选择也至关重要且具有挑战性。在本文中,受鲁宾和范布伦的开创性作品的启发,我们提出了一个方法学框架,可以应用于评估和比较多种多个插补技术,旨在选择用于计算临床研究工作中最有效的推断。我们的框架已被应用于验证和扩展较大的队列,这是我们在先前的文献研究中提出的结果,我们在其中评估了关键患者的描述符和Covid-19的影响在2型糖尿病患者中的影响,其数据为2型糖尿病,其数据为2型糖尿病由国家共同队列合作飞地提供。
translated by 谷歌翻译
评估成像中的乳腺癌风险仍然是一个主观过程,在该过程中,放射科医生采用计算机辅助检测(CAD)系统或定性视觉评估来估计乳房密度(PD)。更先进的机器学习(ML)模型已成为量化早期,准确和公平诊断的乳腺癌风险的最有希望的方法,但是医学研究中的这种模型通常仅限于小型单一机构数据。由于患者人口统计和成像特征可能在成像站点之间有很大差异,因此在单机构数据中训练的模型往往不会很好地概括。为了应对这个问题,提出了Mammodl,这是一种开源软件工具,利用UNET体系结构来准确估计乳腺PD和数字乳房X线摄影(DM)的复杂性。通过开放的联合学习(OpenFL)库,该解决方案可以在多个机构的数据集上进行安全培训。 Mammodl是一个比其前任更精简,更灵活的模型,由于对更大,更具代表性的数据集的支持培训,因此具有改进的概括。
translated by 谷歌翻译
将文本插入段落中指定位置的任务(称为空白(FITB))对于各种应用程序与作家与自然语言生成(NLG)系统互动以制作文本的应用很有用。虽然先前的工作已经通过专门培训的模型来解决此问题,但更有用的模型是可以有效地执行_both_ fitb和延续的模型。在这项工作中,我们评估了使用单个模型完成这两个任务的可行性。我们表明,通过FITB式目标进行预训练的模型都可以完成这两个任务,而预先训练的持续训练的模型却没有。最后,我们展示了如何轻松地对FITB模型进行填充,以允许对一代的长度和单词选择进行细粒度的控制。
translated by 谷歌翻译
通用形态(UNIMORPH)项目是一项合作的努力,可为数百种世界语言实例化覆盖范围的标准化形态拐角。该项目包括两个主要的推力:一种无独立的特征架构,用于丰富的形态注释,并以各种语言意识到该模式的各种语言的带注释数据的类型级别资源。本文介绍了过去几年对几个方面的扩张和改进(自McCarthy等人(2020年)以来)。众多语言学家的合作努力增加了67种新语言,其中包括30种濒危语言。我们已经对提取管道进行了一些改进,以解决一些问题,例如缺少性别和马克龙信息。我们还修改了模式,使用了形态学现象所需的层次结构,例如多肢体协议和案例堆叠,同时添加了一些缺失的形态特征,以使模式更具包容性。鉴于上一个UniMorph版本,我们还通过16种语言的词素分割增强了数据库。最后,这个新版本通过通过代表来自metphynet的派生过程的实例丰富数据和注释模式来推动将衍生物形态纳入UniMorph中。
translated by 谷歌翻译