CNN-based surrogates have become prevalent in scientific applications to replace conventional time-consuming physical approaches. Although these surrogates can yield satisfactory results with significantly lower computation costs over small training datasets, our benchmarking results show that data-loading overhead becomes the major performance bottleneck when training surrogates with large datasets. In practice, surrogates are usually trained with high-resolution scientific data, which can easily reach the terabyte scale. Several state-of-the-art data loaders are proposed to improve the loading throughput in general CNN training; however, they are sub-optimal when applied to the surrogate training. In this work, we propose SOLAR, a surrogate data loader, that can ultimately increase loading throughput during the training. It leverages our three key observations during the benchmarking and contains three novel designs. Specifically, SOLAR first generates a pre-determined shuffled index list and accordingly optimizes the global access order and the buffer eviction scheme to maximize the data reuse and the buffer hit rate. It then proposes a tradeoff between lightweight computational imbalance and heavyweight loading workload imbalance to speed up the overall training. It finally optimizes its data access pattern with HDF5 to achieve a better parallel I/O throughput. Our evaluation with three scientific surrogates and 32 GPUs illustrates that SOLAR can achieve up to 24.4X speedup over PyTorch Data Loader and 3.52X speedup over state-of-the-art data loaders.
translated by 谷歌翻译
相干显微镜技术提供了跨科学和技术领域的材料的无与伦比的多尺度视图,从结构材料到量子设备,从综合电路到生物细胞。在构造更明亮的来源和高速探测器的驱动下,连贯的X射线显微镜方法(如Ptychography)有望彻底改变纳米级材料的特征。但是,相关的数据和计算需求显着增加意味着,常规方法不再足以从高速相干成像实验实时恢复样品图像。在这里,我们演示了一个工作流程,该工作流利用边缘的人工智能和高性能计算,以实现直接从检测器直接从检测器流出的X射线ptychography数据实时反演。拟议的AI支持的工作流程消除了传统的Ptychography施加的采样约束,从而使用比传统方法所需的数据较少的数据级允许低剂量成像。
translated by 谷歌翻译
肌电图信号可以通过机器学习模型用作训练数据,以对各种手势进行分类。我们试图制作一个模型,该模型可以将六个不同的手势分类为有限数量的样本,这些样本可以很好地概括为更广泛的受众,同时比较我们的功能提取结果对模型准确性的效果与其他更常规的方法(例如使用AR参数)在信号通道的滑动窗口上。我们诉诸于一组更基本的方法,例如在信号上使用随机界限,但是渴望在正在进行EMG分类的在线环境中展示这些力量,而不是更复杂的方法(例如使用傅立叶变换。为了增加我们有限的训练数据,我们使用了一种称为抖动的标准技术,在该技术中,以通道的方式将随机噪声添加到每个观察结果中。一旦使用上述方法生产了所有数据集,我们就进行了随机森林和XGBoost的网格搜索,以最终创建高精度模型。出于人类的计算机界面目的,高精度分类对于它们的功能特别重要,并且鉴于在大量的高量中积累任何形式的生物医学数据的困难和成本,具有低量工作的技术是有价值的具有较便宜的功能提取方法的高质量样品可以在在线应用中可靠地进行。
translated by 谷歌翻译
在线旅行社(OTA)的网站在元搜索竞标引擎上宣传。预测酒店将收到的单击数量的给定出价金额的问题是管理元搜索引擎上OTA广告活动的重要一步,因为出价时间的点击次数定义了要生成的成本。在这项工作中,各种回归器都结束了,以提高点击预测性能。按照预处理程序,将功能集分为火车和测试组,具体取决于样品的记录日期。然后,将数据收集进行基于XGBoost的缩小降低,从而大大降低了特征的维度。然后通过将贝叶斯高参数优化应用于XGBoost,LightGBM和SGD模型来找到最佳的高参数。单独测试了十种不同的机器学习模型,并将它们组合在一起以创建合奏模型。提出了三种替代合奏解决方案。相同的测试集用于测试单个和集合模型,46个模型组合的结果表明,堆栈集合模型得出所有的R2分数。总之,整体模型将预测性能提高了约10%。
translated by 谷歌翻译
多武装匪徒(MAB)在各种设置中进行广泛研究,其中目标是\ Texit {Maximize}随着时间的推移{Maximize}的措施(即,奖励)。由于安全在许多现实世界问题中至关重要,因此MAB算法的安全版本也获得了相当大的兴趣。在这项工作中,我们通过\ Texit {线性随机炸药杆}的镜头来解决不同的关键任务,其中目的是将动作靠近目标级别的结果,同时尊重\ Texit {双面}安全约束,我们调用\ textit {lecoling}。这种任务在许多域中普遍存在。例如,许多医疗保健问题要求在范围内保持生理变量,并且优选地接近目标水平。我们客观的激进变化需要一种新的采购策略,它是MAB算法的核心。我们提出Sale-LTS:通过线性汤普森采样算法进行安全调整,采用新的采集策略来适应我们的任务,并表明它达到了同一时间和维度依赖的索姆林的遗憾,因为以前的经典奖励最大化问题缺乏任何安全约束。我们通过彻底的实验展示并讨论了我们的算法的经验性能。
translated by 谷歌翻译
在许多真实世界应用程序的组合匪徒如内容缓存,必须在满足最小服务要求的同时最大化奖励。此外,基本ARM可用性随着时间的推移而变化,并且采取的行动需要适应奖励最大化的情况。我们提出了一个名为Contexal Combinatial Volatile Birtits的新的强盗模型,具有组阈值来解决这些挑战。我们的模型通过考虑超级臂作为基础臂组的子集来归档组合匪徒。我们寻求最大化超级手臂奖励,同时满足构成超级臂的所有基座组的阈值。为此,我们定义了一个新的遗憾遗嘱,使超级臂奖励最大化与团体奖励满意度合并。为了便于学习,我们假设基臂的平均结果是由上下文索引的高斯过程的样本,并且预期的奖励是Lipschitz在预期的基础臂结果中连续。我们提出了一种算法,称为阈值组合高斯工艺的上置信度界限(TCGP-UCB),最大化累积奖励和满足组奖励阈值之间的余额,并证明它会导致$ \ tilde {o}(k \ sqrt {t \ overline { \ gamma} _ {t}})$后悔具有高概率,其中$ \ overline {\ gamma} _ {t} $是与第一个$ t $轮中出现的基本arm上下文相关联的最大信息增益$ k $是所有在所有轮匝上任何可行行动的超级臂基数。我们在实验中展示了我们的算法累积了与最先进的组合强盗算法相当的奖励,同时采摘群体满足其阈值的动作。
translated by 谷歌翻译
犯罪预测问题的现有方法在表达细节时不成功,因为它们将概率值分配给大区域。本文介绍了一种具有图形卷积网络(GCN)和多变量高斯分布的新架构,以执行适用于任何时空数据的高分辨率预测。通过利用GCN的灵活结构并提供细分算法,我们以高分辨率在高分辨率下解决稀疏问题。我们用图形卷积门控经常性单位(Graph-concgru)构建我们的模型,以学习空间,时间和分类关系。在图形的每个节点中,我们学习来自GCN的提取特征的多变量概率分布。我们对现实生活和合成数据集进行实验,我们的模型获得了最佳验证和基线模型中的最佳测试分数,具有显着改进。我们表明我们的模型不仅是生成的,而且是精确的。
translated by 谷歌翻译
寻找最佳个性化的治疗方案被认为是最具挑战性的精确药物问题之一。各种患者特征会影响对治疗的反应,因此,没有一种尺寸适合 - 所有方案。此外,甚至在治疗过程中均不服用单一不安全剂量可能对患者的健康产生灾难性后果。因此,个性化治疗模型必须确保患者{\ EM安全} {\ EM有效}优化疗程。在这项工作中,我们研究了一种普遍的和基本的医学问题,其中治疗旨在在范围内保持生理变量,优选接近目标水平。这样的任务也与其他域中相关。我们提出ESCADA,这是一个用于这个问题结构的通用算法,在确保患者安全的同时制作个性化和背景感知最佳剂量推荐。我们在Escada的遗憾中获得了高概率的上限以及安全保证。最后,我们对1型糖尿病疾病的{\ em推注胰岛素剂量}分配问题进行了广泛的模拟,并比较ESCADA对汤普森采样,规则的剂量分配者和临床医生的表现。
translated by 谷歌翻译
用于自我监督的顺序行动对齐的最先进方法依赖于在时间上跨越视频的对应关系的深网络。它们要么学习横跨序列的帧到帧映射,但不利用时间信息,或者在每个视频对之间采用单调对齐,这忽略了动作顺序的变化。因此,这些方法无法处理涉及包含非单调动作序列的背景帧或视频的常见现实情景。在本文中,我们提出了一种方法来对齐野生序列动作,涉及不同的时间变化。为此,我们提出了一种方法来强制在最佳传输矩阵上强制执行时间前导者,该矩阵利用时间一致性,同时允许动作顺序变化。我们的模型占单调和非单调序列,并处理不应对齐的背景框架。我们展示了我们的方法在四个不同的基准数据集中始终如一地始终优于自我监督的顺序行动表示学习的最先进。
translated by 谷歌翻译
我们引入了随机匪徒反馈的矢量优化问题,这将最佳的手臂识别问题扩展到了矢量值奖励。我们考虑具有多维平均奖励向量的$ K $设计,根据多面体订购锥$ C $部分订购。这概括了多目标优化中的帕累托集合的概念,并允许通过$ c $编码的不同偏好。与先前的工作不同,我们根据无方向覆盖和间隙概念来定义帕累托集的近似值。我们研究($ \ epsilon,\ delta $) - PAC PACPARETO设定的识别问题,其中对每个设计的评估都会产生对平均奖励向量的嘈杂观察。为了表征学习帕累托集的困难,我们介绍了{\ em排序复杂性}的概念,即经验奖励向量偏离其平均值的几何条件,可以准确地近似帕累托前沿。我们展示了如何计算任何多面体排序锥的订购复杂性。我们在样品复杂性上提供了依赖性依赖性和最差的下限,并表明在最差的情况下,样品复杂性尺度具有订购复杂性的平方。此外,我们研究了Na \“ Ive Upination算法的样本复杂性,并证明它几乎与最坏的样本复杂性相匹配。最后,我们进行了实验以验证我们的理论结果并说明$ C $和采样预算如何影响Pareto设置,返回($ \ epsilon,\ delta $) - PAC PARETO SET和标识的成功。
translated by 谷歌翻译