预测癌细胞对药物的反应是药物基因组学中的一个重要问题。最近在细胞系中产生基因表达和药物敏感性的大规模数据集的产生的努力为研究该问题提供了独特的机会。然而,一个主要的挑战是即使在这些大型数据集中,与特征(基因)的数量相比,样本(细胞系)的数量也很少。我们提出了一种协同过滤(CF)类似算法,用于建立基因 - 药物关系模型,以识别最有可能从治疗中获益的患者。由于基因表达与不同细胞系的相关性,基因表达矩阵近似为低等级,这表明药物反应可以从基因表达的降低的维度空间估计。为此,我们提出了一种联合低阶矩阵分解和潜在线性回归方法。包括来自癌症药物敏感性基因组学数据的实验,表明所提出的方法可以比状态更好地预测药物 - 基因关联。 -art方法。
translated by 谷歌翻译
作为卖方或买方的谈判是在线购物的基本和复杂方面。这对于智能代理来说是具有挑战性的,因为它需要(1)提取和利用来自多个来源的信息(例如照片,文本和数字),(2)预测产品的合适价格以达到最佳可能的协议,(3)表达意图以自然语言的价格为条件,以及(4)一致的定价。传统的对话系统不能很好地解决这些问题。例如,我们认为价格应该是谈判的驱动因素,并由theagent理解。但是传统上,价格被简单地视为单词标记,即作为句子的一部分并且与其他单词共享相同的单词嵌入空间。为此,我们提出了我们的视觉谈判器,它包括一个端到端的深度学习模型,该模型可以预测初始协议价格并在创建引人注目的支持对话框的同时对其进行更新。对于(1),我们的视觉谈判者利用注意机制从图像和文本描述中提取相关信息,并将价格(以及后来的提炼价格)作为系统若干阶段的单独重要输入,而不是仅仅作为句子的一部分;对于(2),我们使用注意力来学习价格嵌入来估计初始值;随后,对于(3),我们以编码器 - 解码器方式生成支持对话,该方式利用价格嵌入。此外,我们使用分层递归模型,学习在一个级别上重新定价,同时在另一个级别生成支持对话;对于(4),该分层模型提供一致的定价。根据经验,我们证明我们的模型在协议价格,价格一致性和语言质量方面显着改善了CraigslistBargaindataset的谈判。
translated by 谷歌翻译
城市扩散事件是指异常大量的人在短时间内离开同一地区的过程。分散事件的早期预测对于减轻拥堵和安全风险以及为出租车和乘车共享车队做出更好的调度决策非常重要。现有的工作主要集中在通过从历史数据中学习模式来预测近期的出租车需求。然而,它们在异常的情况下失败,因为具有异常高需求的扩散事件是非重复的并且违反了诸如需求的平滑性随时间变化的共同假设。相反,在本文中,我们认为分散事件遵循复杂的旅行模式和过去的其他相关特征,可用于预测此类事件。因此,我们将分散事件预测问题表述为幸存分析问题。我们提出了一个两阶段框架(DILSA),其中开发了一个结合生存分析的深度学习模型来预测分散事件及其需求量的可能性。我们对2014-2016的NYC Yellow出租车数据集进行了大量的研究和实验。结果表明,DILSA可以预测未来5小时的事件,F1得分为0.7,平均时间误差为18分钟。与最先进的出租车需求预测深度学习方法相比,它是一个数量级。
translated by 谷歌翻译
人物搜索最近引起了人们的注意,作为一种新的任务,即从非裁剪图像库中找到作为裁剪样本提供的人员,其中还可以看到其他几个人。我们相信我。应在联合优化框架中进行人员检测和重新识别,并且ii。人物搜索应该广泛利用查询图像(例如,强调独特的查询模式)。然而,到目前为止,没有priorart意识到这一点。我们引入了一种新颖的查询引导的端到端人员搜索网络(QEEPS)来解决这两个方面。我们利用最新的联合检测器和重新识别工作OIM [37]。我们用i扩展这个。使用来自查询和图库图像的全局上下文的aquery-guided Siamese挤压和激励网络(QSSE-Net),ii。查询引导的区域提议网络(QRPN)以产生与查询相关的提议,以及iii。 aquery-guided相似子网(QSimNet),用于学习查询引导的识别分数。 QEEPS是第一个端到端查询引导的检测和重新识别网络。在最近的CUHK-SYSU [37]和PRW [46]数据集中,我们都大大超过了之前的最新技术水平。
translated by 谷歌翻译
特定领域的社区问答正在成为专业人士不可或缺的一部分。在这些社区中查找相关问题和答案可以显着提高信息搜索的有效性和效率.StackOverflow是数百名程序员使用的最受欢迎的社区之一。在本文中,我们分析了Stack Overflow中预测知识单元(问题线程)相关性的问题。特别是,我们将问题相关性任务表述为具有四个相关度的多类别分类问题。我们提出了一个超过300Kpairs的大规模数据集。据我们所知,这个数据集是问题相关性的最大域特定数据集。我们提出了收集,清理,处理和保证数据集质量的步骤。建议的数据集Stack Overflow是开发小说解决方案的有用资源,特别是数据饥饿的神经网络模型,用于预测技术社区问题中的相关性 - 讨论论坛。我们采用神经网络架构和传统模型来完成这项任务,有效地利用知识单元不同部分的信息来计算它们之间的相关性。这些模型可用于对新模型进行基准测试,因为它们在我们的任务和非常相似的任务中表现良好。
translated by 谷歌翻译
流式算法通常根据其解决方案的质量,内存占用和计算复杂性来判断。在本文中,我们研究了在基数设置约为$ k $的流设置中最大化单调子模块函数的问题。我们首先提出Sieve-Streaming ++,它只需要一次传递数据,只保留$ O(k)$元素并实现紧密的$(1/2)$ - 近似保证。以前最好的流式算法要么用$ \ Theta(k)$内存实现次优$(1/4)$ - 近似,要么用$ O(k \ log k)$ memory实现最佳$(1/2)$近似值。接下来,通过缓冲流的一小部分并应用仔细的过滤程序,可以大大减少自适应计算轮次的数量,从而大大降低了Sieve-Streaming ++的计算复杂度。然后,我们将结果推广到更具挑战性的多源流设置。我们展示了如何使用$ O(k)$共享内存实现紧密的$(1/2)$ - 近似保证,同时最大限度地减少所需的计算轮次,同时最小化通信位的总数。最后,我们展示了我们的算法在多源推文和YouTube视频流的实际数据汇总任务中的效率。
translated by 谷歌翻译
对抗训练,其中网络训练对抗的例子,是抵御强烈攻击的对抗性攻击的少数防御之一。遗憾的是,产生强大对抗性示例的高成本使标准对抗性训练对像ImageNet这样的大规模问题不切实际。我们提出了一种算法,通过循环更新模型参数时计算的梯度信息,消除了生成对抗性示例的开销成本。与自然训练相比,我们的“免费”对抗训练算法在CIFAR-10和CIFAR-100数据集上具有最先进的稳健性,并且比其他强大的对抗训练方法快7到30倍。使用具有4个P100 GPU的单工作站和2天的运行时间,我们可以为大规模ImageNet分类任务训练一个强大的模型,该任务对PGD攻击保持40%的准确性。
translated by 谷歌翻译
人们普遍认为,子模块函数 - 以及$ \ gamma $ -weakly子模块函数的更通用类 - 只能在非负性假设$ f(S)\ geq 0 $下进行优化。在本文中,我们展示一旦函数表示为差异$ f = g - c $,其中$ g $是单调的,非负的,$ \ gamma $ -weakly子模块,$ c $是非负模块,然后可以获得强近似保证。我们提出了一个算法,在$ k $ -cardinality约束下最大化$ g - c $,产生一个随机可行集$ S $,使得$ \ mathbb {E} \ left [g(S) - c(S)\ right] \ geq(1 - e ^ { - \ gamma} - \ epsilon)g(OPT) - c(OPT)$,其运行时间为$ O(\ frac {n} {\ epsilon} \ log ^ 2 \ frac {1 } {\ epsilon})$,即独立于$ k $。我们通过描述具有相同近似保证和更快$ O(\ frac {n} {\ epsilon} \ log \ frac {1} {\ epsilon})$运行时的算法,将这些结果扩展到无约束设置。我们算法的主要技术有两个方面:使用替代目标,在整个算法中改变$ g $和$ c $之间的相对重要性,以及几何扫描可能的$ \ gamma $值。我们的算法保证由硬度结果补充,表明没有通过值oracle访问$ g $的多项式时间算法可以做得更好。我们通过将它们应用于Boston Housingdataset上的实验设计并在Email EU数据集上引导顶点覆盖来实证地证明了算法的成功。
translated by 谷歌翻译
关于目标模型的属性的先验知识通常作为离散或组合描述。这项工作提供了统一的计算框架,用于定义促进此类结构的规范。更具体地说,我们开发了用于优化的相关工具,其涉及这样的规范,仅将正交投影oracle给予非凸集的期望模型。作为一个例子,我们研究一个规范,我们称之为双稀疏范数,用于推导几个非零项只有几个不同值的向量。我们进一步讨论K-means算法如何在这种情况下作为底层投影oracle以及如何它可以有效地表示为aquadratically约束二次规划。我们研究这一规范的动机是在存在稀有特征的情况下进行正则化回归,这些特征对高维统计中的各种方法以及一般的机器学习提出了挑战。拟议的估算程序旨在实现自动特征选择和聚合,为此我们开发了统计学界限。边界是一般的,并为基于规范的正规化提供统计框架。边界依赖于我们试图阐述的新颖的几何量。
translated by 谷歌翻译
K-fold交叉验证通常用于评估分类器和tunetheir超参数。但是,它假定数据点是独立的并且是分布式的(i.i.d.),以便可以随机且统一地选择训练和测试集中使用的样本。在人类活动识别数据集中,我们注意到由相同的受试者产生的样本可能由于多种因素而相关。因此,k倍交叉验证可能会低估活动识别器的性能,特别是在使用重叠滑动窗口时。在本文中,我们研究了主题交叉验证对人类活动识别性能的影响,包括非重叠和重叠滑动窗口。结果表明,当使用重叠窗口时,k倍交叉验证人为地将识别器的性能提高了约10%,甚至提高了16%。此外,我们观察到使用重叠窗口没有任何性能提升。我们得出结论,人类活动识别系统应该通过主题交叉验证进行评估,并且重叠的窗口不是它们额外的计算成本。
translated by 谷歌翻译