学习分解的表示形式需要监督或引入特定模型设计和学习限制作为偏见。Infogan是一个流行的分离框架,通过最大化潜在表示及其相应生成的图像之间的相互信息来学习无监督的分解表示形式。通过引入辅助网络和潜在回归损失的培训来实现共同信息的最大化。在这篇简短的探索性论文中,我们研究了希尔伯特 - 史密特独立标准(HSIC)的使用,以近似潜在表示和图像之间的相互信息,称为HSIC-INFOGAN。直接优化HSIC损失可以避免需要额外的辅助网络。我们定性地比较了每个模型中的分离水平,提出了一种调整HSIC-INFOGAN超参数的策略,并讨论了HSIC-INFOGAN在医疗应用中的潜力。
translated by 谷歌翻译
需求估计在动态定价中起着重要的作用,在动态定价中,可以通过基于需求曲线最大化收入来获得最佳价格。在在线酒店预订平台中,房间的需求或占用率随着房间类型而变化,随着时间的推移变化,因此获得准确的占用估算是一项挑战。在本文中,我们提出了一种新颖的酒店需求功能,该功能明确地模拟了对占用预测需求需求的价格弹性,并设计了价格弹性预测模型,以了解各种影响因素的动态价格弹性系数。我们的模型由精心设计的弹性学习模块组成,以减轻内生性问题,并在多任务框架中接受培训以解决数据稀疏性。我们在现实世界数据集上进行了全面的实验,并验证方法优于最先进的基准,以实现占用预测和动态定价。
translated by 谷歌翻译
高动态范围(HDR)成像是图像处理中的一个基本问题,即使在场景中存在不同的照明的情况下,它旨在产生暴露良好的图像。近年来,多曝光融合方法已取得了显着的结果,该方法合并了多个具有不同暴露的动态范围(LDR)图像,以生成相应的HDR图像。但是,在动态场景中综合HDR图像仍然具有挑战性,并且需求量很高。生产HDR图像有两个挑战:1)。 LDR图像之间的对象运动很容易在生成的结果中引起不良的幽灵伪像。 2)。由于在合并阶段对这些区域的补偿不足,因此下区域和过度曝光的区域通常包含扭曲的图像含量。在本文中,我们提出了一个多尺度采样和聚合网络,用于在动态场景中进行HDR成像。为了有效地减轻小动作和大型动作引起的问题,我们的方法通过以粗到精细的方式对LDR图像进行了暗中对齐LDR图像。此外,我们提出了一个基于离散小波转换的密集连接的网络,以改善性能,该网络将输入分解为几个非重叠频率子带,并在小波域中自适应地执行补偿。实验表明,与其他有希望的HDR成像方法相比,我们提出的方法可以在不同场景下实现最新的性能。此外,由我们的方法生成的HDR图像包含清洁剂和更详细的内容,扭曲较少,从而带来更好的视觉质量。
translated by 谷歌翻译
尽管预训练的语言模型(LMS)在许多NLP任务中都取得了重大改进,但人们越来越关注探索LMS的能力并解释其预测。但是,现有作品通常仅着眼于某些下游任务的特定功能。缺乏直接评估蒙版单词预测性能和预训练LMS的解释性的数据集。为了填补空白,我们提出了一个新颖的评估基准,以提供英语和中文注释的数据。它在多个维度(即语法,语义,知识,推理和计算)中测试LMS能力。此外,它提供了满足足够和紧凑性的仔细注释的令牌级别的理由。它包含每个原始实例的扰动实例,以便将扰动下的基本原理一致性用作忠实的指标,即解释性的观点。我们在几个广泛使用的预训练的LMS上进行实验。结果表明,他们在知识和计算的维度上表现较差。而且它们在所有维度上的合理性远非令人满意,尤其是当理由缩短时。此外,我们评估的预训练的LMS在语法感知数据上并不强大。我们将以\ url {http:// xyz}发布此评估基准,并希望它可以促进预训练的LMS的研究进度。
translated by 谷歌翻译
几乎所有现有的场景图(SGG)模型都忽略了主流SGG数据集的地面真相注释质量,即他们假设:1)所有手动注释的正样本都是同样正确的; 2)所有未注销的负样本绝对是背景。在本文中,我们认为这两个假设都不适用于SGG:有许多嘈杂的地面谓词标签破坏了这两个假设并损害了无偏SGG模型的训练。为此,我们提出了一种新颖的嘈杂标签校正和SGG:最佳的样本训练策略。具体而言,它包括两个部分:尼斯和NIST,它们分别通过产生高质量的样本和有效的培训策略来排除这些嘈杂的标签问题。 NICE首先检测到嘈杂的样品,然后将它们重新分配给它们更多高质量的软谓词标签。 NIST是一种基于多教老师知识蒸馏的培训策略,它使模型能够学习公正的融合知识。 NIST的动态权衡加权策略旨在惩罚不同教师的偏见。由于NICE和NIST的模型不足的性质,我们最好的最好的人可以无缝地纳入任何SGG架构中,以提高其在不同谓词类别上的性能。此外,为了更好地评估SGG模型的概括,我们通过重新组织普遍的VG数据集并故意使培训和测试集的谓词分布尽可能不同,进一步提出了一种新的基准VG-OOD。对象类别对。这种新的基准有助于解散基于对象类别类别的频率偏差的影响。大量消融和对不同的骨干和任务的结果证明了最佳组成部分的有效性和概括能力。
translated by 谷歌翻译
由于成本限制,减少医学图像分割中密集注释的面具的需求很重要。在本文中,我们考虑仅通过使用图像级标签进行训练来推断脑病变的像素级预测的问题。通过利用生成扩散概率模型(DPM)的最新进展,我们综合了“如果不存在X病理学,患者将如何出现?”。观察到的患者状态与健康反事实之间的差异图像可用于推断病理位置。我们产生的反事实是对应于输入的最小变化,以使其转化为健康域。这需要在DPM中使用健康和不健康的数据进行培训。我们通过通过隐式指导以及注意力条件而不是使用分类器来操纵生成过程来改善以前的反事实DPM。代码可在https://github.com/vios-s/diff-scm上找到。
translated by 谷歌翻译
最近,大多数手写的数学表达识别(HMER)方法采用编码器 - 编码器网络,该网络直接从具有注意机制的公式图像中直接预测标记序列。但是,此类方法可能无法准确读取具有复杂结构的公式或生成长的标记序列,因为由于写作样式或空间布局的差异很大,注意结果通常是不准确的。为了减轻此问题,我们为HMER提出了一个名为Counting-Aware-Aware网络(CAN)的非常规网络,该网络共同优化了两个任务:HMER和符号计数。具体而言,我们设计了一个弱监督的计数模块,该模块可以预测每个符号类的数量,而无需符号级别的位置注释,然后将其插入HMER的典型基于注意力的编码器模型。在基准数据集上进行的实验验证了关节优化和计数结果既有益于纠正编码器模型的预测误差,又可以始终如一地胜过最先进的方法。特别是,与HMER的编码器模型相比,提议的计数模块引起的额外时间成本是边缘的。源代码可从https://github.com/lbh1024/can获得。
translated by 谷歌翻译
我们提出了Pangu-Coder,这是一种仅预读的解码器语言模型,该模型采用pangu-alpha架构进行文本到代码生成,即给定自然语言问题描述的编程语言解决方案的合成。我们使用两阶段策略训练Pangu-Coder:第一阶段采用因果语言建模(CLM)来预先培训原始编程语言数据,而第二阶段则使用因果语言建模和掩盖语言建模(MLM)的组合培训目标,专注于文本到代码生成的下游任务,并培训松散的自然语言程序定义和代码功能。最后,我们讨论了pangu-coder-ft,该pander the是通过竞争性编程问题和代码与持续集成测试的结合进行了微调的。我们评估了pangu-coder,重点是它是否生成功能上正确的程序,并证明它在参加较小的上下文窗口和较少的数据培训的同时,它比诸如Codex之类的类似大小的模型(例如Codex)实现等效性或更好的性能。
translated by 谷歌翻译
Vision Transformer(VIT)最近由于其出色的模型功能而引起了计算机视觉的极大关注。但是,大多数流行的VIT模型都有大量参数,从而限制了其在资源有限的设备上的适用性。为了减轻这个问题,我们提出了Tinyvit,这是一个新的小型,有效的小型视觉变压器,并通过我们提议的快速蒸馏框架在大型数据集上预处理。核心思想是将知识从大型模型转移到小型模型,同时使小型模型能够获得大量预处理数据的股息。更具体地说,我们在预训练期间应用蒸馏进行知识转移。大型教师模型的徽标被稀疏并提前存储在磁盘中,以节省内存成本和计算开销。微小的学生变形金刚自动从具有计算和参数约束的大型审计模型中缩小。全面的实验证明了TinyVit的功效。它仅具有21m参数的Imagenet-1k上的前1个精度为84.8%,与在Imagenet-21K上预读的SWIN-B相当,而使用较少的参数则使用了4.2倍。此外,增加图像分辨率,TinyVit可以达到86.5%的精度,仅使用11%参数,比SWIN-L略好。最后但并非最不重要的一点是,我们在各种下游任务上展示了TinyVit的良好转移能力。代码和型号可在https://github.com/microsoft/cream/tree/main/tinyvit上找到。
translated by 谷歌翻译
心肌的准确分割和运动估计在临床领域一直很重要,这基本上有助于下游诊断。但是,现有方法不能始终保证心肌分割的形状完整性。此外,运动估计需要在不同帧上对心肌区域的点对应关系。在本文中,我们提出了一种新型的端到端深度统计形状模型,以关注具有形状完整性和边界对应关系的心肌分割。具体而言,心肌形状由固定数量的点表示,其变化是通过主成分分析(PCA)提取的。深神经网络用于预测转换参数(仿射和变形),然后将其用于将平均点云转转到图像域。此外,引入了一个可区分的渲染层,以将掩码的监督纳入框架中,以了解更准确的点云。通过这种方式,所提出的方法能够在不进行后处理的情况下始终如一地产生解剖上合理的分割掩码。此外,预测的点云还保证了顺序图像的边界对应关系,这有助于下游任务,例如心肌的运动估计。我们进行了几项实验,以证明在几个基准数据集上提出的方法的有效性。
translated by 谷歌翻译