我们提出了一种新型多阵线网络,用于了解凝视估计的强大眼睛表示。我们首先使用模拟器创建包含细节可见眼球和虹膜的眼睛区域掩模的合成数据集。然后,我们用U-Net类型模型执行眼部区域分割,我们以后用于生成真实眼睛图像的眼睛区域掩模。接下来,我们在真实域中预留眼睛图像编码器,具有自我监督的对比学习,以学习广义眼睛表示。最后,这种预制的眼编码器以及两个用于可见眼球区域和虹膜的另外的编码器,在我们的多阵线框架中并行使用,以提取来自现实世界图像的凝视估计的突出特征。我们在两个不同的评估设置中展示了我们对眼部数据集的方法的性能,实现了最先进的结果,优于此数据集的所有现有基准。我们还开展额外的实验,以验证我们自我监督网络的鲁棒性,了解用于培训的不同数量的标记数据。
translated by 谷歌翻译
我们提出了一种用于面部表情识别的端到端架构。我们的模型了解面部地标的最佳树拓扑,其遍历生成一条序列,我们从中获取嵌入以馈送顺序学习者。该拟议的架构包含两个主要的流,一个主要用于学习脸部的结构,而另一个侧重于地标周围的贴片以学习纹理信息。然后,每个流都是注意机制,并且输出被馈送到两流融合组件以执行最终分类。我们对两种大型公共面部表情数据集,CheftNET和FER2013进行了广泛的实验,以评估我们的方法的功效。我们的方法优于该区域中的其他解决方案,并在这些数据集上设置新的最先进的表达式识别率。
translated by 谷歌翻译
智能家庭中使用的技术有所改善,以便从反馈中了解用户偏好,以便为用户提供便利。大多数智能家庭学习统一的模型,以表示当乘员池包括不同年龄,性别和地点的人时通常失败的用户的热偏好。对于每个用户来说具有不同的热敏感觉对智能家庭构成挑战,以便在不忘记他人的政策的情况下为每个乘员学习个性化偏好。当具有不同偏好的新用户集成在家中时,具有单个最佳政策的智能家庭可能无法提供舒适性。在本文中,我们提出了一种贝母,一种贝叶斯增强学习算法,可以使用其热偏好来近似当前可观察环境中的当前乘员状态,然后决定它是新的占用者还是属于先前观察到的用户的池。然后,我们将POSHS算法与基于LSTM的算法进行比较,用于学习和估计乘员的当前状态,同时还采用最佳动作来减少设置偏好所需的时间。我们根据等级加固学习,使用高达5种模拟人类模型进行这些实验。结果表明,豪华可以从其温度和湿度偏好地近似当前用户状态,并且还减少了在智能家庭存在下通过人体模型设定最佳温度和湿度所需的时间步长的数量。
translated by 谷歌翻译
我们呈现了一个用于学习视听表示的自我监督的框架。在我们的框架中引入了一种小说概念,其中除了学习模态和标准的“同步的”跨模型关系之外,riscross也会学习“异步”的跨模式关系。我们展示通过放松音频和视觉模态之间的时间同步性,网络了解强劲的时间不变的表示。我们的实验表明,音频和视觉方式的强大增强,可放松交叉模态时间同步优化性能。要预先绘制我们提出的框架,我们使用具有不同大小,动力学,动力学-400和augioset的不同数据集。学习的表示是在许多下游任务中评估的,即行动识别,声音分类和检索。 Crisscross显示了动作识别的最先进的性能(UCF101和HMDB51)和声音分类(ESC50)。将公开可用的代码和预赠品模型。
translated by 谷歌翻译
我们提出了一种基于相交的球体的新型关键点投票方案,其比现有方案更准确,并且允许较小的更多分散关键点。该方案基于点之间的距离,其作为1D数量可以比在先前的工作中的2D和3D向量和偏移量中更精确地回归,从而产生更准确的小点定位。该方案构成了RGB-D数据中的6 DOF姿势估计的所提出的RCVPOS方法的基础,这在处理闭塞时特别有效。训练CNN以估计与每个RGB像素的深度模式对应的3D点之间的距离,以及在对象帧中定义的一组3分散键点。在推断下,产生在每个3D点处的球体,其半径等于该估计距离。这些球体的表面投票给增量3D累加器空间,其峰值指示Keypoint位置。所提出的径向投票方案比以前的矢量或偏移方案更准确,并且稳健地分散关键点。实验表明,RCPOSE是高度准确和竞争的,在LineMod 99.7%和YCB-Video 97.2%数据集上实现最先进的结果,显着得分+ 7.9%(71.1%)比以前的挑战遮挡Linemod上的方法数据集。
translated by 谷歌翻译
类别不平衡发生在许多实际应用程序中,包括图像分类,其中每个类中的图像数量显着不同。通过不平衡数据,生成的对抗网络(GANS)倾向于多数类样本。最近的两个方法,平衡GaN(Bagan)和改进的Bagan(Bagan-GP)被提出为增强工具来处理此问题并将余额恢复到数据。前者以无人监督的方式预先训练自动化器权重。但是,当来自不同类别的图像具有类似的特征时,它是不稳定的。后者通过促进监督的自动化培训培训,基于蒲甘进行改善,但预先培训偏向于多数阶级。在这项工作中,我们提出了一种新颖的条件变形式自动化器,具有用于生成的对抗性网络(CAPAN)的平衡训练,作为生成现实合成图像的增强工具。特别是,我们利用条件卷积改变自动化器,为GaN初始化和梯度惩罚培训提供了监督和平衡的预培训。我们所提出的方法在高度不平衡版本的MNIST,时尚 - MNIST,CIFAR-10和两个医学成像数据集中呈现出卓越的性能。我们的方法可以在FR \'回路截止距离,结构相似性指数测量和感知质量方面综合高质量的少数民族样本。
translated by 谷歌翻译
过去十年迅速采用了人工智能(AI),特别是深度学习网络,在医学互联网上(IOMT)生态系统。然而,最近已经表明,深度学习网络可以通过对抗性攻击来利用,这不仅使得IOMT易受数据盗窃,而且对医学诊断的操纵。现有的研究考虑将噪声添加到原始IOMT数据或模型参数中,这不仅可以降低医学推断的整体性能,而且对从梯度方法的深度泄漏的喜好是无效的。在这项工作中,我们提出了近端渐变分流学习(PSGL)方法,用于防范模型反演攻击。所提出的方法故意在客户端进行深度神经网络培训过程时攻击IOMT数据。我们建议使用近端梯度方法来恢复梯度图和决策级融合策略以提高识别性能。广泛的分析表明,PGSL不仅为模型反演攻击提供有效的防御机制,而且有助于提高公共可用数据集的识别性能。我们分别在重建和对冲攻击图像中准确地报告17.9美元\%$和36.9美元。
translated by 谷歌翻译
我们考虑一个平台从隐私敏感用户收集数据的问题,以估计潜在的感兴趣的参数。我们将这个问题作为贝叶斯的最佳机制设计问题,其中个人可以共享她的(可验证的)数据以换取货币奖励或服务,但同时有一个(私人)的异构隐私成本,我们量化使用差异隐私。我们考虑两个流行的差异隐私设置,为用户提供隐私保障:中央和本地。在两个设置中,我们为估计错误建立Minimax下限,并导出(接近)用户的异构隐私损失水平的最佳估计器。在这个特征上构建,我们将机制设计问题构成为最佳选择,以估计和支付将引起用户隐私敏感性的真实报告。在隐私敏感性分布的规律性条件下,我们开发有效的算法机制来解决两个隐私设置中的这个问题。我们在中央设置中的机制可以在时间$ \ mathcal {o}(n \ log n)$,其中$ n $是当地设置中的用户数以及我们的机制承认多项式时间近似方案(PTA)。
translated by 谷歌翻译
在本文中,我们介绍了Amharic语音情绪数据集(亚胺),涵盖了四条方言(Gojjam,Wollo,Shewa和Londer)和五种不同的情绪(中性,恐惧,快乐,悲伤和生气)。我们认为它是Amharic语言的第一个语音情感认可(Ser)数据集。 65志愿者参与者,所有母语人员,记录2,474个声音样本,长度为2至4秒。八名法官将情绪分配给具有高协议水平的样本(Fleiss Kappa = 0.8)。生成的数据集可免费下载。接下来,我们开发了一个四层变体,我们称之为vggb。然后使用vggb进行三种实验,用于Ser,使用ASED。首先,我们研究了熔融谱图特征或熔融频率谱系数(MFCC)的特点是Amharic最适合的。这是通过培训ASID的两个VGGB SER模型来完成的,使用MEL-谱图和使用MFCC的另一个。尝试了四种形式的培训,标准交叉验证和三种变体,基于句子,方言和扬声器组。因此,用于训练的句子不会用于测试,以及方言和扬声器组的句子。结论是,在所有四种训练方案下,MFCC功能都是优越的。因此,MFCC采用实验2,其中VGGB和其他三种现有模型进行了验证:Resnet50,Alex-Net和LSTM。 vggb被发现具有非常好的准确性(90.73%)以及最快的培训时间。在实验3中,在培训在两个现有的SER数据集,RAVDES(英语)和EMO-DB(德语)以及ASED(Amharic)上进行培训时比较VGGB的性能。结果与这些语言相当,仿真是最高的。这表明VGGB可以成功应用于其他语言。我们希望Ased将鼓励研究人员试验其他模型为Amharic Ser。
translated by 谷歌翻译
Covid-19大流行强调了对疫情模型的强大了解的需要。目前的流行模型被归类为机械或非机械方式:机械模型对疾病的动态作出明确的假设,而非机械模型对观察时间序列的形式做出假设。在这里,我们介绍了一种简单的混合模型,该模型桥接两种方法,同时保持两者的益处。该模型表示作为高斯曲线的混合的情况和死亡率的时间序列,提供灵活的函数类,与传统的机制模型相比从数据中学习。虽然该模型是非机械的,但我们表明它是基于网络SIR框架的随机过程的自然结果。这允许学习参数与类似的非机械模型相比,使用更有意义的解释,并且我们使用在Covid-19流行期间收集的辅助移动性数据来验证解释。我们提供了一种简单的学习算法来识别模型参数并建立显示模型可以从数据有效学习模型的理论结果。凭经验,我们发现模型具有低预测误差。该模型可在CovidPredictions中提供.Mit.edu。最终,这使我们能够系统地了解干预措施对Covid-19的影响,这对于开发数据驱动的解决方案来控制流行病的解决方案至关重要。
translated by 谷歌翻译