自动抑郁症检测的最新进展主要来自模态融合和深度学习方法。然而,多模式方法在数据收集阶段存在显着的困难,而深度学习方法的不透明性降低了其可信度。目前的这项工作提出了一个基于文本的多任务BLSTM模型,该模型具有预训练的单词嵌入。我们的方法输出抑制存在结果以及预测的严重性评分,最终达到0.87的最新F1评分,优于之前的多模态研究。与目前可用的基于文本的方法相比,我们还实现了最低的RMSE。此外,通过利用每个时间步骤的注意机制,我们分析了在预测郁状态方面贡献最大的句子/单词。令人惊讶的是,“无意义”的单词/副语言信息,例如“真”和“呃”,是我们模型在做出抑郁预测时的指标。这是第一次透露,在谈话中的填充者是深度学习模型的抑郁警报。
translated by 谷歌翻译
越来越多的研究揭示了机器对音频事件的感知,其中大部分涉及检测和分类任务。然而,人类对音频场景的感知不仅涉及检测和分类音频声音,还涉及总结不同音频事件之间的关系。已经进行了诸如图像标题之类的可比较研究,但音频领域仍然非常贫瘠。本文介绍了一个用于音频字幕的手动注释数据集。目的是为音频场景描述自动生成自然语句,并弥合机器对音频和图像的感知之间的差距。整个数据集在曼德林中标记,我们还包括翻译的英语注释。为英语和普通话提供了基线编码器 - 解码器模型。类似的BLEUscores是针对两种语言派生的:我们的模型可以基于数据集生成可理解的和与数据相关的标题。
translated by 谷歌翻译
多域学习(MDL)旨在获得跨多个域的最小平均风险的模型。我们的经验动机是自动显微镜,其中培养的细胞在暴露于已知和未知的化学扰动后成像,并且每个数据集显示显着的实验性偏差。本文提出了一种多域对抗性学习方法MuLANN,用于在asemi监督的环境中利用具有重叠但不同的类集的多个数据集。我们的贡献包括:i)使用H-散度获得的MDL平均和最差域风险的界限; ii)新的lossto适应半监督的多领域学习和领域适应; iii)方法的实验验证,改进两个标准图像基准上的theart状态,以及新的生物图像数据集Cell。
translated by 谷歌翻译
用于涉及飞行或移动摄像机的户外场景的自主运动捕捉(mocap)系统依赖于i)机器人前端在他/她执行身体活动时实时跟踪和跟踪人类主体,以及ii)算法后端从保存的视频中估计全身人体姿势和形状。在本文中,我们为我们的航空mocapsystem提供了一个新颖的前端,它由多个微型飞行器(MAV)组成,只有单板相机和计算。在以前的工作中,我们提出了一种使用多个MAV对受试者进行协作检测和跟踪(CDT)的方法。但是,它并没有确保MAV的最佳视点配置能够最大限度地提高人们协同跟踪的3D位置估计中的不确定性。在本文中,我们介绍了CDT的主动方法。相比之下,仅协作地跟踪人的3D位置,MAV可以现在主动地计算最佳局部运动计划,从而产生最佳视点配置,其最小化跟踪估计中的不确定性。通过将主动跟踪的目标解耦为对应于MAV的角度配置的凸二次目标和非凸约束来解决这个问题。此人。我们使用CDT算法中的高斯观察模式假设来推导它。我们还展示了我们如何嵌入所有非凸面约束,包括动态和静态障碍的约束,作为MPC动力学中的外部控制输入。在几个具有挑战性的情况下,提供了多个真实的机器人实验和比较,涉及3个MAV(视频链接:https://youtu.be/1qWW2zWvRhA)。广泛的仿真结果证明了我们方法的可扩展性和稳健性。还提供了基于ROS的源代码。
translated by 谷歌翻译
本文介绍了适用于微型飞行器的地面相关测量传感器的设计和实现。该传感器基于地面摄像头和基于Linux的单板嵌入式计算机,具有多媒体片上系统(SoC)。 SoC具有硬件视频编码器,用于在线估算光流。然后将光流与距离传感器结合使用以估计车辆的速度。将所提出的传感器与类似的现有解决方案进行比较,并在室内和室外环境中进行评估。
translated by 谷歌翻译
数据集通常包含不公平地使某些群体不利的偏见,并且在这些数据集上训练的分类器可以继承这些偏差。在本文中,我们提供了如何产生这种偏差的数学公式。我们这样做是因为存在潜在的,未知的和无偏见的标签,这些标签由打算提供准确标签但可能对某些群体产生偏见的代理商所覆盖。尽管我们只观察了偏置标记,但我们能够证明,通过在不改变标签的情况下对数据点进行加权来纠正偏差。我们通过理论保证表明,对重新加权数据集的训练对应于未观察到但无偏见的标签,从而导致无偏的机器学习分类器。我们的程序快速而稳健,几乎可以与任何学习算法一起使用。我们评估了许多标准机器学习公平数据集和各种公平性概念,发现我们的方法在实现公平分类方面优于标准方法。
translated by 谷歌翻译
最近对生成对抗网络(GAN)的改进使得可以基于诸如图像标题之类的自​​然语言描述来生成高分辨率的逼真图像。此外,条件GAN允许我们通过标签甚至自然语言描述来控制图像生成过程。然而,仍然难以实现图像布局的细粒度控制,即图像特定对象中的位置。对于应包含不同空间位置的多重对象的图像尤其如此。我们引入了一种新方法,它允许我们通过向生成器和鉴别器添加对象路径来控制伪像内任意多个对象的位置。我们的方法不需要详细的语义布局,只需要边界框和所需对象的相应标签是必要的。对象路径仅关注单个对象,并在边界框指定的位置迭代应用。全局路径侧重于图像背景和一般图像布局。我们在多MNIST,CLEVR和更复杂的MS-COCO数据集上进行实验。我们的实验表明,通过使用对象路径,我们可以控制图像中的对象位置,并且可以在不同的位置对具有多个对象的复杂场景进行建模。我们进一步表明,目标路径关注于个体对象并学习与这些对象相关的特征,而全局路径则关注全局图像特征和图像背景。
translated by 谷歌翻译
随着世界各地的社会老龄化,阿尔茨海默病(AD)患者的数量正在迅速增加。迄今为止,还没有建立低成本的非侵入性生物标志物来推进AD诊断和进展评估的客观化。在这里,我们利用贝叶斯神经网络利用各种定量EEG(QEEG)标记开发AD严重程度的多变量预测因子。神经网络的贝叶斯处理可以自动控制模型的复杂性,并提供目标函数的预测分布,为我们的回归任务提供不确定的界限。因此,它非常适合临床神经科学,其中数据集通常稀疏,从业者需要精确评估预测不确定性。我们使用有史以来最大的前瞻性AD EEGtrial之一的数据来证明贝叶斯深度学习在这个领域的潜力,同时比较两种不同的贝叶斯神经网络方法,即蒙特卡洛辍学和哈密尔顿蒙特卡罗。
translated by 谷歌翻译
虽然深度学习在医学图像分割的准确性方面取得了显着进步,但其对可变形图像配准的益处迄今为止仅限于减少计算时间。以前的工作要么专注于用CNN层替换距离和平滑度项的迭代优化,要么使用由标签驱动的监督方法。我们的方法首先将全局语义信息(由分段标签表示)和局部距离度量的互补优势结合起来,以帮助对齐周围的结构。与传统注册(79.0%)以及标签驱动的深度学习框架(83.4%)相比,我们证明了可变形心脏图像配准的显着更高的Dice评分(86.5%)。
translated by 谷歌翻译
DBSCAN是一种经典的基于密度的聚类过程,具有极大的实用意义。然而,它隐含地需要计算每个样本点的经验密度,导致二次最坏情况时间复杂度,这在大型数据集上可能太慢。我们提出DBSCAN ++,这是对DBSCAN的简单修改,它只需要计算点子集的密度。我们凭经验证明,与传统的DBSCAN相比,DBSCAN ++不仅可以提供竞争性能,还可以在带宽超参数中增加稳健性,同时占用运行时的一小部分。我们还提供了统计一致性保证,显示了计算成本和估算率之间的权衡。令人惊讶的是,直到某一点,我们可以享受相同的估计率,同时降低计算成本,表明DBSCAN ++是一种次二次算法,可以达到水平集估计的最小最优率,这种质量可能是独立的。
translated by 谷歌翻译