在当今智能网络物理系统时代,由于它们在复杂的现实世界应用中的最新性能,深度神经网络(DNN)已无处不在。这些网络的高计算复杂性转化为增加的能源消耗,这是在资源受限系统中部署大型DNN的首要障碍。通过培训后量化实现的定点(FP)实现通常用于减少这些网络的能源消耗。但是,FP中的均匀量化间隔将数据结构的位宽度限制为大值,因为需要以足够的分辨率来表示大多数数字并避免较高的量化误差。在本文中,我们利用了关键见解,即(在大多数情况下)DNN的权重和激活主要集中在零接近零,只有少数几个具有较大的幅度。我们提出了Conlocnn,该框架是通过利用来实现节能低精度深度卷积神经网络推断的框架:(1)重量的不均匀量化,以简化复杂的乘法操作的简化; (2)激活值之间的相关性,可以在低成本的情况下以低成本进行部分补偿,而无需任何运行时开销。为了显着从不均匀的量化中受益,我们还提出了一种新颖的数据表示格式,编码低精度二进制签名数字,以压缩重量的位宽度,同时确保直接使用编码的权重来使用新颖的多重和处理 - 积累(MAC)单元设计。
translated by 谷歌翻译
过渡到成年是许多家庭的重要生活阶段。先前的研究表明,具有智力或发展的年轻人(IDD)比同龄人面临的挑战更多。这项研究是为了探索如何使用自然语言处理(NLP)方法,尤其是无监督的机器学习,以帮助心理学家分析情绪和情感,并使用主题建模来确定年轻人IDD及其家人所拥有的常见问题和挑战。此外,将结果与从没有IDD的年轻人那里获得的结果进行了比较。研究结果表明,NLP方法对于心理学家分析情绪,进行跨案例分析并从对话数据中汇总关键主题非常有用。我们的Python代码可在https://github.com/mlaricheva/emotion_topic_modeling上找到。
translated by 谷歌翻译
会话数据在心理学中至关重要,因为它可以帮助研究人员了解个人的认知过程,情感和行为。话语标签是分析此类数据的常见策略。 NLP算法的开发使研究人员可以自动化此任务。但是,心理对话数据给NLP研究人员带来了一些挑战,包括多标签分类,大量类别和有限的可用数据。这项研究探讨了NLP方法生成的自动标签如何与人类在成年过渡的对话的背景下与人类标签相媲美。我们提出了应对心理学研究中提出的三个共同挑战的策略。我们的发现表明,具有领域适应性的深度学习方法(Roberta-Con)优于所有其他机器学习方法。我们提出的分层标签系统被证明可帮助研究人员战略性地分析对话数据。我们的Python代码和NLP模型可在https://github.com/mlaricheva/automated_labeling上获得。
translated by 谷歌翻译
乳腺癌是最常见的癌症,并寄存癌症的妇女的最多死亡人数。结合大规模筛查政策的诊断活动的最新进展显着降低了乳腺癌患者的死亡率。然而,病理学家手动检查病理学家的载玻片是麻烦的,耗时的,并且受到显着的和观察者内的变异性。最近,全幻灯片扫描系统的出现授权了病理幻灯片的快速数字化,并启用了开发数字工作流程。这些进步进一步使利用人工智能(AI)来协助,自动化和增强病理诊断。但是AI技术,尤其是深度学习(DL),需要大量的高质量注释数据来学习。构建此类任务特定的数据集造成了几个挑战,例如数据获取级别约束,耗时和昂贵的注释,以及私人信息的匿名化。在本文中,我们介绍了乳腺癌亚型(BRACS)DataSet,一个大队列的注释血清杂环蛋白和eosin(H&E) - 染色的图像,以促进乳房病变的表征。 BRACS包含547个全幻灯片图像(WSIS),并从WSI中提取4539个兴趣区域(ROI)。每个WSI和各自的ROI都是通过三个董事会认证的病理学家的共识注释为不同的病变类别。具体而言,Bracs包括三种病变类型,即良性,恶性和非典型,其进一步亚级分为七个类别。据我们所知,这是WSI和ROI水平的最大的乳腺癌亚型的附带数据集。此外,通过包括被升值的非典型病变,Bracs提供了利用AI更好地理解其特征的独特机会。
translated by 谷歌翻译
图形神经网络(GNNS)是图形处理的广泛连接主义模型。它们对每个节点及其邻居进行迭代消息传递操作,以解决分类/群集任务 - 在某些节点或整个图表上 - 无论其订单如何,都会收集所有此类消息。尽管属于该类的各种模型之间的差异,但大多数基于本地聚合机制和直观地采用相同的计算方案,并直观地,本地计算框架主要负责GNN的表现力。在本文中,我们证明了Weisfeiler - Lehman测试在恰好对应于原始GNN模型上定义的展开等价的图表节点上引起了等效关系。因此,原始GNN的表现力的结果可以扩展到一般GNN,其在​​温和条件下可以证明能够以概率和最高的任何精度近似于朝向展开等价的图表中的任何功能。
translated by 谷歌翻译
适当的评估和实验设计对于经验科学是基础,尤其是在数据驱动领域。例如,由于语言的计算建模成功,研究成果对最终用户产生了越来越直接的影响。随着最终用户采用差距的减少,需求增加了,以确保研究社区和从业者开发的工具和模型可靠,可信赖,并且支持用户的目标。在该立场论文中,我们专注于评估视觉文本分析方法的问题。我们从可视化和自然语言处理社区中采用跨学科的角度,因为我们认为,视觉文本分析的设计和验证包括超越计算或视觉/交互方法的问题。我们确定了四个关键的挑战群,用于评估视觉文本分析方法(数据歧义,实验设计,用户信任和“大局”问题),并从跨学科的角度为研究机会提供建议。
translated by 谷歌翻译
由于控制结构特性关系的分子间相互作用的微妙平衡,预测由分子构建块形成的晶体结构的稳定性是一个高度非平凡的科学问题。一种特别活跃和富有成果的方法涉及对相互作用的化学部分的不同组合进行分类,因为了解不同相互作用的相对能量可以使分子晶体的设计和微调其稳定性。尽管这通常是基于对已知晶体结构中最常见的基序的经验观察进行的,但我们建议采用有监督和无监督的机器学习技术的组合来自动化分子构建块的广泛库。我们介绍了一个针对有机晶体的结合能量预测的结构描述符,并利用以原子为中心的性质来获得对不同化学基团对晶体晶格能量的贡献的数据驱动评估。然后,我们使用结构 - 能量景观的低维表示来解释该库,并讨论可以从本分析中提取的见解的选定示例,从而提供了一个完整的数据库来指导分子材料的设计。
translated by 谷歌翻译
通常通过后处理,涉及降低和后续可视化来解释高维数据的聚类结果。这破坏了数据的含义并混淆了解释。我们提出了算法 - 敏捷的解释方法,以在缩小尺寸中解释聚类结果,同时保留数据的完整性。集群的置换特征重要性代表基于改组特征值并通过自定义分数功能衡量群集分配的变化的一般框架。集群的个体条件期望表明由于数据的变化而导致群集分配的观察变化。聚类的部分依赖性评估整个特征空间的群集分配的平均变化。所有方法都可以与能够通过软标签重新分配实例的任何聚类算法一起使用。与常见的后处理方法(例如主组件分析)相反,引入的方法保持了特征的原始结构。
translated by 谷歌翻译
尽管最近的自动文本识别取得了进步,但在历史手稿方面,该性能仍然保持温和。这主要是因为缺乏可用的标记数据来训练渴望数据的手写文本识别(HTR)模型。由于错误率的降低,关键字发现系统(KWS)提供了HTR的有效替代方案,但通常仅限于封闭的参考词汇。在本文中,我们提出了一些学习范式,用于发现几个字符(n-gram)的序列,这些序列需要少量标记的训练数据。我们表明,对重要的n-gram的认识可以减少系统对词汇的依赖。在这种情况下,输入手写线图像中的vocabulary(OOV)单词可能是属于词典的n-gram序列。对我们提出的多代表方法进行了广泛的实验评估。
translated by 谷歌翻译
糖尿病足溃疡(DFUS)对于糖尿病患者来说是严重的并发症。为了实现现有溃疡的早期诊断,预防溃疡和并发症管理,可以通过自我管理来大大改善DFU患者的护理。在本文中,我们研究了两类图像到图像翻译技术(ITITT),这些技术将支持糖尿病足溃疡的决策和监测:降噪和超分辨率。在前一种情况下,我们调查了消除噪声的功能,用于卷积神经网络堆叠的AutoCoders(CNN-SAE)。在用高斯噪声诱导的RGB图像上测试了CNN-SAE。后一种情况涉及部署四个深度学习超分辨率模型。对于两种情况,所有模型的性能均以执行时间和感知质量进行评估。结果表明,应用技术组成了可行且易于实现的替代方案,该替代方案应由设计用于DFU监视的任何系统使用。
translated by 谷歌翻译