智能论文笔记

Forecasting User Interests Through Topic Tag Predictions in Online Health Communities

Amogh Subbakrishna Adishesha , Lily Jakielaszek , Fariha Azhar , Peixuan Zhang , Vasant Honavar , Fenglong Ma , Chandra Belani , Prasenjit Mitra , Sharon Xiaolei Huang

分类：机器学习

2022-11-05

The increasing reliance on online communities for healthcare information by patients and caregivers has led to the increase in the spread of misinformation, or subjective, anecdotal and inaccurate or non-specific recommendations, which, if acted on, could cause serious harm to the patients. Hence, there is an urgent need to connect users with accurate and tailored health information in a timely manner to prevent such harm. This paper proposes an innovative approach to suggesting reliable information to participants in online communities as they move through different stages in their disease or treatment. We hypothesize that patients with similar histories of disease progression or course of treatment would have similar information needs at comparable stages. Specifically, we pose the problem of predicting topic tags or keywords that describe the future information needs of users based on their profiles, traces of their online interactions within the community (past posts, replies) and the profiles and traces of online interactions of other users with similar profiles and similar traces of past interaction with the target users. The result is a variant of the collaborative information filtering or recommendation system tailored to the needs of users of online health communities. We report results of our experiments on an expert curated data set which demonstrate the superiority of the proposed approach over the state of the art baselines with respect to accurate and timely prediction of topic tags (and hence information sources of interest).

translated by 谷歌翻译

Ensemble uncertainty as a criterion for dataset expansion in distinct bone segmentation from upper-body CT images

Eva Schnider , Antal Huck , Mireille Toranelli , Georg Rauter , Azhar Zam , Magdalena Müller-Gerbl , Philippe Cattin

分类：计算机视觉

2022-08-19

目的：单个骨骼的本地化和细分是许多计划和导航应用程序中重要的预处理步骤。但是，如果手动完成，这是一项耗时和重复的任务。这不仅对于临床实践，而且对于获取培训数据都是正确的。因此，我们不仅提出了一种端到端学习的算法，该算法能够在上身CT中分割125个不同的骨骼，而且还提供了基于合奏的不确定性度量，有助于单张扫描以扩大训练数据集。方法我们使用受3D-UNET和完全监督培训启发的神经网络体系结构创建全自动的端到端学习细分。使用合奏和推理时间扩展改进结果。我们研究了合奏 - 不确定性与未标记的扫描的前瞻性用途，这是培训数据集的一部分。结果：我们的方法在16个上体CT扫描的内部数据集上进行评估，每个维度的分辨率为\ si {2} {\ milli \ meter}。考虑到我们标签集中的所有125个骨头，我们最成功的合奏中位数骰子得分系数为0.83。我们发现扫描的集合不确定性与其对扩大训练集中获得的准确性的前瞻性影响之间缺乏相关性。同时，我们表明集成不确定性与初始自动分割后需要手动校正的体素数量相关，从而最大程度地降低了最终确定新的地面真实分段所需的时间。结论：结合结合，集合不确定性低的扫描需要更少的注释时间，同时产生类似的未来DSC改进。因此，它们是扩大从CT扫描的上身不同骨分割的训练集的理想候选者。 }

translated by 谷歌翻译

Efficient Classification with Counterfactual Reasoning and Active Learning

Azhar Mohammed , Dang Nguyen , Bao Duong , Thin Nguyen

分类：机器学习 | 人工智能

2022-07-25

数据增强是提高计算机视觉中机器学习模型的分类精度的最成功的技术之一。但是，将数据增强应用于表格数据是一个具有挑战性的问题，因为很难用标签生成合成样本。在本文中，我们提出了一种有效的分类器，该分类器采用用于表格数据的新型数据增强技术。我们称为CCRAL的方法结合了因果推理，以学习原始培训样本的反事实样本，并积极学习以基于不确定性区域选择有用的反事实样本。通过这样做，我们的方法可以最大化模型对看不见的测试数据的概括。我们通过分析验证我们的方法，并与标准基线进行比较。我们的实验结果强调，就精度和AUC而言，CCRAL的性能要比几个现实世界中的基准数据集的性能要好得多。数据和源代码可在以下网址获得：https：//github.com/nphdang/ccral。

translated by 谷歌翻译

Neurosymbolic Repair for Low-Code Formula Languages

Rohan Bavishi , Harshit Joshi , José Pablo Cambronero Sánchez , Anna Fariha , Sumit Gulwani , Vu Le , Ivan Radicek , Ashish Tiwari

分类：人工智能

2022-07-24

大多数低编码平台的用户，例如Excel和PowerApps，都以特定于域的公式语言编写程序来执行非平凡的任务。用户通常可以编写他们想要的大部分程序，但是引入了一些小错误，这些错误会产生破损的公式。这些错误既可以是句法和语义，也很难让低代码用户识别和修复，即使只能通过一些编辑解决。我们正式化了产生最后一英里维修问题等编辑的问题。为了解决这个问题，我们开发了Lamirage，这是一种最后一英里的维修发动机发电机，结合了符号和神经技术，以低代码公式语言进行最后一英里维修。 Lamirage采用语法和一组特定领域的约束/规则，它们共同近似目标语言，并使用它们来生成可以用该语言修复公式的维修引擎。为了应对本地化错误和对候选维修进行排名的挑战，Lamirage利用神经技术，而它依赖于符号方法来生成候选维修。这种组合使Lamirage可以找到满足提供的语法和约束的维修，然后选择最自然的修复。我们将Lamirage与400个Real Excel和PowerFX公式的最新神经和符号方法进行了比较，其中Lamirage的表现优于所有基线。我们释放这些基准，以鼓励在低代码域中进行后续工作。

translated by 谷歌翻译

Feature Representation Learning for Robust Retinal Disease Detection from Optical Coherence Tomography Images

Sharif Amit Kamran , Khondker Fariha Hossain , Alireza Tavakkoli , Stewart Lee Zuckerbrod , Salah A. Baker

分类：计算机视觉

2022-06-24

眼科图像可能包含相同的外观病理，这些病理可能导致自动化技术的失败以区分不同的视网膜退行性疾病。此外，依赖大型注释数据集和缺乏知识蒸馏可以限制基于ML的临床支持系统在现实环境中的部署。为了提高知识的鲁棒性和可传递性，需要一个增强的特征学习模块才能从视网膜子空间中提取有意义的空间表示。这样的模块（如果有效使用）可以检测到独特的疾病特征并区分这种视网膜退行性病理的严重程度。在这项工作中，我们提出了一个具有三个学习头的健壮疾病检测结构，i）是视网膜疾病分类的监督编码器，ii）一种无监督的解码器，用于重建疾病特异性的空间信息，iiii iii）一个新的表示模块，用于学习模块了解编码器折叠功能和增强模型的准确性之间的相似性。我们对两个公开可用的OCT数据集的实验结果表明，该模型在准确性，可解释性和鲁棒性方面优于现有的最新模型，用于分布视网膜外疾病检测。

translated by 谷歌翻译

Phantom: A High-Performance Computational Core for Sparse Convolutional Neural Networks

Mahmood Azhar Qureshi , Arslan Munir

分类：人工智能

2021-11-09

稀疏卷积神经网络（CNNS）在过去几年中获得了显着的牵引力，因为与其致密的对应物相比，稀疏的CNNS可以大大降低模型尺寸和计算。稀疏的CNN经常引入层形状和尺寸的变化，这可以防止密集的加速器在稀疏的CNN模型上执行良好。最近提出的稀疏加速器，如SCNN，Eyeriss V2和Sparten，积极利用双面或全稀稀物质，即重量和激活的稀疏性，用于性能收益。然而，这些加速器具有低效的微架构，其限制了它们的性能，而不对非单位步幅卷积和完全连接（Fc）层的支持，或者遭受系统负荷不平衡的大规模遭受。为了规避这些问题并支持稀疏和密集的模型，我们提出了幻影，多线程，动态和灵活的神经计算核心。 Phantom使用稀疏二进制掩码表示，以主动寻求稀疏计算，并动态调度其计算线程以最大化线程利用率和吞吐量。我们还生成了幻象神经计算核心的二维（2D）网格体系结构，我们将其称为Phantom-2D加速器，并提出了一种支持CNN的所有层的新型数据流，包括单位和非单位步幅卷积，和fc层。此外，Phantom-2D使用双级负载平衡策略来最小化计算空闲，从而进一步提高硬件利用率。为了向不同类型的图层显示支持，我们评估VGG16和MobileNet上的幻影架构的性能。我们的模拟表明，Phantom-2D加速器分别达到了12倍，4.1 X，1.98x和2.36倍，超密架构，SCNN，Sparten和Eyeriss V2的性能增益。

translated by 谷歌翻译

ECG-ATK-GAN: Robustness against Adversarial Attacks on ECGs using Conditional Generative Adversarial Networks

Khondker Fariha Hossain , Sharif Amit Kamran , Alireza Tavakkoli , Xingjun Ma

分类：人工智能 | 机器学习

2021-10-17

从心电图中自动化心律失常的自动化检测需要一个可靠且值得信赖的系统，该系统在电动扰动下保持高精度。许多机器学习方法在对心电图的心律不齐分类方面已经达到了人类水平的表现。但是，这些体系结构容易受到对抗攻击的影响，这可能会通过降低模型的准确性来误解ECG信号。对抗性攻击是在原始数据中注入的小型制作的扰动，这些扰动表现出信号的过度分发转移，以错误地分类正确的类。因此，滥用这些扰动的虚假住院和保险欺诈引起了安全问题。为了减轻此问题，我们引入了第一个新型的条件生成对抗网络（GAN），可抵抗对抗性攻击的ECG信号，并保持高精度。我们的体系结构集成了一个新的类加权目标函数，用于对抗扰动识别和新的块，用于辨别和组合学习过程中信号中的分布外变化，以准确地对各种心律失常类型进行分类。此外，我们在六种不同的白色和黑色盒子攻击上对架构进行了基准测试，并将它们与最近提出的其他心律失常分类模型进行比较，这是两个公开可用的ECG心律失常数据集。该实验证实，我们的模型对这种对抗性攻击更为强大，以高精度对心律不齐进行分类。

translated by 谷歌翻译

Through the Data Management Lens: Experimental Analysis and Evaluation of Fair Classification

Maliha Tashfia Islam , Anna Fariha , Alexandra Meliou , Babak Salimi

分类：机器学习

2021-01-18

分类，一种重大研究的数据驱动机器学习任务，驱动越来越多的预测系统，涉及批准的人类决策，如贷款批准和犯罪风险评估。然而，分类器经常展示歧视性行为，特别是当呈现有偏置数据时。因此，分类公平已经成为一个高优先级的研究区。数据管理研究显示与数据和算法公平有关的主题的增加和兴趣，包括公平分类的主题。公平分类的跨学科努力，具有最大存在的机器学习研究，导致大量的公平概念和尚未系统地评估和比较的广泛方法。在本文中，我们对13个公平分类方法和额外变种的广泛分析，超越，公平，公平，效率，可扩展性，对数据误差的鲁棒性，对潜在的ML模型，数据效率和使用各种指标的稳定性的敏感性和稳定性现实世界数据集。我们的分析突出了对不同指标的影响的新颖见解和高级方法特征对不同方面的性能方面。我们还讨论了选择适合不同实际设置的方法的一般原则，并确定以数据管理为中心的解决方案可能产生最大影响的区域。

translated by 谷歌翻译