智能论文笔记

Grammar Detection for Sentiment Analysis through Improved Viterbi Algorithm

Surya Teja Chavali , Charan Tej Kandavalli , Sugash T M

分类：自然语言处理 | 机器学习

2022-05-26

Grammar Detection, also referred to as Parts of Speech Tagging of raw text, is considered an underlying building block of the various Natural Language Processing pipelines like named entity recognition, question answering, and sentiment analysis. In short, forgiven a sentence, Parts of Speech tagging is the task of specifying and tagging each word of a sentence with nouns, verbs, adjectives, adverbs, and more. Sentiment Analysis may well be a procedure accustomed to determining if a given sentence's emotional tone is neutral, positive or negative. To assign polarity scores to the thesis or entities within phrase, in-text analysis and analytics, machine learning and natural language processing, approaches are incorporated. This Sentiment Analysis using POS tagger helps us urge a summary of the broader public over a specific topic. For this, we are using the Viterbi algorithm, Hidden Markov Model, Constraint based Viterbi algorithm for POS tagging. By comparing the accuracies, we select the foremost accurate result of the model for Sentiment Analysis for determining the character of the sentence.

translated by 谷歌翻译

Maximum likelihood recursive state estimation in state-space models: A new approach based on statistical analysis of incomplete data

Budhi Arta Surya

分类： (统计)机器学习

2022-11-09

This paper revisits the work of Rauch et al. (1965) and develops a novel method for recursive maximum likelihood particle filtering for general state-space models. The new method is based on statistical analysis of incomplete observations of the systems. Score function and conditional observed information of the incomplete observations/data are introduced and their distributional properties are discussed. Some identities concerning the score function and information matrices of the incomplete data are derived. Maximum likelihood estimation of state-vector is presented in terms of the score function and observed information matrices. In particular, to deal with nonlinear state-space, a sequential Monte Carlo method is developed. It is given recursively by an EM-gradient-particle filtering which extends the work of Lange (1995) for state estimation. To derive covariance matrix of state-estimation errors, an explicit form of observed information matrix is proposed. It extends Louis (1982) general formula for the same matrix to state-vector estimation. Under (Neumann) boundary conditions of state transition probability distribution, the inverse of this matrix coincides with the Cramer-Rao lower bound on the covariance matrix of estimation errors of unbiased state-estimator. In the case of linear models, the method shows that the Kalman filter is a fully efficient state estimator whose covariance matrix of estimation error coincides with the Cramer-Rao lower bound. Some numerical examples are discussed to exemplify the main results.

translated by 谷歌翻译

Learning to Answer Semantic Queries over Code

Surya Prakash Sahu , Madhurima Mandal , Shikhar Bharadwaj , Aditya Kanade , Petros Maniatis , Shirish Shevade

分类：自然语言处理

2022-09-17

在软件开发过程中，开发人员需要回答有关代码语义方面的查询。即使已经用神经方法进行了广泛的自然语言研究，但尚未探索使用神经网络对代码回答语义查询的问题。这主要是因为没有现有的数据集，具有提取性问答和答案对，涉及复杂概念和较长推理的代码。我们通过构建一个名为Codequeries的新的，策划的数据集并提出了一种关于代码的神经问题方法来弥合这一差距。我们基于最先进的预训练的代码模型，以预测答案和支持事实跨度。给定查询和代码，只有一些代码可能与回答查询有关。我们首先在理想的环境下进行实验，其中仅给出了模型的相关代码，并表明我们的模型做得很好。然后，我们在三个务实的考虑因素下进行实验：（1）扩展到大尺寸的代码，（2）从有限数量的示例中学习，（3）代码中对次要语法错误的鲁棒性。我们的结果表明，虽然神经模型可以抵御代码中的次要语法错误，代码的大小增加，与查询无关的代码的存在以及减少的培训示例数量限制了模型性能。我们正在释放数据和模型，以促进未来关于回答代码语义查询的问题的工作。

translated by 谷歌翻译

A Mosquito is Worth 16x16 Larvae: Evaluation of Deep Learning Architectures for Mosquito Larvae Classification

Aswin Surya , David B. Peral , Austin VanLoon , Akhila Rajesh

分类：计算机视觉 | 人工智能 | 机器学习

2022-09-16

蚊子传播的疾病（MBD），例如登革热病毒，基孔肯雅病毒和西尼罗河病毒，每年在全球造成超过100万人死亡。由于许多这样的疾病都被伊蚊和库氏蚊子传播，因此跟踪这些幼虫对于缓解MBD的传播至关重要。即使公民科学成长并获得了较大的蚊子图像数据集，蚊子图像的手动注释变得越来越耗时且效率低下。先前的研究使用计算机视觉识别蚊子物种，卷积神经网络（CNN）已成为图像分类的事实。但是，这些模型通常需要大量的计算资源。这项研究介绍了视觉变压器（VIT）在比较研究中的应用，以改善伊蚊和库尔克斯幼虫的图像分类。在蚊子幼虫图像数据上对两个VIT模型，Vit-Base和CVT-13以及两个CNN模型进行了RESNET-18和CORVNEXT的培训，并比较确定最有效的模型，以将蚊子幼虫区分为AEDES或CULEX。测试表明，Convnext获得了所有分类指标的最大值，证明了其对蚊子幼虫分类的生存能力。基于这些结果，未来的研究包括通过结合CNN和Transformer架构元素来创建专门为蚊子幼虫分类设计的模型。

translated by 谷歌翻译

Preregistered protocol for: Articulatory changes in speech following treatment for oral or oropharyngeal cancer: a systematic review

Thomas B. Tienkamp , Teja Rebernik , Defne Abur , Rob J. J. H. van Son , Sebastiaan A. H. J. de Visscher , Max J. H. Witjes , Martijn Wieling

分类：自然语言处理

2022-09-14

该文档概述了Prospero预先注册的方案，用于对口腔或口腔或肉桂癌治疗后语音变化的系统审查进行系统审查。口腔中肿瘤的治疗可能会导致生理变化，这可能导致发音困难。由于疤痕组织和/或潜在的（术后）放射治疗，舌头变得不那么流动。此外，组织损失可能会为气流或极限收缩可能性创造旁路。为了更好地了解语音问题的性质，需要有关枢纽运动的信息，因为感知信息或声学信息仅提供了间接的关节变化证据。因此，这项系统的综述将回顾研究，该研究直接测量口腔或口咽癌治疗后舌，下巴和嘴唇的关节运动。

translated by 谷歌翻译

Surya Namaskar: real-time advanced yoga pose recognition and correction for smart healthcare

Abhishek Sharma , Pranjal Sharma , Darshan Pincha , Prateek Jain

分类：计算机视觉

2022-09-06

如今，瑜伽因现代生活方式的压力增加而受到全世界的关注，并且学习瑜伽有很多方法或资源。瑜伽一词意味着思想和身体之间的深厚联系。今天，有大量的医学和科学证据表明，我们大脑活动的基本面，我们的化学甚至可以通过练习不同的瑜伽系统来改变我们的化学。 Suryanamaskar，也被称为“向太阳致敬”，是一种瑜伽练习，结合了八种不同的形式和12个体式（4个Asana重复），专门介绍了印度太阳神Surya。 Suryanamaskar提供了许多健康益处，例如增强肌肉和帮助控制血糖水平。在这里，MediaPipe库用于分析Surya Namaskar的情况。高级软件可以实时检测到站立，因为人们在相机前表演了Surya Namaskar。班级分隔器将该表格识别为以下一项：pranamasana，hasta padasana，hasta uttanasana，ashwa -Sanchalan Asana，Ashtanga Namaskar，Dandasana或Bhujangasana和Svanasana。基于深度学习的技术（CNN）用于开发该模型，模型精度为98.68％，精度得分为0.75，以检测正确的瑜伽（Surya Namaskar）姿势。使用此方法，用户可以练习所需的姿势，并可以检查该人所做的姿势是否正确。它将有助于正确地做Surya Namaskar的所有不同姿势，并提高瑜伽从业者的效率。本文描述了将在模型中实现的整个框架。

translated by 谷歌翻译

MACAB: Model-Agnostic Clean-Annotation Backdoor to Object Detection with Natural Trigger in Real-World

Hua Ma , Yinshan Li , Yansong Gao , Zhi Zhang , Alsharif Abuadbba , Anmin Fu , Said F. Al-Sarawi , Nepal Surya , Derek Abbott

分类：计算机视觉

2022-09-06

对象检测是各种关键计算机视觉任务的基础，例如分割，对象跟踪和事件检测。要以令人满意的精度训练对象探测器，需要大量数据。但是，由于注释大型数据集涉及大量劳动力，这种数据策展任务通常被外包给第三方或依靠志愿者。这项工作揭示了此类数据策展管道的严重脆弱性。我们提出MACAB，即使数据策展人可以手动审核图像，也可以将干净的图像制作清洁的图像将后门浸入对象探测器中。我们观察到，当后门被不明确的天然物理触发器激活时，在野外实现了错误分类和披肩的后门效应。与带有清洁标签的现有图像分类任务相比，带有清洁通道的非分类对象检测具有挑战性，这是由于每个帧内有多个对象的复杂性，包括受害者和非视野性对象。通过建设性地滥用深度学习框架使用的图像尺度函数，II结合了所提出的对抗性清洁图像复制技术，以及在考虑到毒品数据选择标准的情况下，通过建设性地滥用图像尺度尺度，可以确保MACAB的功效。广泛的实验表明，在各种现实世界中，MacAB在90％的攻击成功率中表现出超过90％的攻击成功率。这包括披肩和错误分类后门效应，甚至限制了较小的攻击预算。最先进的检测技术无法有效地识别中毒样品。全面的视频演示位于https://youtu.be/ma7l_lpxkp4上，该演示基于yolov4倒置的毒药率为0.14％，yolov4 clokaking后门和更快的速度R-CNN错误分类后门。

translated by 谷歌翻译

Profiler: Profile-Based Model to Detect Phishing Emails

Mariya Shmalko , Alsharif Abuadbba , Raj Gaire , Tingmin Wu , Hye-Young Paik , Surya Nepal

分类：机器学习

2022-08-18

电子邮件网络钓鱼变得越来越普遍，随着时间的流逝，网络钓鱼变得更加复杂。为了打击这一上升，已经开发了许多用于检测网络钓鱼电子邮件的机器学习（ML）算法。但是，由于这些算法训练的电子邮件数据集有限，因此它们不擅长识别各种攻击，因此遭受了概念漂移的困扰。攻击者可以在其电子邮件或网站的统计特征上引入小小的变化，以成功绕过检测。随着时间的流逝，文献所报告的准确性与算法在现实世界中的实际有效性之间存在差距。这以频繁的假阳性和假阴性分类意识到自己。为此，我们建议对电子邮件进行多维风险评估，以减少攻击者调整电子邮件并避免检测的可行性。这种横向发送网络钓鱼检测配置文件的水平方法在其主要功能上发出了传入的电子邮件。我们开发了一个风险评估框架，其中包括三个模型，分析了电子邮件（1）威胁级别，（2）认知操纵和（3）电子邮件类型，我们合并了这些电子邮件类型以返回最终的风险评估评分。剖面人员不需要大量的数据集进行训练以有效，其对电子邮件功能的分析会减少概念漂移的影响。我们的参考器可以与ML方法结合使用，以减少其错误分类或作为培训阶段中大型电子邮件数据集的标签。我们在9000个合法的数据集中，使用最先进的ML算法评估了剖面人员对机器学习合奏的功效，并从一个大型澳大利亚大型研究组织的900个网络钓鱼电子邮件中进行了效力。我们的结果表明，探查者的概念漂移的影响减少了30％的假阳性，对ML合奏方法的虚假负面电子邮件分类少25％。

translated by 谷歌翻译

Deception for Cyber Defence: Challenges and Opportunities

David Liebowitz , Surya Nepal , Kristen Moore , Cody J. Christopher , Salil S. Kanhere , David Nguyen , Roelien C. Timmer , Michael Longland , Keerth Rathakumar

分类：机器学习

2022-08-15

作为网络防御的重要工具，欺骗正在迅速发展，并补充了现有的周边安全措施，以迅速检测出漏洞和数据盗窃。限制欺骗使用的因素之一是手工生成逼真的人工制品的成本。但是，机器学习的最新进展为可扩展的，自动化的现实欺骗创造了机会。本愿景论文描述了开发模型所涉及的机会和挑战，以模仿IT堆栈的许多共同元素以造成欺骗效应。

translated by 谷歌翻译

Printable Flexible Robots for Remote Learning

Savita V. Kendre , Gus. T. Teran , Lauryn Whiteside , Tyler Looney , Ryley Wheelock , Surya Ghai , Markus P. Nemitz

分类：机器人

2022-07-15

COVID-19大流行揭示了数字制造对实现在线学习的重要性，这仍然是机器人课程的挑战。我们介绍了一种教学方法，该方法使学生可以远程参与涉及机器人设计和制造的动手机器人课程。我们的方法采用具有柔性丝的3D打印技术来创新软机器人。机器人是由柔性而不是刚性材料制成的。学生使用CAD软件设计灵活的机器人组件，例如执行器，传感器和控制器，将其设计上传到远程3D打印站，使用网络摄像头监视打印台，然后用实验室工作人员检查组件，然后邮寄用于测试和组装。在课程结束时，学生将通过几种设计进行迭代，并创建流体驱动的软机器人。我们的远程教学方法使教育工作者能够利用3D打印资源来教软机器人技术并培养学生之间的创造力，以设计新颖和创新的机器人。我们的方法学旨在通过从学习环境中昂贵的设备中取消动手学习经验来使机器人技术工程民主化。

translated by 谷歌翻译