智能论文笔记

The widespread of offensive content online, such as hate speech and cyber-bullying, is a global phenomenon. This has sparked interest in the artificial intelligence (AI) and natural language processing (NLP) communities, motivating the development of various systems trained to detect potentially harmful content automatically. These systems require annotated datasets to train the machine learning (ML) models. However, with a few notable exceptions, most datasets on this topic have dealt with English and a few other high-resource languages. As a result, the research in offensive language identification has been limited to these languages. This paper addresses this gap by tackling offensive language identification in Sinhala, a low-resource Indo-Aryan language spoken by over 17 million people in Sri Lanka. We introduce the Sinhala Offensive Language Dataset (SOLD) and present multiple experiments on this dataset. SOLD is a manually annotated dataset containing 10,000 posts from Twitter annotated as offensive and not offensive at both sentence-level and token-level, improving the explainability of the ML models. SOLD is the first large publicly available offensive language dataset compiled for Sinhala. We also introduce SemiSOLD, a larger dataset containing more than 145,000 Sinhala tweets, annotated following a semi-supervised approach.

translated by 谷歌翻译

Human Brains Can't Detect Fake News: A Neuro-Cognitive Study of Textual Disinformation Susceptibility

Cagri Arisoy , Anuradha Mandal , Nitesh Saxena

分类：自然语言处理

2022-07-18

数字虚假信息的传播（又称“假新闻”）可以说是互联网上最重要的威胁之一，它可能造成大规模的个人和社会伤害。虚假新闻攻击的敏感性取决于互联网用户在阅读后是否认为虚假新闻文章/摘要是合法的。在本文中，我们试图通过神经认知方法来深入了解用户对以文本为中心的假新闻攻击的敏感性。我们通过脑电图调查了与假/真实新闻有关的神经基础。我们与人类用户进行实验，以彻底调查用户对假/真实新闻的认知处理和认知处理。我们分析了不同类别新闻文章的假/真实新闻检测任务相关的神经活动。我们的结果表明，在人脑处理假新闻与真实新闻的方式上可能没有统计学意义或自动可推断的差异，而当人们受到（真实/假）新闻与安息状态甚至之间的差异时，会观察到明显的差异一些不同类别的假新闻。这一神经认知发现可能有助于证明用户对假新闻攻击的敏感性，这也从行为分析中得到了证实。换句话说，假新闻文章似乎与行为和神经领域的真实新闻文章几乎没有区别。我们的作品旨在剖析假新闻攻击的基本神经现象，并通过人类生物学的极限解释了用户对这些攻击的敏感性。我们认为，对于研究人员和从业者来说，这可能是一个显着的见解楷模

translated by 谷歌翻译

到2035年，美国电力部门的转型正在进行中，以实现100％无碳污染的电力，以实现这一目标，同时保持安全可靠的电网，需要新的操作范式，以快速准确的决策来制定新的操作范式在动态和不确定的环境中。我们为动态网格重新配置（PHML-DYR）的决策提出了一个新颖的物理知识的机器学习框架，这是电源系统中的关键任务。动态重新配置（DYR）是一个动态设置开关状态的过程，从而导致最佳网格拓扑，从而最大程度地减少线路损耗。为了解决由于决策变量的混合性质而导致的NP硬度的潜在计算复杂性，我们建议使用物理信息信息的ML（PHML），该物理信息（PHML）将操作约束以及拓扑结构和连接性约束集成到神经网络框架中。我们的PHML方法学会同时优化网格拓扑和发电机调度，以满足负载，提高效率并保持在安全的操作范围内。我们证明了PHML-DYR在规范网格上的有效性，显示电力损耗的减少23％，并改善了电压曲线。我们还显示了使用PHML-DYR的数量级以及训练时间的约束违规行为的减少。

translated by 谷歌翻译

在本文中，提出了一种深入的学习方法，可以在全球导航卫星系统（GNSS）剥夺环境中精确定位轮式车辆。在没有GNSS信号的情况下，可以使用关于从车轮编码器记录的车辆（或其他机器人相似的车轮）速度的信息来通过车辆的线性速度的整合来提供用于车辆的连续定位信息流离失所。然而，来自车轮速度测量的位移估计的特征在于不确定因素，其可以表现为车轮滑动或/和对轮胎尺寸或压力的变化，从潮湿和泥泞的道路驱动器或轮胎佩戴。因此，我们利用深度学习的最近进步提出了车轮内径神经网络（WHONET）来学习校正和准确定位所需的车轮速度测量中的不确定性。首先在若干具有挑战性的驾驶场景中评估所提出的WHONET的性能，例如环形交叉路口，锋利的转弯，硬制动和湿路（漂移）。然后，在长期GNSS中断场景中进一步且广泛地评估WHONET的性能，分别在493km的总距离上的长期GNSS中断场景。获得的实验结果表明，在任何180多个行驶之后，所提出的方法能够准确地定位其原始对应物的定位误差高达93％的车辆。 Whonet的实现可以在https://github.com/onyekpeu/whonet找到。

translated by 谷歌翻译