The distributed representation of symbols is one of the key technologies in machine learning systems today, playing a pivotal role in modern natural language processing. Traditional word embeddings associate a separate vector with each word. While this approach is simple and leads to good performance, it requires a lot of memory for representing a large vocabulary. To reduce the memory footprint, the default embedding layer in spaCy is a hash embeddings layer. It is a stochastic approximation of traditional embeddings that provides unique vectors for a large number of words without explicitly storing a separate vector for each of them. To be able to compute meaningful representations for both known and unknown words, hash embeddings represent each word as a summary of the normalized word form, subword information and word shape. Together, these features produce a multi-embedding of a word. In this technical report we lay out a bit of history and introduce the embedding methods in spaCy in detail. Second, we critically evaluate the hash embedding architecture with multi-embeddings on Named Entity Recognition datasets from a variety of domains and languages. The experiments validate most key design choices behind spaCy's embedders, but we also uncover a few surprising results.
translated by 谷歌翻译
The detection and prevention of illegal fishing is critical to maintaining a healthy and functional ecosystem. Recent research on ship detection in satellite imagery has focused exclusively on performance improvements, disregarding detection efficiency. However, the speed and compute cost of vessel detection are essential for a timely intervention to prevent illegal fishing. Therefore, we investigated optimization methods that lower detection time and cost with minimal performance loss. We trained an object detection model based on a convolutional neural network (CNN) using a dataset of satellite images. Then, we designed two efficiency optimizations that can be applied to the base CNN or any other base model. The optimizations consist of a fast, cheap classification model and a statistical algorithm. The integration of the optimizations with the object detection model leads to a trade-off between speed and performance. We studied the trade-off using metrics that give different weight to execution time and performance. We show that by using a classification model the average precision of the detection model can be approximated to 99.5% in 44% of the time or to 92.7% in 25% of the time.
translated by 谷歌翻译
A paper of Alsinglawi et al was recently accepted and published in Scientific Reports. In this paper, the authors aim to predict length of stay (LOS), discretized into either long (> 7 days) or short stays (< 7 days), of lung cancer patients in an ICU department using various machine learning techniques. The authors claim to achieve perfect results with an Area Under the Receiver Operating Characteristic curve (AUROC) of 100% with a Random Forest (RF) classifier with ADASYN class balancing over sampling technique, which if accurate could have significant implications for hospital management. However, we have identified several methodological flaws within the manuscript which cause the results to be overly optimistic and would have serious consequences if used in a clinical practice. Moreover, the reporting of the methodology is unclear and many important details are missing from the manuscript, which makes reproduction extremely difficult. We highlight the effect these oversights have had on the result and provide a more believable result of 88.91% AUROC when these oversights are corrected.
translated by 谷歌翻译
在过去的几年中,自动睡眠评分的研究主要集中在开发日益复杂的深度学习体系结构上。但是,最近,这些方法仅实现了边际改进,通常以需要更多数据和更昂贵的培训程序为代价。尽管所有这些努力及其令人满意的表现,但在临床背景下,自动睡眠期临时解决方案并未被广泛采用。我们认为,由于很难训练,部署和繁殖,大多数对睡眠评分的深度学习解决方案在现实世界中的适用性受到限制。此外,这些解决方案缺乏可解释性和透明度,这通常是提高采用率的关键。在这项工作中,我们使用经典的机器学习来重新审视睡眠阶段分类的问题。结果表明,通过传统的机器学习管道可以实现最新的性能,该管道包括预处理,功能提取和简单的机器学习模型。特别是,我们分析了线性模型和非线性(梯度提升)模型的性能。我们的方法超过了两个公共数据集上的最新方法(使用相同的数据):Sleep--EDF SC-20(MF1 0.810)和Sleep-eDF ST(MF1 0.795),同时在Sleep-eDF上取得了竞争成果SC-78(MF1 0.775)和质量SS3(MF1 0.817)。我们表明,对于睡眠阶段评分任务,工程特征向量的表现力与深度学习模型的内部学表现相当。该观察结果为临床采用打开了大门,因为代表性功能向量允许利用传统机器学习模型的可解释性和成功记录。
translated by 谷歌翻译
视觉分析可以说是熟悉数据的最重要步骤。时间序列尤其如此,因为此数据类型很难描述,并且在使用例如摘要统计信息时无法完全理解。要实现有效的时间序列可视化,必须满足四个要求;工具应为(1)交互式,(2)可扩展到数百万个数据点,(3)在常规数据科学环境中可集成,以及(4)高度可配置。我们观察到,开源Python可视化工具包在大多数视觉分析任务中赋予了数据科学家的能力,但是缺乏可扩展性和交互性的组合来实现有效的时间序列可视化。为了促进这些要求,我们创建了Plotly-Resampler,这是一个开源Python库。 Plotly-resampler是Plotly的Python绑定的附加组件,通过汇总基础数据,根据当前的图形视图来增强线图可伸缩性。绘制构建的绘制是活跃的,因为工具的反应性在定性上影响分析师在视觉探索和分析数据的方式。基准任务强调了我们的工具包在样本数和时间序列方面如何比替代方案更好。此外,Plotly-Resmpler的灵活数据聚合功能为研究新型聚合技术铺平了道路。 Plotly-Resampler的集成性以及其可配置性,便利性和高可扩展性,可以有效地分析您日常的Python环境中的高频数据。
translated by 谷歌翻译
特征选择是开发强大而强大的机器学习模型的关键步骤。特征选择技术可以分为两类:过滤器和包装器方法。尽管包装器方法通常会产生强大的预测性能,但它们具有很大的计算复杂性,因此需要大量时间完成,尤其是在处理高维度集合时。或者,滤波器方法的速度要快得多,但是遭受了其他几个缺点,例如(i)需要阈值值,(ii)不考虑特征之间的相互关系,并且(iii)忽略与模型的特征相互作用。为此,我们提出了一种新颖的包装器特征选择方法PowerShap,该方法将统计假设测试和功率计算与Shapley值结合使用,以进行快速和直观的特征选择。 PowerShap建立在核心假设的基础上:与已知的随机功能相比,信息功能将对预测产生更大的影响。基准和仿真表明,PowerShap的表现优于其他过滤器方法,具有与包装器方法相同的预测性能,同时显着更快,甚至达到执行时间的一半或三分之一。因此,PowerShap提供了一种竞争和快速算法,可以在不同域中的各种模型使用。此外,PowerShap是作为插件和开源的Sklearn组件实现的,可以轻松地集成在传统的数据科学管道中。通过提供自动模式,可以自动调整PowerShap算法的超参数,从而进一步增强用户体验,从而可以使用该算法而无需任何配置。
translated by 谷歌翻译
时间序列加工和特征提取是传统机器学习管道中的关键和时间密集步骤。现有软件包的实际适用性受到限制,因为它们无法应对不规则采样和异步数据。因此,我们呈现$ \ texttt {tsflex} $,用于处理和特征提取的域无关,灵活和序列的第一个Python工具包,其能够处理具有未对准测量的不规则采样的序列。此工具包是首先序列,因为(1)基于序列的参数,用于STRIVELD-WONETS功能提取,并且(2)通过所有支持的操作维护序列索引。 $ \ texttt {tsflex} $ fasel fasel fasel,因为它本地支持(1)多变量时间序列,(2)多个窗口级别配置,(3)与其他包的处理和功能功能集成,而(4)没有假设关于数据采样率规律性和同步。来自此包的其他功能是多处理,深入执行时间记录,支持基于分类和时间的数据,块序列和嵌入式序列化。 $ \ TextTT {TSFlex} $是开发的,以实现快速和内存高效的时间序列处理和特征提取。结果表明,$ \ texttt {tsflex} $比类似的包更灵活,同时在运行时和内存使用情况下表现出这些工具包。
translated by 谷歌翻译
随着空域中无人驾驶汽车(无人机)的数量的增加,确保飞机不会碰撞对进一步的技术开发至关重要。在这项工作中,我们提出了一个新的无人机,在空中碰撞附近(UNMAC)安全量i)机身大小,ii)定位精度,iii)无人机速度/速度和iv)无线技术功能。基于UNMAC,我们证明可以通过使用UAV-TO-UAV(U2U)通信来降低UAV间的分离距离,而安全水平保持不变。此外,这项工作表明,下一代远程ID消息应包含其他信息(即,估计的本地化错误,对于某些应用程序,移动方向)。由于远程ID的频繁广播可以进一步降低分离距离,因此我们确定了5G NR Sidelink,Wi-Fi和蓝牙为U2U通信的合适候选者。
translated by 谷歌翻译
这项工作提出了利用对机器人周围环境的逐步改善的象征感知知识的一步,以证明适用于自动驾驶问题的正确反应性控制合成。结合了运动控制和信息收集的抽象模型,我们表明假设保证规范(线性时间逻辑的子类)可用于定义和解决谨慎计划的流量规则。我们提出了一种新颖的表示,称为符号改进树,以捕获有关环境的增量知识,并体现了各种符号感知输入之间的关系。利用增量知识来合成机器人的验证反应性计划。案例研究表明,即使在部分遮挡的环境中,拟议方法在合成控制输入方面的疗效。
translated by 谷歌翻译
尽管骰子损失是医学图像分割中的主要损失函数之一,但大多数研究都忽略了其导数,即使用梯度下降时优化的真实电动机。在本文中,我们强调了在缺少或空的标签存在下骰子丢失的特殊作用。首先,我们制定一个理论基础,对骰子丢失及其导数进行了一般描述。事实证明,减少尺寸$ \ phi $和平滑项$ \ epsilon $的选择是无处不在的,并且极大地影响了其行为。我们找到并提出了$ \ phi $和$ \ epsilon $的启发式组合,它们在细分设置中使用,带有缺失或空标签。其次,我们使用两个公开可用的数据集在二进制和多类分段设置中验证这些发现。我们确认,$ \ phi $和$ \ epsilon $的选择确实是关键的。选择了$ \ phi $,因此减少的单个元素(和类)元素以及可忽略不计的$ \ epsilon $进行,骰子损失与缺失的标签自然交易,并且与最近缺少标签的最新适应性相似。选择$ \ phi $,以使减少量发生在多个批处理元素上,或以$ \ epsilon $的启发式值进行,骰子损失正确处理空标签。我们认为,这项工作强调了一些基本观点,并希望它鼓励研究人员更好地描述他们对未来工作中骰子损失的确切实施。
translated by 谷歌翻译