弄清楚列出的Airbnb租赁价格是主持人和客户的重要和艰巨的任务。对于前者来说,它可以使他们能够在不影响其利润的情况下设定合理的价格。对于客户来说,它有助于了解价格的关键驱动因素,并为他们提供类似价格的地方。这个价格预测回归任务也可以具有多个下游使用,例如根据价格的类似租金建议。我们建议使用地理定位,时间,视觉和自然语言功能来创建可靠和准确的价格预测算法。
translated by 谷歌翻译
在线旅行社(OTA)的网站在元搜索竞标引擎上宣传。预测酒店将收到的单击数量的给定出价金额的问题是管理元搜索引擎上OTA广告活动的重要一步,因为出价时间的点击次数定义了要生成的成本。在这项工作中,各种回归器都结束了,以提高点击预测性能。按照预处理程序,将功能集分为火车和测试组,具体取决于样品的记录日期。然后,将数据收集进行基于XGBoost的缩小降低,从而大大降低了特征的维度。然后通过将贝叶斯高参数优化应用于XGBoost,LightGBM和SGD模型来找到最佳的高参数。单独测试了十种不同的机器学习模型,并将它们组合在一起以创建合奏模型。提出了三种替代合奏解决方案。相同的测试集用于测试单个和集合模型,46个模型组合的结果表明,堆栈集合模型得出所有的R2分数。总之,整体模型将预测性能提高了约10%。
translated by 谷歌翻译
由于医疗保健是关键方面,健康保险已成为最大程度地减少医疗费用的重要计划。此后,由于保险的增加,医疗保健行业的欺诈活动大幅增加,欺诈行业已成为医疗费用上升的重要贡献者,尽管可以使用欺诈检测技术来减轻其影响。为了检测欺诈,使用机器学习技术。美国联邦政府的医疗补助和医疗保险服务中心(CMS)在本研究中使用“医疗保险D部分”保险索赔来开发欺诈检测系统。在类不平衡且高维的Medicare数据集中使用机器学习算法是一项艰巨的任务。为了紧凑此类挑战,目前的工作旨在在数据采样之后执行功能提取,然后应用各种分类算法,以获得更好的性能。特征提取是一种降低降低方法,该方法将属性转换为实际属性的线性或非线性组合,生成较小,更多样化的属性集,从而降低了尺寸。数据采样通常用于通过扩大少数族裔类的频率或降低多数类的频率以获得两种类别的出现数量大约相等的频率来解决类不平衡。通过标准性能指标评估所提出的方法。因此,为了有效地检测欺诈,本研究将自动编码器作为特征提取技术,合成少数族裔过采样技术(SMOTE)作为数据采样技术,以及各种基于决策树的分类器作为分类算法。实验结果表明,自动编码器的结合,然后在LightGBM分类器上获得SMOTE,取得了最佳的结果。
translated by 谷歌翻译
只要可以预见的是测试代码的固有特征,可以大大降低测试的高成本。本文提供了一种机器学习模型,以预测测试可以在多大程度上覆盖一个名为Coverabeality的新指标。预测模型由四个回归模型的集合组成。学习样本由特征向量组成,其中特征是为类计算的源代码指标。样品由针对其相应类计算的覆盖率值标记。我们提供了一个数学模型,以评估每个班级自动生成的测试套件的尺寸和覆盖范围的测试效果。我们通过引入一种新方法来根据现有源代码指标来定义子计量数来扩展功能空间的大小。使用功能重要性分析在学习的预测模型上,我们按照对测试效果的影响顺序对源代码指标进行排序。结果,我们发现类别严格的循环复杂性是最有影响力的源代码度量。我们对包含大约23,000个类的大型Java项目的预测模型进行的实验表明,平均绝对误差(MAE)为0.032,平均平方误差(MSE)为0.004,R2得分为0.855。与最先进的覆盖范围预测模型相比,我们的模型分别提高了MAE,MSE和R2得分5.78%,2.84%和20.71%。
translated by 谷歌翻译
本文调查了股票回购,特别是分享回购公告。它解决了如何识别此类公告,股票回购的超额回报以及股票回购公告后的回报的预测。我们说明了两种NLP方法,用于自动检测股票回购公告。即使有少量的培训数据,我们也可以达到高达90%的准确性。该论文利用这些NLP方法生成一个由57,155个股票回购公告组成的大数据集。通过分析该数据集,本论文的目的是表明大多数宣布回购的公司的大多数公司都表现不佳。但是,少数公司的表现极大地超过了MSCI世界。当查看所有公司的平均值时,这种重要的表现过高会导致净收益。如果根据公司的规模调整了基准指数,则平均表现过高,并且大多数表现不佳。但是,发现宣布股票回购的公司至少占其市值的1%,即使使用调整后的基准,也平均交付了显着的表现。还发现,在危机时期宣布股票回购的公司比整个市场更好。此外,生成的数据集用于训练72个机器学习模型。通过此,它能够找到许多可以达到高达77%并产生大量超额回报的策略。可以在六个不同的时间范围内改善各种性能指标,并确定明显的表现。这是通过训练多个模型的不同任务和时间范围以及结合这些不同模型的方法来实现的,从而通过融合弱学习者来产生重大改进,以创造一个强大的学习者。
translated by 谷歌翻译
With the development of technology and sharing economy, Airbnb as a famous short-term rental platform, has become the first choice for many young people to select. The issue of Airbnb's pricing has always been a problem worth studying. While the previous studies achieve promising results, there are exists deficiencies to solve. Such as, (1) the feature attributes of rental are not rich enough; (2) the research on rental text information is not deep enough; (3) there are few studies on predicting the rental price combined with the point of interest(POI) around the house. To address the above challenges, we proposes a multi-source information embedding(MSIE) model to predict the rental price of Airbnb. Specifically, we first selects the statistical feature to embed the original rental data. Secondly, we generates the word feature vector and emotional score combination of three different text information to form the text feature embedding. Thirdly, we uses the points of interest(POI) around the rental house information generates a variety of spatial network graphs, and learns the embedding of the network to obtain the spatial feature embedding. Finally, this paper combines the three modules into multi source rental representations, and uses the constructed fully connected neural network to predict the price. The analysis of the experimental results shows the effectiveness of our proposed model.
translated by 谷歌翻译
异构表格数据是最常用的数据形式,对于众多关键和计算要求的应用程序至关重要。在同质数据集上,深度神经网络反复显示出卓越的性能,因此被广泛采用。但是,它们适应了推理或数据生成任务的表格数据仍然具有挑战性。为了促进该领域的进一步进展,这项工作概述了表格数据的最新深度学习方法。我们将这些方法分为三组:数据转换,专业体系结构和正则化模型。对于每个小组,我们的工作提供了主要方法的全面概述。此外,我们讨论了生成表格数据的深度学习方法,并且还提供了有关解释对表格数据的深层模型的策略的概述。因此,我们的第一个贡献是解决上述领域中的主要研究流和现有方法,同时强调相关的挑战和开放研究问题。我们的第二个贡献是在传统的机器学习方法中提供经验比较,并在五个流行的现实世界中的十种深度学习方法中,具有不同规模和不同的学习目标的经验比较。我们已将作为竞争性基准公开提供的结果表明,基于梯度增强的树合奏的算法仍然大多在监督学习任务上超过了深度学习模型,这表明对表格数据的竞争性深度学习模型的研究进度停滞不前。据我们所知,这是对表格数据深度学习方法的第一个深入概述。因此,这项工作可以成为有价值的起点,以指导对使用表格数据深入学习感兴趣的研究人员和从业人员。
translated by 谷歌翻译
由于时空事件发生的随机性,在报告的交通中断开始时缺乏信息,并且缺乏运输工程的高级方法来从过去中获得见解,因此预测交通事故持续时间是一个难题事故。本文提出了一个新的Fusion框架,用于通过将机器学习与交通流量/速度和事件描述作为功能进行集成来预测有限信息的事件持续时间,并通过多种深度​​学习方法编码(ANN AUTOCONEDER和角色级别的LSTM-ANN情绪分类器)。该论文在运输和数据科学中构建了跨学科建模方法。该方法提高了适用于基线事件报告的最佳表现ML模型的入射持续时间预测准确性。结果表明,与标准线性或支持矢量回归模型相比,我们提出的方法可以提高准确性$ 60 \%$,并且相对于混合深度学习自动编码的GBDT模型的另外7美元\%$改进,这似乎胜过表现所有其他模型。应用区是旧金山市,富含交通事件日志(全国交通事故数据集)和过去的历史交通拥堵信息(Caltrans绩效测量系统的5分钟精度测量)。
translated by 谷歌翻译
AI和数据驱动的解决方案已应用于不同的领域,并实现了优于和有希望的结果。在这项研究工作中,我们应用了K-Neart最邻居,极端的梯度提升和随机森林分类器来检测三个加密货币市场的趋势问题。我们使用这些分类器来设计一种在这些市场中进行交易的策略。我们在实验中的输入数据包括在单独的测试中使用或没有技术指标的价格数据,以查看使用它们的效果。我们对看不见数据的测试结果非常有前途,并在帮助具有专家系统的投资者利用市场并获利的投资者方面具有巨大的潜力。我们看不见的66天跨度的最高利润因子是1.60。我们还讨论了这些方法的局限性及其对有效市场假设的潜在影响。
translated by 谷歌翻译
天然气管道中的泄漏检测是石油和天然气行业的一个重要且持续的问题。这尤其重要,因为管道是运输天然气的最常见方法。这项研究旨在研究数据驱动的智能模型使用基本操作参数检测天然气管道的小泄漏的能力,然后使用现有的性能指标比较智能模型。该项目应用观察者设计技术,使用回归分类层次模型来检测天然气管道中的泄漏,其中智能模型充当回归器,并且修改后的逻辑回归模型充当分类器。该项目使用四个星期的管道数据流研究了五个智能模型(梯度提升,决策树,随机森林,支持向量机和人工神经网络)。结果表明,虽然支持向量机和人工神经网络比其他网络更好,但由于其内部复杂性和所使用的数据量,它们并未提供最佳的泄漏检测结果。随机森林和决策树模型是最敏感的,因为它们可以在大约2小时内检测到标称流量的0.1%的泄漏。所有智能模型在测试阶段中具有高可靠性,错误警报率为零。将所有智能模型泄漏检测的平均时间与文献中的实时短暂模型进行了比较。结果表明,智能模型在泄漏检测问题中的表现相对较好。该结果表明,可以与实时瞬态模型一起使用智能模型,以显着改善泄漏检测结果。
translated by 谷歌翻译
我们分析和分类从电影评论构建的文本数据的观点。为此,我们使用量子机学习算法的基于内核的方法。为了组合量子内核,我们使用使用不同Pauli旋转门组合构造的电路,其中旋转参数是从文本数据获得的数据点的经典非线性函数。为了分析提出的模型的性能,我们使用决策树,增强分类器以及经典和量子支持向量机分析量子模型。我们的结果表明,就所有评估指标而言,量子内核模型或量子支持向量机优于用于分析的所有其他算法。与经典的支持向量机相比,量子支持向量机也会带来明显更好的结果,即使功能数量增加或尺寸增加。结果清楚地表明,如果功能的数量为$ 15 $,则使用量子支持向量机使用量子支持向量机的精度分数提高了$ 9.4 \%$,而经典支持向量机则将其提高。
translated by 谷歌翻译
空间数据在应对与城市相关的任务中的作用近年来一直在增长。要在机器学习模型中使用它们,通常需要将它们转换为向量表示,这导致了空间数据表示学习领域的开发。还有一种越来越多的各种空间数据类型,提出了一种表示学习方法。迄今为止,公共交通时间表迄今未被用于一个城市地区的学习陈述的任务。在这项工作中,开发了一种方法来将公共交通可用性信息嵌入到矢量空间中。要对其申请进行实验,从48个城市收集公共交通时间表。使用H3空间索引方法,它们被分成微区域。还提出了一种方法来识别具有类似公共交通报价特征的地区。在其基础上,定义了该地区的公共交通报价的多层次类型。本文表明,所提出的表示方法可以识别城市之间具有相似公共交通特性的微区域,并且可用于评估城市中可用的公共交通的质量。
translated by 谷歌翻译
发现新的超链接使Web爬网程序能够找到尚未索引的新页面。这对于集中的爬行者来说尤为重要,因为他们努力提供对网络的特定部分的全面分析,从而优先考虑发现内容的变化的新页面。在文献中,通常同​​时考虑超链接和内容的变化。但是,还有证据表明这两种改变不一定是相关的。此外,关于预测变化的许多研究假设页面的长期可用,这在实践中是无法实现的。这项工作的目的是提供一种方法来使用短历史有效地检测新的链接。为此,我们使用一周的间隔使用十个爬网的数据集。我们的研究包括三个部分。首先,我们通过分析新的倒出数量的经验属性来获得数据的洞察力。我们观察到这些属性平均随着时间的推移稳定,但在目标页面内外页面的超链接出现的超链接之间存在很大的差异(分别分别是内部和外部倒降)。接下来,我们为三个目标提供统计模型:链路变化率,新链接的存在以及新链接的数量。这些模型包括文献中早些时候使用的功能,以及在这项工作中引入的新功能。我们分析了特征之间的相关性,并调查了他们的信息。一个值得注意的发现是,如果目标页面的历史不可用,那么我们的新功能,代表相关页面的历史,对于目标页面中的新链接最预测。最后,我们将排名方法作为聚焦爬虫的准则,以有效地发现新页面,这对相应的目标实现了出色的性能。
translated by 谷歌翻译
基于树的合奏以其出色的性能而闻名,其分类和回归问题以特征向量为特征,这些特征向量由来自各个范围和域的混合型变量表示。但是,考虑回归问题,它们主要旨在提供确定性的响应,或者用高斯分布来建模输出的不确定性。在这项工作中,我们介绍了TreeFlow,这是基于树的方法,结合了使用树形合奏和使用标准化流量的灵活概率分布进行建模的功能的好处。该解决方案的主要思想是将基于树的模型用作特征提取器,并将其与标准化流量的条件变体组合。因此,我们的方法能够为回归输出建模复杂分布。我们评估了针对具有不同体积,特征特征和目标维度的挑战回归基准的提议方法。与基于树的回归基线相比,我们在具有非高斯目标分布的数据集上获得了SOTA结果。
translated by 谷歌翻译
为了允许机器学习算法从原始数据中提取知识,必须首先清除,转换,并将这些数据置于适当的形式。这些通常很耗时的阶段被称为预处理。预处理阶段的一个重要步骤是特征选择,其目的通过减少数据集的特征量来更好地执行预测模型。在这些数据集中,不同事件的实例通常是不平衡的,这意味着某些正常事件被超出,而其他罕见事件非常有限。通常,这些罕见的事件具有特殊的兴趣,因为它们具有比正常事件更具辨别力。这项工作的目的是过滤提供给这些罕见实例的特征选择方法的实例,从而积极影响特征选择过程。在这项工作过程中,我们能够表明这种过滤对分类模型的性能以及异常值检测方法适用于该过滤。对于某些数据集,所产生的性能增加仅为百分点,但对于其他数据集,我们能够实现高达16%的性能的增加。这项工作应导致预测模型的改进以及在预处理阶段的过程中的特征选择更好的可解释性。本着公开科学的精神,提高了我们的研究领域的透明度,我们已经在公开的存储库中提供了我们的所有源代码和我们的实验结果。
translated by 谷歌翻译
评估能源转型和能源市场自由化对资源充足性的影响是一种越来越重要和苛刻的任务。能量系统的上升复杂性需要足够的能量系统建模方法,从而提高计算要求。此外,随着复杂性,同样调用概率评估和场景分析同样增加不确定性。为了充分和高效地解决这些各种要求,需要来自数据科学领域的新方法来加速当前方法。通过我们的系统文献综述,我们希望缩小三个学科之间的差距(1)电力供应安全性评估,(2)人工智能和(3)实验设计。为此,我们对所选应用领域进行大规模的定量审查,并制作彼此不同学科的合成。在其他发现之外,我们使用基于AI的方法和应用程序的AI方法和应用来确定电力供应模型的复杂安全性的元素,并作为未充分涵盖的应用领域的储存调度和(非)可用性。我们结束了推出了一种新的方法管道,以便在评估电力供应安全评估时充分有效地解决当前和即将到来的挑战。
translated by 谷歌翻译
在线评论使消费者能够与公司聘用并提供重要的反馈。由于高维文本的复杂性,这些评论通常被简化为单一数值分数,例如评级或情绪评分。这项工作经验检查了用户生成的在线评论的因果效果对粒度水平:我们考虑多个方面,例如餐厅的食品和服务。了解消费者对不同方面的意见可以帮助详细评估业务绩效并有效地战略业务运营。具体来说,我们的目标是回答介入问题,例如餐厅人气将是什么,如果质量为本。它的方面服务增加了10%?对观测数据的因果推断的定义挑战是存在“混淆”,这可能不会被观察或测量,例如消费者对食品类型的偏好,使得估计效应偏差和高方差。为了解决这一挑战,我们求助于多模态代理,例如消费者简介信息和消费者和企业之间的互动。我们展示了如何有效利用丰富的信息来识别和估算在线评论中嵌入多个方面的因果效果。对综合和现实世界数据的实证评估证实了对拟议方法的可操作洞察力的功效和脱落。
translated by 谷歌翻译
Labeling a module defective or non-defective is an expensive task. Hence, there are often limits on how much-labeled data is available for training. Semi-supervised classifiers use far fewer labels for training models, but there are numerous semi-supervised methods, including self-labeling, co-training, maximal-margin, and graph-based methods, to name a few. Only a handful of these methods have been tested in SE for (e.g.) predicting defects and even that, those tests have been on just a handful of projects. This paper takes a wide range of 55 semi-supervised learners and applies these to over 714 projects. We find that semi-supervised "co-training methods" work significantly better than other approaches. However, co-training needs to be used with caution since the specific choice of co-training methods needs to be carefully selected based on a user's specific goals. Also, we warn that a commonly-used co-training method ("multi-view"-- where different learners get different sets of columns) does not improve predictions (while adding too much to the run time costs 11 hours vs. 1.8 hours). Those cautions stated, we find using these "co-trainers," we can label just 2.5% of data, then make predictions that are competitive to those using 100% of the data. It is an open question worthy of future work to test if these reductions can be seen in other areas of software analytics. All the codes used and datasets analyzed during the current study are available in the https://GitHub.com/Suvodeep90/Semi_Supervised_Methods.
translated by 谷歌翻译
在这项工作中,我们评估了人口模型和机器学习模型的合奏,以预测COVID-19大流行的不久的将来的演变,并在西班牙有特殊的用例。我们仅依靠开放和公共数据集,将发生率,疫苗接种,人类流动性和天气数据融合来喂养我们的机器学习模型(随机森林,梯度增强,K-Nearest邻居和内核岭回归)。我们使用发病率数据来调整经典人群模型(Gompertz,Logistic,Richards,Bertalanffy),以便能够更好地捕获数据的趋势。然后,我们整合了这两个模型家族,以获得更强大,更准确的预测。此外,我们已经观察到,当我们添加新功能(疫苗,移动性,气候条件)时,使用机器学习模型获得的预测有所改善,使用Shapley添加说明值分析了每个功能的重要性。就像在任何其他建模工作中一样,数据和预测质量都有多个局限性,因此必须从关键的角度看待它们,如我们在文本中所讨论的那样。我们的工作得出的结论是,这些模型的合奏使用可以改善单个预测(仅使用机器学习模型或仅使用人口模型),并且在由于缺乏相关数据而无法使用隔室模型的情况下,可以谨慎地应用。
translated by 谷歌翻译
我们介绍了数据科学预测生命周期中各个阶段开发和采用自动化的技术和文化挑战的说明概述,从而将重点限制为使用结构化数据集的监督学习。此外,我们回顾了流行的开源Python工具,这些工具实施了针对自动化挑战的通用解决方案模式,并突出了我们认为进步仍然需要的差距。
translated by 谷歌翻译