我们对数据驱动的需求工程,尤其是对用户评论的考虑。这些在线评论是提取新需求和改进请求的丰富信息来源。在这项工作中,我们使用Camembert提供了自动分析,Camembembert是法语中最先进的语言模型。我们从健康与健身领域的三个应用程序中创建了一个由6000个用户评论的多标签分类数据集。结果令人鼓舞,并建议可以自动识别有关新功能请求的评论。数据集可在以下网址获得:https://github.com/jl-wei/apia2022-french-user-reviews-classification-dataset。
translated by 谷歌翻译
如今,有了大数据和数据湖泊,我们面临着大量数据,这些数据很难手动管理。在这种情况下,对个人数据的保护需要自动分析数据发现。存储在知识库中已经分析的属性名称可以优化此自动发现。要拥有更好的知识库,我们不应存储任何名称没有意义的属性。在本文中,要检查属性的名称是否具有含义,我们提出了一个解决方案来计算此名称和字典中的单词之间的距离。我们对距离的研究诸如N-gram,Jaro-Winkler和Levenshtein的功能,显示了在知识库中设定属性的接受阈值的限制。为了克服这些局限性,我们的解决方案旨在通过基于最长序列使用指数函数来增强得分计算。此外,还提出了词典中的双扫描,以处理具有复合名称的属性。
translated by 谷歌翻译
本文提出了一种自动创建变量(在回归的情况下)的方法,该方法补充了初始输入向量中包含的信息。该方法是一个预处理步骤,其中将要回归的变量的连续值离散为一组间隔,然后将其用于定义值阈值。然后,对分类器进行训练,以预测要回归的值小于或等于这些阈值中的每个阈值。然后,将分类器的不同输出以额外的变量向量的形式串联,以丰富回归问题的初始向量。因此,实施的系统可以被视为通用预处理工具。我们用5种类型的回归器测试了提出的富集方法,并在33个回归数据集中对其进行了评估。我们的实验结果证实了该方法的兴趣。
translated by 谷歌翻译
口语理解的最新进展受益于接受大型语音语料库训练的自制模型。对于法国人来说,Lebenchmark项目已经提供了此类模型,并在包括口语理解在内的几项任务上取得了令人印象深刻的进步。这些进步在计算时间和能耗方面具有不可忽略的成本。在本文中,我们比较了几种旨在降低这种成本同时保持竞争性能的学习策略。实验是在媒体语料库上进行的,并表明可以在保持最先进的表演的同时降低学习成本。
translated by 谷歌翻译
深层网络的解释性正在成为深度学习社区中的一个核心问题。在图形上学习是相同的,这是许多现实世界中存在的数据结构。在本文中,我们提出了一种比最新方法更优化,更轻,一致和更好利用评估图的拓扑的方法。
translated by 谷歌翻译
我们的食品偏好指导我们的食物选择,反过来影响我们的个人健康和社交生活。在本文中,我们采用了一种方法,使用OWL2中表达的域本体进行支持,以支持正规主义CP-Net中的偏好的获取和表示。具体而言,我们展示了域本体论的构建和问卷设计来获取和代表偏好。偏好的收购和代表在大学食堂的领域实施。我们在这项初步工作中的主要贡献是获取偏好,并优选地通过本体中所代表的域知识来获取偏好。
translated by 谷歌翻译
明天的数据中心是由异构系统组成的数据中心,这将运行异构工作负载。系统将尽可能接近数据。异质系统将配备二进制,生物启发和量子促进剂。这些架构将成为解决挑战的基础。像管弦乐队指挥一样,混合云将使这些系统可以将这些系统设置为音乐,并且通过一层安全性和智能自动化。
translated by 谷歌翻译
In Novel Class Discovery (NCD), the goal is to find new classes in an unlabeled set given a labeled set of known but different classes. While NCD has recently gained attention from the community, no framework has yet been proposed for heterogeneous tabular data, despite being a very common representation of data. In this paper, we propose TabularNCD, a new method for discovering novel classes in tabular data. We show a way to extract knowledge from already known classes to guide the discovery process of novel classes in the context of tabular data which contains heterogeneous variables. A part of this process is done by a new method for defining pseudo labels, and we follow recent findings in Multi-Task Learning to optimize a joint objective function. Our method demonstrates that NCD is not only applicable to images but also to heterogeneous tabular data.
translated by 谷歌翻译
本文显示编辑和在线发布的边界正在失去其实力。在这种情况下,只会有意义地续签WayhyPertexts,尤其面对Web的演变。我们尤其是特殊的棘手的学者超文本文件流程 - 具体而是文化背景。本文的目的是证明,考虑到网络的众多分支机构,只有通过作者,编辑和广播公司之间的适当对话,才能通过适当的对话来提高质量文档的超文本。它将满足读者,因为他们可以达到适当的信息。还将表明,这种扫描中的集电运营者是纳税人。实际上,定性的形式化工作将与强大的广播范围相结合。最后,我们将指出,调解的这项方式必须由信息通信的演员领导,使人类和机器的教材。这种冥想的行为在这里被指定为序列课程的序列。
translated by 谷歌翻译
这项工作提出了一种新的动力学的新运动学,该动力学与单个执行器有关,可以实现三方握力,也可以实现侧向握力。受三位生假体的启发,比多物质假体更简单,更健壮和便宜,这种新的运动学旨在提出可访问的假体(负担得起的,易于使用,易于使用,健壮,易于修复)。使用电缆代替刚性杆来传递上指和拇指的动作。本文详细介绍了方法和设计选择。总而言之,通过实验用户对原型的评估导致对结果的首次讨论。
translated by 谷歌翻译
生成用户活动是评估安全监控工具的关键能力,以及提高攻击者分析平台的可信度(例如,蜜涅斯)。在本文中,为了产生此活动,我们通过外部代理仪器仪器。该代理结合了基于确定性和深度学习的方法,以适应不同的环境(例如,多个操作系统,软件版本等),同时保持高性能。我们还提出了有条件的文本生成模型,以方便创建对话和文档来加速相干,系统范围的生活场景的定义。
translated by 谷歌翻译
预先训练的语言模型已经建立了有关各种自然语言处理任务的最新技术,包括对话摘要,这使读者可以在会议,访谈或电话中的长时间对话中快速访问关键信息。但是,这种对话仍然很难使用当前的模型来处理,因为语言的自发性涉及在用于预先培训语言模型的语料库中很少存在的表达式。此外,在这一领域完成的绝大多数工作都集中在英语上。在这项工作中,我们介绍了一项研究,使用几种特定语言的预培训模型:Barthez和Belgpt-2以及多语言预培训的模型:MBART,MBARTHEZ和MT5。实验是在Decoda(呼叫中心)对话语料库上进行的,其任务是根据情况在呼叫中心与一个或几个代理之间的呼叫中心对话中产生抽象介绍。结果表明,Barthez型号的性能最佳,远远超过了Decoda先前的最新性能。我们进一步讨论了此类预训练模型的局限性以及总结自发对话所需的挑战。
translated by 谷歌翻译
该手稿概述了我在Besan \ c {C} Institute内部进行的研究工作,尤其是在自动和微型技术系统(AS2M)部门中。最重要的是我(CO)实习生,博士学位学生和博士后的所有结果。我想向他们致敬,以便他们在这里和其他地方为科学研究做出了重大贡献。
translated by 谷歌翻译
软件工程(SE)中的情感分析表明了承诺分析和支持各种发展活动。我们报告了经验研究的结果,以确定我们通过组合独立的SE特定情绪探测器的极性标签来确定开发集合发动机的可行性。我们的研究有两个阶段。在第一阶段,我们通过Lin等人从最近发表的两篇论文中选择了五个特定的情绪检测工具。 [31,32],谁首先报告了独立的情绪探测器的负面结果,然后提出了改进的SE特异性情绪检测器,POME [31]。我们向第17,581个单位(句子/文件)报告来自六个目前可用情绪基准的17,581个单位(句子/文件)。我们发现现有工具可以在85-95%的情况下互补,即,一个是错误的,但另一个是对的。然而,这些工具的大多数基于投票的集合未能提高情绪检测的准确性。我们通过将极性标签和单词袋作为特征组合来开发Sentisead,一个受监督的工具。 Sentisead将各个工具的性能(F1分数)提高了4%(Over Senti4SD [5]) - 100%(通过Pome [31])。在第二阶段,我们使用预先培训的变压器模型(PTM)进行比较和改进Sentisead基础架构。我们发现,带Roberta的Sentisead基础架构作为来自Lin等人的五个独立规则和浅学习的SE特定工具的集合。 [31,32]在六个数据集中提供0.805的最佳F1分数,而独立罗伯塔显示F1分数为0.801。
translated by 谷歌翻译
客户的评论在在线购物中起着至关重要的作用。人们经常参考以前客户的评论或评论,以决定是否购买新产品。赶上这种行为,有些人会为骗子的客户创建不真实的评论,以了解产品的假质量。这些评论称为垃圾邮件评论,它使消费者在在线购物平台上混淆,并对在线购物行为产生负面影响。我们提出了称为Vispamreviews的数据集,该数据集具有严格的注释程序,用于检测电子商务平台上的垃圾邮件评论。我们的数据集由两个任务组成:用于检测评论是否为垃圾邮件的二进制分类任务以及用于识别垃圾邮件类型的多类分类任务。Phobert在这两个任务上均以宏平均F1分别获得了最高的结果,分别为88.93%和72.17%。
translated by 谷歌翻译
软件开发互动期间的有毒对话可能会对免费开源软件(FOSS)开发项目产生严重影响。例如,有毒对话的受害者可能会害怕表达自己,因此会丧失自己的动力,并最终可能离开该项目。自动过滤有毒的对话可能有助于福斯社区保持其成员之间的健康互动。但是,现成的毒性探测器在软件工程(SE)数据集上的表现较差,例如从代码审查评论中策划的一个。为了遇到这一挑战,我们提出了毒性,这是一种基于学习的基于学习的毒性识别工具,用于代码审查互动。有毒物质包括选择一种监督学习算法之一,选择文本矢量化技术,八个预处理步骤以及一个大规模标记的数据集,其中包括19,571个代码评论评论。在这八个预处理步骤中,有两个是特定于SE域。通过对预处理步骤和矢量化技术的各种组合的模型进行严格的评估,我们已经确定了数据集的最佳组合,可提高95.8%的精度和88.9%的F1得分。毒性明显优于我们数据集中的现有毒性探测器。我们已发布了数据集,预处理的模型,评估结果和源代码,网址为:https://github.com/wsu-seal/toxicr
translated by 谷歌翻译
Natural language processing tasks, such as question answering, machine translation, reading comprehension, and summarization, are typically approached with supervised learning on taskspecific datasets. We demonstrate that language models begin to learn these tasks without any explicit supervision when trained on a new dataset of millions of webpages called WebText. When conditioned on a document plus questions, the answers generated by the language model reach 55 F1 on the CoQA dataset -matching or exceeding the performance of 3 out of 4 baseline systems without using the 127,000+ training examples. The capacity of the language model is essential to the success of zero-shot task transfer and increasing it improves performance in a log-linear fashion across tasks. Our largest model, GPT-2, is a 1.5B parameter Transformer that achieves state of the art results on 7 out of 8 tested language modeling datasets in a zero-shot setting but still underfits WebText. Samples from the model reflect these improvements and contain coherent paragraphs of text. These findings suggest a promising path towards building language processing systems which learn to perform tasks from their naturally occurring demonstrations.
translated by 谷歌翻译
关于哪些类型的故障机器人在家庭环境中以及这些失败如何影响客户体验时,存在知识差距。我们在亚马逊上分类了10,072个客户评论,通过它们中描述的机器人失败,将故障分组为十二种类型和三类(技术,互动和服务)。我们确定了先前忽略了文献中忽视的失败的来源和类型,将它们结合到更新的失败分类。我们分析了他们的频率和关系与客户明星评级。结果表明,对于功利主义国内机器人来说,技术故障比互动或服务失败更有害。常常报告任务完成和鲁棒性和恢复力的问题,并具有最大的负面影响。未来的预防和反应战略应解决机器人的技术能力,以满足功能目标,运作和保持结构完整性随着时间的推移。可用性和互动设计对客户体验不利,表明客户可能更宽容影响机器人和实际用途的影响的失败。此外,我们开发了一种能够预测客户审查是否包含描述故障的内容以及它描述的故障类型的自然语言处理模型。借鉴了这些知识,机器人系统的设计者和研究人员可以优先考虑设计和开发努力实现基本问题。
translated by 谷歌翻译
在自然语言处理中,已证明使用预训练的语言模型可以在许多下游任务(例如情感分析,作者识别等)中获得最先进的结果。在这项工作中,我们解决了这些方法从文本中使用的人格分类。着眼于Myers-Briggs(MBTI)人格模型,我们描述了一系列实验,其中众所周知的双向编码器表示来自变形金刚(BERT)模型的模型进行微调以执行MBTI分类。我们的主要发现表明,当前方法在多种评估方案中基于词袋和静态单词嵌入方式大大优于众所周知的文本分类模型,并且通常在该领域的先前工作都优于先前的工作。
translated by 谷歌翻译
在线评论对客户的购买决策有了重大影响,以满足任何产品或服务。但是,假审查可以误导消费者和公司。已经开发了几种模型来使用机器学习方法检测假审查。许多这些模型具有一些限制,导致在虚假和真正的评论之间具有低准确性。这些模型仅集中在语言特征上,以检测虚假评论,未能捕获评论的语义含义。要解决此问题,本文提出了一种新的集合模型,采用变换器架构,以在一系列虚假评论中发现隐藏的模式并准确地检测它们。该拟议方法结合了三种变压器模型来提高虚假和真正行为分析和建模的鲁棒性,以检测虚假评论。使用半真实基准数据集的实验结果显示了拟议的型号模型的优越性。
translated by 谷歌翻译