向量图形文档呈现多个视觉元素,例如图像,形状和文本。对于业余爱好者和专业设计师来说,为多个视觉元素选择合适的颜色是一项艰巨但至关重要的任务。我们没有为所有元素创建单个调色板,而是从图形文档中的每个视觉元素中提取多个调色板,然后将它们组合成颜色序列。我们为颜色序列完成提出了一个掩盖的颜色模型,并建议基于多板的颜色上下文的指定颜色,概率很高。我们训练模型并在矢量图形文档的大规模数据集上构建颜色建议系统。提出的颜色建议方法通过定量和定性评估对颜色预测和我们的颜色推荐系统的表现优于其他最先进的方法,并在访谈研究中收到了专业设计师的积极反馈。
translated by 谷歌翻译
使用计算笔记本(例如,Jupyter Notebook),数据科学家根据他们的先前经验和外部知识(如在线示例)合理化他们的探索性数据分析(EDA)。对于缺乏关于数据集或问题的具体了解的新手或数据科学家,有效地获得和理解外部信息对于执行EDA至关重要。本文介绍了eDassistant,一个jupyterlab扩展,支持EDA的原位搜索示例笔记本电脑和有用的API的推荐,由搜索结果的新颖交互式可视化供电。代码搜索和推荐是由最先进的机器学习模型启用的,培训在线收集的EDA笔记本电脑的大型语料库。进行用户学习,以调查埃迪卡斯特和数据科学家的当前实践(即,使用外部搜索引擎)。结果证明了埃迪斯坦特的有效性和有用性,与会者赞赏其对EDA的顺利和环境支持。我们还报告了有关代码推荐工具的几种设计意义。
translated by 谷歌翻译
The increasing reliance on online communities for healthcare information by patients and caregivers has led to the increase in the spread of misinformation, or subjective, anecdotal and inaccurate or non-specific recommendations, which, if acted on, could cause serious harm to the patients. Hence, there is an urgent need to connect users with accurate and tailored health information in a timely manner to prevent such harm. This paper proposes an innovative approach to suggesting reliable information to participants in online communities as they move through different stages in their disease or treatment. We hypothesize that patients with similar histories of disease progression or course of treatment would have similar information needs at comparable stages. Specifically, we pose the problem of predicting topic tags or keywords that describe the future information needs of users based on their profiles, traces of their online interactions within the community (past posts, replies) and the profiles and traces of online interactions of other users with similar profiles and similar traces of past interaction with the target users. The result is a variant of the collaborative information filtering or recommendation system tailored to the needs of users of online health communities. We report results of our experiments on an expert curated data set which demonstrate the superiority of the proposed approach over the state of the art baselines with respect to accurate and timely prediction of topic tags (and hence information sources of interest).
translated by 谷歌翻译
排名模型是信息检索系统的主要组成部分。排名的几种方法是基于传统的机器学习算法,使用一组手工制作的功能。最近,研究人员在信息检索中利用了深度学习模型。这些模型的培训结束于结束,以提取来自RAW数据的特征来排序任务,因此它们克服了手工制作功能的局限性。已经提出了各种深度学习模型,每个模型都呈现了一组神经网络组件,以提取用于排名的特征。在本文中,我们在不同方面比较文献中提出的模型,以了解每个模型的主要贡献和限制。在我们对文献的讨论中,我们分析了有前途的神经元件,并提出了未来的研究方向。我们还显示文档检索和其他检索任务之间的类比,其中排名的项目是结构化文档,答案,图像和视频。
translated by 谷歌翻译
近年来,在应用预训练的语言模型(例如Bert)上,取得了巨大进展,以获取信息检索(IR)任务。在网页中通常使用的超链接已被利用用于设计预训练目标。例如,超链接的锚文本已用于模拟查询,从而构建了巨大的查询文档对以进行预训练。但是,作为跨越两个网页的桥梁,尚未完全探索超链接的潜力。在这项工作中,我们专注于建模通过超链接连接的两个文档之间的关系,并为临时检索设计一个新的预训练目标。具体而言,我们将文档之间的关系分为四组:无链接,单向链接,对称链接和最相关的对称链接。通过比较从相邻组采样的两个文档,该模型可以逐渐提高其捕获匹配信号的能力。我们提出了一个渐进的超链接预测({php})框架,以探索预训练中超链接的利用。对两个大规模临时检索数据集和六个提问数据集的实验结果证明了其优于现有的预训练方法。
translated by 谷歌翻译
建筑聊天禁令的最大挑战是培训数据。所需的数据必须逼真,足以训练聊天禁止。我们创建一个工具,用于从Facebook页面的Facebook Messenger获取实际培训数据。在文本预处理步骤之后,新获得的数据集生成FVNC和示例数据集。我们使用返回越南(Phobert)的伯特来提取文本数据的功能。 K-means和DBSCAN聚类算法用于基于Phobert $ _ {Base} $的输出嵌入式群集任务。我们应用V测量分数和轮廓分数来评估聚类算法的性能。我们还展示了Phobert的效率与样本数据集和Wiki DataSet上的特征提取中的其他模型相比。还提出了一种结合聚类评估的GridSearch算法来找到最佳参数。由于群集如此多的对话,我们节省了大量的时间和精力来构建培训Chatbot的数据和故事情节。
translated by 谷歌翻译
分布式文档表示是自然语言处理中的基本问题之一。目前分布式文档表示方法主要考虑单词或句子的上下文信息。这些方法不考虑文件作为整体的一致性,例如文档之间的关系,文档中的纸张标题和抽象,标题和描述或相邻机构之间的关系。一致性显示文档是否有意义,逻辑和句法,尤其是科学文档(论文或专利等)。在本文中,我们提出了一个耦合文本对嵌入(CTPE)模型来学习科学文档的表示,其通过分割文档来维护文档与耦合文本对的相干性。首先,我们将文档划分为构造耦合文本对的两个部分(例如,标题和抽象等)。然后,我们采用负面采样来构建两个部分来自不同文档的未耦合文本对。最后,我们训练模型以判断文本对是否被耦合或解耦并使用所获得的耦合文本对的嵌入作为嵌入文档。我们在三个数据集上执行实验,以获得一个信息检索任务和两个推荐任务。实验结果验证了所提出的CTPE模型的有效性。
translated by 谷歌翻译
我们提出了第一个统一的框架Unicolor,以支持多种方式的着色,包括无条件和条件性的框架,例如中风,示例,文本,甚至是它们的混合。我们没有为每种类型的条件学习单独的模型,而是引入了一个两阶段的着色框架,以将各种条件纳入单个模型。在第一阶段,多模式条件将转换为提示点的共同表示。特别是,我们提出了一种基于剪辑的新方法,将文本转换为提示点。在第二阶段,我们提出了一个基于变压器的网络,该网络由Chroma-vqgan和Hybrid-Transformer组成,以生成以提示点为条件的多样化和高质量的着色结果。定性和定量比较都表明,我们的方法在每种控制方式中都优于最先进的方法,并进一步实现了以前不可行的多模式着色。此外,我们设计了一个交互式界面,显示了我们统一框架在实际用法中的有效性,包括自动着色,混合控制着色,局部再现和迭代色彩编辑。我们的代码和型号可在https://luckyhzt.github.io/unicolor上找到。
translated by 谷歌翻译
来自文件的信息提取(即)是一大集工业应用的密集研究领域。目前最先进的方法专注于扫描文档,其中包含计算机视觉,自然语言处理和布局表示的方法。我们建议在可获得令牌风格和视觉表示的情况下挑战计算机愿景的使用(即本机PDF文件)。我们在三个现实世界复杂数据集上的实验表明,使用基于令牌的嵌入属性而不是Layoutlm模型中的原始视觉嵌入是有益的。根据数据集,这种嵌入在加权F1分数中提高0.18%至2.29%,在模型的最终培训参数中减少30.7%,从而提高了效率和有效性。
translated by 谷歌翻译
本文对过去二十年来对自然语言生成(NLG)的研究提供了全面的审查,特别是与数据到文本生成和文本到文本生成深度学习方法有关,以及NLG的新应用技术。该调查旨在(a)给出关于NLG核心任务的最新综合,以及该领域采用的建筑;(b)详细介绍各种NLG任务和数据集,并提请注意NLG评估中的挑战,专注于不同的评估方法及其关系;(c)强调一些未来的强调和相对近期的研究问题,因为NLG和其他人工智能领域的协同作用而增加,例如计算机视觉,文本和计算创造力。
translated by 谷歌翻译
文档AI或Document Intelligence是一个相对较新的研究主题,指的是自动阅读,理解和分析业务文档的技术。它是自然语言处理和计算机视觉的重要研究方向。近年来,深度学习技术的普及已经大大提高了文档AI的发展,如文件布局分析,视觉信息提取,文档视觉问题应答,文档图像分类等。本文简要评论了一些代表性模型,任务和基准数据集。此外,我们还介绍了早期的启发式规则的文档分析,统计机器学习算法,深度学习方法,尤其是预训练方法。最后,我们展望未来的Document AI研究方向。
translated by 谷歌翻译
表的智能分析和可视化表使用技术自动从数据中推荐有用的知识,从而使用户免于乏味的多维数据挖掘。尽管许多研究成功地通过规则或机器学习来自动化建议,但很难概括专家知识并提供可解释的建议。在本文中,我们首次提出条件格式的建议,以及图表建议,以示例智能表分析。我们建议对表上的分析语义,以发现用户创建的分析背后的共同分析模式。在这里,我们通过将数据重点与用户意图分开,从而分别从数据和人类的角度提取了用户的动机来设计分析语义。此外,我们设计的ASTA框架是为了将分析语义应用于多个自动化建议。 ASTA框架通过根据专家知识设计签名来提取数据功能,并在现场(图)或细胞级(条件格式)(条件格式化)中启用数据引用。实验表明,我们的框架在公共图表中的62.86%中的前1位获得了召回率,在公共图表中,最佳基准优于14%的最佳基准,并在收集的语料库中获得了72.31%的召回,证明ASTA框架有效地提供了准确且可解释的建议。
translated by 谷歌翻译
我们研究了检查问题的事实,旨在识别给定索赔的真实性。具体而言,我们专注于事实提取和验证(发烧)及其伴随数据集的任务。该任务包括从维基百科检索相关文件(和句子)并验证文件中的信息是否支持或驳斥所索赔的索赔。此任务至关重要,可以是假新闻检测和医疗索赔验证等应用程序块。在本文中,我们以通过以结构化和全面的方式呈现文献来更好地了解任务的挑战。我们通过分析不同方法的技术视角并讨论发热数据集的性能结果,描述了所提出的方法,这是最熟悉的和正式结构化的数据集,就是事实提取和验证任务。我们还迄今为止迄今为止确定句子检索组件的有益损失函数的最大实验研究。我们的分析表明,采样负句对于提高性能并降低计算复杂性很重要。最后,我们描述了开放的问题和未来的挑战,我们激励了未来的任务研究。
translated by 谷歌翻译
随着推荐系统变得越来越复杂和复杂,它们通常会缺乏公平和透明度。为建议提供强大而公正的解释,人们越来越关注,因为它可以帮助解决这些问题并提高推荐系统的信任度和信息性。然而,尽管事实是为人类生成了这种解释,这些人类对具有适当情绪的信息做出更强烈反应,但在为建议解释时,人们缺乏对情绪的考虑。发现当前的解释生成模型可以夸大某些情绪,而无需准确捕获基本的语调或含义。在本文中,我们提出了一种基于多头变压器的新方法,称为“情感感知变压器”,以解释推荐(情感者),以产生更健壮,公平和情感增强的解释。为了衡量产生的解释的语言质量和情感公平性,我们采用自动文本指标和人类的看法进行评估。在具有多个评估指标的三个广泛使用基准数据集上进行的实验表明,情感者在文本质量,解释性和对情感分布的公平性方面始终优于现有的最新解释生成模型。 Emoter的实施将作为开源工具包发布,以支持进一步的研究。
translated by 谷歌翻译
随着预训练的语言模型(PLM)的继续增长,精细调整PLM的硬件和数据要求也会增长。因此,研究人员提出了一种称为\ textit {提示学习}的较轻方法。但是,在调查过程中,我们观察到及时的学习方法是脆弱的,很容易被一些非法构造的提示攻击,从而导致分类错误和PLM的严重安全问题。当前的大多数研究都忽略了基于及时方法的安全问题。因此,在本文中,我们提出了一种恶意提示模板构建方法(\ textbf {stressAttack})来探测PLM的安全性能。研究了几种不友好的模板构建方法,以指导模型错误分类任务。在三个数据集和三个PLM上进行了广泛的实验证明了我们提出的方法提示的有效性。我们还进行实验,以验证我们的方法是否适用于几种镜头。
translated by 谷歌翻译
名人认可是品牌交流中最重要的策略之一。如今,越来越多的公司试图为自己建立生动的特征。因此,他们的品牌身份交流应符合人类和法规的某些特征。但是,以前的作品主要是通过假设停止的,而不是提出一种特定的品牌和名人之间匹配的方式。在本文中,我们建议基于自然语言处理(NLP)技术的品牌名人匹配模型(BCM)。鉴于品牌和名人,我们首先从互联网上获得了一些描述性文档,然后总结了这些文档,最后计算品牌和名人之间的匹配程度,以确定它们是否匹配。根据实验结果,我们提出的模型以0.362 F1得分和精度的6.3%优于最佳基线,这表明我们模型在现实世界中的有效性和应用值。更重要的是,据我们所知,拟议的BCM模型是使用NLP解决认可问题的第一项工作,因此它可以为以下工作提供一些新颖的研究思想和方法。
translated by 谷歌翻译
在网络和社交媒体上生成的大量数据增加了检测在线仇恨言论的需求。检测仇恨言论将减少它们对他人的负面影响和影响。在自然语言处理(NLP)域中的许多努力旨在宣传仇恨言论或检测特定的仇恨言论,如宗教,种族,性别或性取向。讨厌的社区倾向于使用缩写,故意拼写错误和他们的沟通中的编码词来逃避检测,增加了讨厌语音检测任务的更多挑战。因此,词表示将在检测仇恨言论中发挥越来越关的作用。本文研究了利用基于双向LSTM的深度模型中嵌入的域特定词语的可行性,以自动检测/分类仇恨语音。此外,我们调查转移学习语言模型(BERT)对仇恨语音问题作为二进制分类任务。实验表明,与双向LSTM基于LSTM的深层模型嵌入的域特异性词嵌入了93%的F1分数,而BERT在可用仇恨语音数据集中的组合平衡数据集上达到了高达96%的F1分数。
translated by 谷歌翻译
推荐系统已被广泛用于各种领域,例如音乐,电影,电子购物。等等。在大多避免数字化之后,由于流行病而最近达到了技术转折点,使在线销售显着增长,并提供定量的定量性。有关艺术家和艺术品的在线数据。在这项工作中,我们提出了一个基于内容的推荐系统,依靠艺术品和艺术家的上下文元数据的图像。我们收集和注释的艺术品提供了高级和特定于艺术的信息,以创建一个完全独特的数据库,该数据库用于培训我们的模型。有了这些信息,我们在艺术品之间构建了一个接近图。同样,我们使用NLP技术来表征艺术家的实践,并从展览和其他活动历史中提取信息,以在艺术家之间创建近距离图。图形分析的力量使我们能够基于艺术品和艺术家的视觉和上下文信息的结合提供艺术品推荐系统。经过一组艺术专家的评估,与他们的专业评估相比,我们的平均最终评分为75%。
translated by 谷歌翻译
已显示迅速学习可以在大多数文本分类任务中实现近调调节性能,但很少有培训示例。对于样品稀缺的NLP任务是有利的。在本文中,我们试图将其应用于实际情况,即恢复信息提取,并增强现有方法,以使其更适用于简历信息提取任务。特别是,我们根据简历的文本特征创建了多组手动模板和语言器。此外,我们比较了蒙版语言模型(MLM)预培训语言模型(PLM)和SEQ2SEQ PLM在此任务上的性能。此外,我们改进了口头设计的设计方法,用于知识渊博的及时调整,以便为其他基于应用程序的NLP任务的迅速模板和语言设计的设计提供了示例。在这种情况下,我们提出了手动知识渊博的语言器(MKV)的概念。构造与应用程序方案相对应的知识渊博的口头表的规则。实验表明,基于我们的规则设计的模板和言语器比现有的手动模板更有效,更强大,并自动生成及时方法。已经确定,当前可用的自动提示方法无法与手动设计的及时模板竞争一些现实的任务方案。最终混淆矩阵的结果表明,我们提出的MKV显着解决了样本不平衡问题。
translated by 谷歌翻译
生物医学问题的回答旨在从生物医学领域获得对给定问题的答案。由于其对生物医学领域知识的需求很高,因此模型很难从有限的培训数据中学习域知识。我们提出了一种上下文嵌入方法,该方法结合了在生物医学域数据上预先训练的开放域QA模型\ AOA和\ biobert模型。我们对大型生物医学语料库采用无监督的预培训,并在生物医学问题答案数据集上进行了微调。此外,我们采用基于MLP的模型加权层自动利用两个模型的优势以提供正确的答案。由PubMed语料库构建的公共数据集\ BIOMRC用于评估我们的方法。实验结果表明,我们的模型以大幅度优于最先进的系统。
translated by 谷歌翻译