单词是基本的语言单位,通过含义将思想和事物联系起来。但是,单词在文本序列中并未独立出现。句法规则的存在导致相邻单词之间的相关性。此外,单词不是均匀分布的,而是遵循幂定律,因为带有纯语义内容的术语似乎比指定语法关系的术语要少得多。使用序数模式方法,我们对11种主要语言的词汇统计连接进行了分析。我们发现,语言用来表达单词关系的各种举止产生了独特的模式分布。值得注意的是,我们发现这些关系可以用马尔可夫2的模型建模,并且该结果对所有研究的语言都有普遍有效。此外,模式分布的波动可以使我们能够确定文本及其作者的历史时期。综上所述,这些结果强调了时间序列分析和信息理论方法的相关性,以理解自然语言的统计相关性。
translated by 谷歌翻译
文化领域代表了一个有用的概念,该概念在社会科学领域进行了交叉侵占。了解人类如何在社会中组织和联系他们的思想和行为有助于了解他们对不同问题的行为和态度。但是,塑造文化领域的共同特征的选择是任意的。所需的方法是一种可以利用大量在线数据(尤其是通过社交媒体)来识别没有临时假设,偏见或偏见的文化区域的方法。在这项工作中,我们通过引入一种基于微博帖子对大型数据集的自动分析来推断文化区域的方法来朝着这个方向迈出关键一步。我们的方法是基于以下原则:从人们之间讨论的主题可以推断出文化隶属关系。具体来说,我们衡量了美国社交媒体产生的书面话语中的区域差异。从地理标记的推文中内容词的频率分布,我们找到了“用法”区域热点,从那里我们得出了区域变化的主要成分。通过在这个较低维空间中数据的层次聚类,我们的方法得出了清晰的文化领域和定义它们的讨论主题。我们获得了一个明显的南北分离,主要受非裔美国人文化的影响,并进一步连续(东西方)和不连续的(城市农村)分裂,这些师为当今美国的文化领域提供了全面的了解。
translated by 谷歌翻译
在联合学习(FL)中,一组参与者共享与将更新结合到全局模型中的聚合服务器在本地数据上计算的更新。但是,将准确性与隐私和安全性进行调和是FL的挑战。一方面,诚实参与者发送的良好更新可能会揭示其私人本地信息,而恶意参与者发送的中毒更新可能会损害模型的可用性和/或完整性。另一方面,通过更新失真赔偿准确性增强隐私,而通过更新聚合损坏安全性,因为它不允许服务器过滤掉单个中毒更新。为了解决准确性私人关系冲突,我们提出{\ em碎片的联合学习}(FFL),其中参与者在将其发送到服务器之前,随机交换并混合其更新的片段。为了获得隐私,我们设计了一个轻巧的协议,该协议允许参与者私下交换和混合其更新的加密片段,以便服务器既不能获得单个更新,也不能将其链接到其发起人。为了实现安全性,我们设计了针对FFL量身定制的基于声誉的防御,该防御根据他们交换的片段质量以及他们发送的混合更新来建立对参与者及其混合更新的信任。由于交换的片段的参数可以保持其原始坐标和攻击者可以中和,因此服务器可以从接收到的混合更新中正确重建全局模型而不会准确损失。四个真实数据集的实验表明,FFL可以防止半冬季服务器安装隐私攻击,可以有效地抵抗中毒攻击,并可以保持全局模型的准确性。
translated by 谷歌翻译
我们审查在机器学习(ML)中使用差异隐私(DP)对隐私保护的使用。我们表明,在维护学习模型的准确性的驱动下,基于DP的ML实现非常宽松,以至于它们不提供DP的事前隐私保证。取而代之的是,他们提供的基本上是与传统(经常受到批评的)统计披露控制方法相似的噪声。由于缺乏正式的隐私保证,因此所提供的实际隐私水平必须经过实验评估,这很少进行。在这方面,我们提出的经验结果表明,ML中的标准反拟合技术可以比DP实现更好的实用性/隐私/效率权衡。
translated by 谷歌翻译
本文详细介绍了我们对2021年真正机器人挑战的第一阶段提交的提交;三指机器人必须沿指定目标轨迹携带立方体的挑战。为了解决第1阶段,我们使用一种纯净的增强学习方法,该方法需要对机器人系统或机器人抓握的最少专家知识。与事后的经验重播一起采用了稀疏,基于目标的奖励,以教导控制立方体将立方体移至目标的X和Y坐标。同时,采用了基于密集的距离奖励来教授将立方体提升到目标的Z坐标(高度组成部分)的政策。该策略在将域随机化的模拟中进行培训,然后再转移到真实的机器人进行评估。尽管此次转移后的性能往往会恶化,但我们的最佳政策可以通过有效的捏合掌握能够成功地沿目标轨迹提升真正的立方体。我们的方法表现优于所有其他提交,包括那些利用更传统的机器人控制技术的提交,并且是第一个解决这一挑战的纯学习方法。
translated by 谷歌翻译
灵巧的操纵仍然是机器人技术中的一个空缺问题。为了协调研究界为解决这个问题的努力,我们提出了共同的基准。我们设计和构建了机器人平台,该平台托管在MPI上供智能系统托管,可以远程访问。每个平台由三个能够敏捷物体操纵的机器人手指组成。用户能够通过提交自动执行的代码(类似于计算群集)来远程控制平台。使用此设置,i)我们举办机器人竞赛,来自世界任何地方的团队访问我们的平台以应对具有挑战性的任务ii)我们发布了在这些比赛中收集的数据集(包括数百个机器人小时),而我们为研究人员提供了访问自己项目的这些平台。
translated by 谷歌翻译
在世界上语言中编码的文化多样性有风险,因为在越来越多的全球化的背景下,许多语言在过去几十年中濒临灭绝。为了保留这种多样性,首先是必要了解推动语言灭绝的东西,以及哪些机制可能能够共存。在这里,我们使用理论和数据驱动的角度研究语言转换机制。使用Twitter和人口普查数据对多语种社团进行大规模实证分析,产生了广泛的语言共存空间模式。它根据语言扬声器的混合来分离,在不相交语言域的边界上进行多种语言。要了解这些不同的国家如何出现,特别是变得稳定,我们提出了一种在学习其他语言时达到语言共存的模型,并且当双语有利于使用濒危语言时。在比例框架中进行的模拟突出了人们流动性引起的空间相互作用的重要性,以解释混合状态的稳定性或两个语言区域之间的边界的存在。此外,我们发现语言的历史至关重要,了解他们现在的状态。
translated by 谷歌翻译
尽管自动图像分析的重要性不断增加,但最近的元研究揭示了有关算法验证的主要缺陷。性能指标对于使用的自动算法的有意义,客观和透明的性能评估和验证尤其是关键,但是在使用特定的指标进行给定的图像分析任务时,对实际陷阱的关注相对较少。这些通常与(1)无视固有的度量属性,例如在存在类不平衡或小目标结构的情况下的行为,(2)无视固有的数据集属性,例如测试的非独立性案例和(3)无视指标应反映的实际生物医学领域的兴趣。该动态文档的目的是说明图像分析领域通常应用的性能指标的重要局限性。在这种情况下,它重点介绍了可以用作图像级分类,语义分割,实例分割或对象检测任务的生物医学图像分析问题。当前版本是基于由全球60多家机构的国际图像分析专家进行的关于指标的Delphi流程。
translated by 谷歌翻译
In this paper, we propose a novel technique, namely INVALIDATOR, to automatically assess the correctness of APR-generated patches via semantic and syntactic reasoning. INVALIDATOR reasons about program semantic via program invariants while it also captures program syntax via language semantic learned from large code corpus using the pre-trained language model. Given a buggy program and the developer-patched program, INVALIDATOR infers likely invariants on both programs. Then, INVALIDATOR determines that a APR-generated patch overfits if: (1) it violates correct specifications or (2) maintains errors behaviors of the original buggy program. In case our approach fails to determine an overfitting patch based on invariants, INVALIDATOR utilizes a trained model from labeled patches to assess patch correctness based on program syntax. The benefit of INVALIDATOR is three-fold. First, INVALIDATOR is able to leverage both semantic and syntactic reasoning to enhance its discriminant capability. Second, INVALIDATOR does not require new test cases to be generated but instead only relies on the current test suite and uses invariant inference to generalize the behaviors of a program. Third, INVALIDATOR is fully automated. We have conducted our experiments on a dataset of 885 patches generated on real-world programs in Defects4J. Experiment results show that INVALIDATOR correctly classified 79% overfitting patches, accounting for 23% more overfitting patches being detected by the best baseline. INVALIDATOR also substantially outperforms the best baselines by 14% and 19% in terms of Accuracy and F-Measure, respectively.
translated by 谷歌翻译
The recent increase in public and academic interest in preserving biodiversity has led to the growth of the field of conservation technology. This field involves designing and constructing tools that utilize technology to aid in the conservation of wildlife. In this article, we will use case studies to demonstrate the importance of designing conservation tools with human-wildlife interaction in mind and provide a framework for creating successful tools. These case studies include a range of complexities, from simple cat collars to machine learning and game theory methodologies. Our goal is to introduce and inform current and future researchers in the field of conservation technology and provide references for educating the next generation of conservation technologists. Conservation technology not only has the potential to benefit biodiversity but also has broader impacts on fields such as sustainability and environmental protection. By using innovative technologies to address conservation challenges, we can find more effective and efficient solutions to protect and preserve our planet's resources.
translated by 谷歌翻译