Automatic Image Cropping is a challenging task with many practical downstream applications. The task is often divided into sub-problems - generating cropping candidates, finding the visually important regions, and determining aesthetics to select the most appealing candidate. Prior approaches model one or more of these sub-problems separately, and often combine them sequentially. We propose a novel convolutional neural network (CNN) based method to crop images directly, without explicitly modeling image aesthetics, evaluating multiple crop candidates, or detecting visually salient regions. Our model is trained on a large dataset of images cropped by experienced editors and can simultaneously predict bounding boxes for multiple fixed aspect ratios. We consider the aspect ratio of the cropped image to be a critical factor that influences aesthetics. Prior approaches for automatic image cropping, did not enforce the aspect ratio of the outputs, likely due to a lack of datasets for this task. We, therefore, benchmark our method on public datasets for two related tasks - first, aesthetic image cropping without regard to aspect ratio, and second, thumbnail generation that requires fixed aspect ratio outputs, but where aesthetics are not crucial. We show that our strategy is competitive with or performs better than existing methods in both these tasks. Furthermore, our one-stage model is easier to train and significantly faster than existing two-stage or end-to-end methods for inference. We present a qualitative evaluation study, and find that our model is able to generalize to diverse images from unseen datasets and often retains compositional properties of the original images after cropping. Our results demonstrate that explicitly modeling image aesthetics or visual attention regions is not necessarily required to build a competitive image cropping algorithm.
translated by 谷歌翻译
本研究提出了一种新颖的趋势检测和可视化方法 - 更具体地说,随着时间的推移,主题的变化建模。如果当前用于识别和可视化趋势的模型仅传达基于用法随机计数的单一单词的普及,那么本研究中的方法说明了一个主题正在发展的普及和方向。在这种情况下,方向是选定语料库中的独特亚主题。通过使用K-均值聚类和余弦相似性对主题的移动进行建模来对这种趋势进行建模,以将簇之间的距离分组。在收敛的场景中,可以推断出整个主题是在网络上的(主题之间的令牌,可以互换)。相反,一个不同的场景暗示每个主题的各自的令牌在相同的上下文中都不会找到(彼此之间越来越不同)。该方法对20个新闻组数据集中存在的各种媒体房屋的一组文章进行了测试。
translated by 谷歌翻译
在当今的现代数字世界中,我们有许多在线问答平台,例如Stack Exchange,Quora和GFG,它们是人们交流和互相帮助的媒介。在本文中,我们分析了堆栈溢出在帮助新手进行编程方面的有效性。该平台上的每个用户都会经历旅程。在最初的12个月中,我们认为它们是新手。在12个月后,他们属于以下类别之一:经验丰富,潜伏或好奇。每个问题都有分配给它的标签,我们观察到具有某些特定标签的问题的响应时间更快,表明该领域的活跃社区比其他领域的社区。该平台截至2013年开始稳定增长,之后它开始下降,但是最近在2020年大流行期间,我们可以在平台上看到恢复活力的活动。
translated by 谷歌翻译
机器学习的最新进展显着改善了对源代码数据的理解,并在许多下游任务上取得了良好的表现。像GitHub这样的开源存储库使用丰富的未标记代码数据启用此过程。但是,缺乏高质量标记的数据在很大程度上阻碍了几个相关任务的进度,例如程序翻译,摘要,合成和代码搜索。本文介绍了XLCOST,跨语言代码摘要数据集,这是一种用于跨语言代码智能的新基准数据集。我们的数据集包含来自8种语言(7种常用编程语言和英语)的细粒并行数据,并支持10个跨语性代码任务。据我们所知,就规模和语言数量而言,它是源代码的最大并行数据集。我们还为每个任务提供了几种最先进的基线模型的性能。我们认为,这个新数据集可能是研究界的宝贵资产,并促进了跨语法代码智能的新方法的开发和验证。
translated by 谷歌翻译
在现代社交媒体和网络时代,现实世界现象的图表表示已成为我的洞察力的令人难以置信的源泉。通常,我们有兴趣了解图形中的实体如何互连。图形神经网络(GNN)已被证明是在各种图形学习任务中的一个非常有用的工具,包括节点分类,链路预测和边缘分类。但是,在大多数任务中,我们使用的图形数据可能是嘈杂的,并且可能包含虚假边缘。也就是说,与底层图形结构有很多不确定性。最近建模不确定性的方法一直使用贝叶斯框架,并将图表视为随机变量,与模型参数相关的概率。已经显示出介绍基于图形的模型,专门用于半监督节点分类,从而显示出更高的分类精度。然而,在最近的工作中提出的图表推理的方法没有考虑图表的结构。在本文中,我们提出了一种新颖的算法,使用邻域随机步行采样(BGCN-NRW)提出了一种名为贝叶斯图卷积网络的新颖算法,它使用了利用图形结构的Markov链蒙特卡罗(MCMC)的图形采样算法,通过使用变分或推理来减少过度拟合与半监督节点分类中的最先进的技术相比,层,并始终竞争的分类结果。
translated by 谷歌翻译
增加对肉类产品的需求与农业劳动力短缺相结合,导致需要开发新的实时解决方案来有效监控动物。使用跟踪逐方法连续定位单个猪进行了重大进展。然而,这些方法由于单个固定摄像机而不能以足够的分辨率覆盖整个地板的椭圆形钢笔。我们通过使用多个相机来解决这个问题,使得相邻摄像机的视野重叠,它们在一起跨越整个楼层。当猪从一个摄像机视图到相邻相机的视图时,避免跟踪中的断裂需要相互作用的切换。我们在地板上识别相邻的相机和共用猪位置,在地板上使用视图间的界面定位。我们的实验涉及两个生长良好的钢笔,每个成长型猪,每个猪,以及三个RGB相机。我们的算法首先使用基于深度学习的对象检测模型(YOLO)来检测猪,并使用多目标跟踪算法(DevelSort)创建其本地跟踪ID。然后,我们使用相互相互作用的共享位置来匹配多个视图,并为在整个跟踪中保存的每只猪生成全局ID。为了评估我们的方法,我们提供了五种两分钟的长视频序列,具有完全注释的全球标识。我们在单个摄像头视图中跟踪猪,多目标跟踪精度和精度分别为65.0%和54.3%,实现了74.0%的相机切换精度。我们在https://github.com/aifarms/multi-camera-pig-tracking中开源我们的代码和注释数据集
translated by 谷歌翻译
对图像分类任务的对比学习成功的鼓励,我们为3D手姿势估计的结构化回归任务提出了一种新的自我监督方法。对比学习利用未标记的数据来通过损失制定来使用未标记的数据,以鼓励学习的特征表示在任何图像转换下都是不变的。对于3D手姿势估计,它也希望具有不变性地与诸如颜色抖动的外观变换。但是,该任务需要在仿射和转换之类的转换下的标准性。为了解决这个问题,我们提出了一种对比的对比目标,并在3D手姿势估计的背景下展示其有效性。我们通过实验研究了不变性和对比的对比目标的影响,并表明学习的等待特征导致3D手姿势估计的任务的更好表示。此外,我们显示具有足够深度的标准Evenet,在额外的未标记数据上培训,在弗雷手中获得高达14.5%的提高,因此在没有任何任务的专用架构的情况下实现最先进的性能。 https://ait.ethz.ch/projects/2021/peclr/使用代码和模型
translated by 谷歌翻译
Molecular machine learning has been maturing rapidly over the last few years.Improved methods and the presence of larger datasets have enabled machine learning algorithms to make increasingly accurate predictions about molecular properties. However, algorithmic progress has been limited due to the lack of a standard benchmark to compare the efficacy of proposed methods; most new algorithms are benchmarked on different datasets making it challenging to gauge the quality of proposed methods. This work introduces MoleculeNet, a large scale benchmark for molecular machine learning. MoleculeNet curates multiple public datasets, establishes metrics for evaluation, and offers high quality open-source implementations of multiple previously proposed molecular featurization and learning algorithms (released as part of the DeepChem
translated by 谷歌翻译