保护用户免受访问恶意网站的是网络运营商的重要管理任务之一。有许多开源和商业产品来控制用户可以访问的网站。最传统的方法是基于黑名单的过滤。这种机制简单但不可扩展,尽管使用模糊匹配技术存在一些增强的方法。其他方法尝试通过从URL字符串中提取功能来使用机器学习(ML)技术。这种方法可以覆盖更广泛的互联网网站区域,但找到了良好的功能需要深入了解网站设计的趋势。最近,出现了使用深度学习(DL)的另一种方法。 DL方法将有助于通过调查大量现有的示例数据自动提取功能。使用此技术,我们可以通过继续教导近期趋势的神经网络模块来构建灵活的过滤决策模块,而没有URL域的任何特定专家知识。在本文中,我们应用了从URL字符串生成特征向量的机械方法。我们实施了我们的方法,并使用了从研究组织和来自着名的网络钓鱼网站信息信息,Phishtank.com获取的现实URL访问历史记录数据。与现有的基于DL的方法相比,我们的方法可以获得2〜3%的更好的准确性。
translated by 谷歌翻译