智能论文笔记

Automatic Controlling Fish Feeding Machine using Feature Extraction of Nutriment and Ripple Behavior

Hilmil Pradana , Keiichi Horio

分类：计算机视觉

2022-08-15

控制鱼类进食机是具有挑战性的问题，因为经验丰富的渔民可以根据假设充分控制。为了构建合理应用的强大方法，我们分别使用回归和纹理特征分别使用计数营养和估算涟漪行为来根据计算机视觉进行自动控制鱼类进料机。为了计算营养数量，我们应用对象检测和跟踪方法来确认移动到海面的营养。最近，对象跟踪是计算机视觉中的积极研究和具有挑战性的问题。不幸的是，在具有更多外观生物的水产养殖场中，具有密度和复杂关系的多个小物体的强大跟踪方法是未解决的问题。根据营养和涟漪行为的数量，我们可以控制在实际环境中始终如一地表现良好的鱼类喂食机。提出的方法提出了通过激活图和连锁行为的质地特征自动控制鱼类进食的一致性。与其他方法相比，我们的跟踪方法可以精确跟踪下一帧的营养。基于计算时间，提出的方法达到3.86 fps，而其他方法的支出低于1.93 fps。定量评估可以承诺，提议的方法对于广泛适用于真实环境的水产养殖养鱼场很有价值。

translated by 谷歌翻译

Singing Voice Synthesis Based on a Musical Note Position-Aware Attention Mechanism

Yukiya Hono , Kei Hashimoto , Yoshihiko Nankaku , Keiichi Tokuda

分类：机器学习

2022-12-28

This paper proposes a novel sequence-to-sequence (seq2seq) model with a musical note position-aware attention mechanism for singing voice synthesis (SVS). A seq2seq modeling approach that can simultaneously perform acoustic and temporal modeling is attractive. However, due to the difficulty of the temporal modeling of singing voices, many recent SVS systems with an encoder-decoder-based model still rely on explicitly on duration information generated by additional modules. Although some studies perform simultaneous modeling using seq2seq models with an attention mechanism, they have insufficient robustness against temporal modeling. The proposed attention mechanism is designed to estimate the attention weights by considering the rhythm given by the musical score. Furthermore, several techniques are also introduced to improve the modeling performance of the singing voice. Experimental results indicated that the proposed model is effective in terms of both naturalness and robustness of timing.

translated by 谷歌翻译

End-to-End Text-to-Speech Based on Latent Representation of Speaking Styles Using Spontaneous Dialogue

Kentaro Mitsui , Tianyu Zhao , Kei Sawada , Yukiya Hono , Yoshihiko Nankaku , Keiichi Tokuda

分类：自然语言处理 | 机器学习

2022-06-24

最近的文本到语音（TTS）的质量与人类的质量相当。但是，其在口语对话中的应用尚未得到广泛研究。这项研究旨在实现与人类对话非常相似的TT。首先，我们记录并抄录实际自发对话。然后，提出的对话TTS分为两个阶段：第一阶段，各种自动编码器（VAE） - VITS或高斯混合物变化自动编码器（GMVAE） - 培训了训练，从端到端文本对语音（VIT），最近提出的端到端TTS模型。从语音中提取潜在的口语表示的样式编码器与TTS共同培训。在第二阶段，对风格预测指标进行了训练，以预测从对话历史中综合的说话风格。在推断期间，通过将样式预测器预测的语言样式表示为VAE/gmvae-vits，可以以适合对话背景的样式合成语音。主观评估结果表明，所提出的方法在对话级别的自然性方面优于原始VIT。

translated by 谷歌翻译

Evacuation Shelter Scheduling Problem

Hitoshi Shimizu , Hirohiko Suwa , Tomoharu Iwata , Akinori Fujino , Hiroshi Sawada , Keiichi Yasumoto

分类：人工智能

2021-11-26

在自然灾害期间迫切需要的疏散避难所旨在尽量减少对人类幸存者的疏散负担。然而，灾难的规模越大，操作避难所的成本越高。当疏散物的数量减少时，通过将剩余的疏散物移动到其他避难所和尽可能快地关闭挡板来减小操作成本。另一方面，庇护所之间的搬迁对疏散者造成了巨大的情感负担。在这项研究中，我们制定了“疏散避难所调度问题”，它以避难所分配避难所，以尽量减少避难所的运动成本和避难所的运营成本。由于很难直接解决这一二次编程问题，因此我们将其转换为0-1整数编程问题。此外，这种配方努力计算从历史数据中重新安置它们的负担，因为实际没有付款。为了解决这个问题，我们提出了一种方法，该方法根据实际灾难期间基于撤离者和庇护所的数量估算运动成本。仿真实验与神户地震（Great Hanshin-Awaji地震）的记录表明，我们的建议方法将运营成本减少3370万美元：32％。

translated by 谷歌翻译

Classification of URL bitstreams using Bag of Bytes

Keiichi Shima , Daisuke Miyamoto , Hiroshi Abe , Tomohiro Ishihara , Kazuya Okada , Yuji Sekiya , Hirochika Asai , Yusuke Doi

分类：人工智能

2021-11-11

保护用户免受访问恶意网站的是网络运营商的重要管理任务之一。有许多开源和商业产品来控制用户可以访问的网站。最传统的方法是基于黑名单的过滤。这种机制简单但不可扩展，尽管使用模糊匹配技术存在一些增强的方法。其他方法尝试通过从URL字符串中提取功能来使用机器学习（ML）技术。这种方法可以覆盖更广泛的互联网网站区域，但找到了良好的功能需要深入了解网站设计的趋势。最近，出现了使用深度学习（DL）的另一种方法。 DL方法将有助于通过调查大量现有的示例数据自动提取功能。使用此技术，我们可以通过继续教导近期趋势的神经网络模块来构建灵活的过滤决策模块，而没有URL域的任何特定专家知识。在本文中，我们应用了从URL字符串生成特征向量的机械方法。我们实施了我们的方法，并使用了从研究组织和来自着名的网络钓鱼网站信息信息，Phishtank.com获取的现实URL访问历史记录数据。与现有的基于DL的方法相比，我们的方法可以获得2〜3％的更好的准确性。

translated by 谷歌翻译

Classifying DNS Servers based on Response Message Matrix using Machine Learning

Keiichi Shima , Ryo Nakamura , Kazuya Okada , Tomohiro Ishihara , Daisuke Miyamoto , Yuji Sekiya

分类：机器学习

2021-11-09

配置不正确的域名系统（DNS）服务器有时用作数据包反射器，作为DOS或DDOS攻击的一部分。通过监视DNS请求和响应流量，可以逻辑地逻辑地检测作为此活动的结果创建的分组。任何没有相应请求的响应都可以被视为反射消息;然而，检查和跟踪每个DNS数据包是非微不足道的操作。在本文中，我们提出了一种通过使用从少量数据包和机器学习算法构建的DNS服务器特征矩阵用作反射器的DNS服务器的检测机制。当在同一天生成测试和培训数据时，错误DNS服务器检测的F1评分大于0.9，并且对于不用于同一天的培训和测试阶段的数据，超过0.7。

translated by 谷歌翻译

Hierarchical Multi-Grained Generative Model for Expressive Speech Synthesis

Yukiya Hono , Kazuna Tsuboi , Kei Sawada , Kei Hashimoto , Keiichiro Oura , Yoshihiko Nankaku , Keiichi Tokuda

分类：机器学习

2020-09-17

本文提出了一种具有多粒度潜变量的分层生成模型，以综合表达语音。近年来，将细粒度的潜在变量引入了文本到语音合成中，使得韵律和讲话方式的精细控制能够进行综合演讲。然而，当通过从标准高斯先前抽样获得这些潜变量时，言语的自然度降低。为了解决这个问题，我们提出了一种用于建模细粒度潜在变量的新框架，考虑到输入文本，分层语言结构和潜在变量的时间结构的依赖性。该框架包括多粒子变形AutoEncoder，条件先前和多级自回归潜伏转换器，以获得不同的时间分辨率潜变量，并通过拍摄来对较粗级别的潜入变量进行样本考虑到输入文本。实验结果表明，在合成阶段在没有参考信号的情况下采样细粒潜变量的适当方法。我们拟议的框架还提供了整个话语中说话风格的可控性。

translated by 谷歌翻译