Word2vec模型是2013年由Google推出的一款神经网络工具包,它提供了一种能够将单词表示成分布式向量的方法。这种表示的主要优点是在向量空间中,相似或相关语义的词离得近,这使得向新模式的泛化更容易且模型估计更具鲁棒性。Word2vec模型仅包含输入层隐含层和输出层,是一种结构较为简便的神经网络模型。根据其模型框架的输入输出不同可分为Skip-gram和CBOW模型[13]。
例如在本案例中,当对经过一系列预处理的报警日志“保护 模块 转速 信号 丢失”进行学习时,若输出的词向量为“转速”时,则以其余四个词的one-hot encoder作为输入,以“转速”one-hot encoder作为输出进行迭代训练,最终得到每个分词的词向量表示。