DeepWalk 算法
简介
图是一种非常有用的数据结构,可以表示共同相互作用。这些共同相互作用可以由神经网络编码为嵌入,以用于不同的 ML 算法。这就是 DeepWalk 算法的亮点所在。
在本文中,我们将使用 Word2Vec 示例探索 DeepWalk 算法。
让我们进一步了解该算法的核心所基于的图网络。
图
如果我们考虑一个特定的生态系统,图通常表示两个或多个实体之间的相互作用。图形网络有两个对象 - 节点或顶点和边。
节点(或顶点)表示图形系统中的每个元素。例如,像 Facebook 这样的社交网络使用图形网络将用户表示为节点。此算法用于推荐朋友。
图形的另一个方面是连接两个节点并从一个节点运行到另一个节点的边。这些边可以是单向的(有向的)或双向的(无向的)。它定义了节点的交互。它可以加权以表示交互或链接的强度。例如,在上面讨论的 Facebook 好友推荐算法中,边连接两个或更多用户。
现在,我们对图网络有了基本的了解,让我们深入研究 DeepWalk 算法。
DeepWalk 算法
word2Vec 模型允许将单词嵌入到 n 维空间向量中。Word2Vec 由 Google 于 2013 年发布。在 Works2Vec 中,相似的单词在 n 维空间中彼此靠近。换句话说,它们具有相同的余弦距离。
Word2Vec 使用基于滑动窗口方法的 skip-gram 算法进行训练。给定模型中的特定单词,skip-gram 模型会尝试预测周围的单词。在我们的场景中,我们将根据目标节点预测邻居节点。周围节点将被编码以找到最接近目标节点的节点。
DeepWalk
DeepWalk 可以通过随机遍历图来识别网络的潜在模式。然后,神经网络对这些模式进行编码和学习以产生最终的嵌入。生成这些随机路径的一个非常简单的方法是从目标根开始并随机选择该节点的邻居,然后随机将其添加到路径中,然后随机选择该节点的邻居,并继续行走,直到您采取了所需的步数。在 Facebook 好友推荐示例中,id 是通过重复遍历网络路径生成的。这些 id 被视为词法单元中的 token,就像 Word2Vec 模型的情况一样。
DeepWalk 算法的步骤。
从特定节点开始,从每个节点执行"K-random"步骤。
将每次遍历分配为节点和 id 序列
使用给定的节点/id 字符串列表,使用 Skip-Gram 算法训练 Word2Vec 模式。
DeepWalk 算法的 Python 代码
## Deepwalk import numpy as np import random from tqdm import tqdm import warnings warnings.filterwarnings('ignore') from sklearn.decomposition import PCA import networkx as nx import matplotlib.pyplot as plt import pandas as pd from gensim.models import Word2Vec %matplotlib inline df_data = pd.read_csv("/content/space_data.tsv", sep = "\t") df_data.head() g = nx.from_pandas_edgelist(df_data, "source", "target", edge_attr=True, create_using=nx.Graph()) def get_random_walk(node, pathlength): random_walk = [node] for i in range(pathlength-1): tmp = list(g.neighbors(node)) tmp = list(set(tmp) - set(random_walk)) if len(tmp) == 0: break ran_node = random.choice(tmp) random_walk.append(ran_node) node = ran_node return random_walk allnodes = list(g.nodes()) walks_list_random = [] for n in tqdm(allnodes): for i in range(5): walks_list_random.append(get_random_walk(n,10)) # count of sequences len(walks_list_random) model = Word2Vec(window = 4, sg = 1, hs = 0, negative = 9, alpha=0.04, min_alpha=0.0005,seed = 20) model.build_vocab(walks_list_random, progress_per=2) model.train(walks_list_random, total_examples = model.corpus_count, epochs=20, report_delay=1) model.similar_by_word('artificial intelligence')
输出
100%|██████████| 2088/2088 [00:00<00:00, 6771.58it/s] [('robot ethics', 0.9894747138023376), ('cognitive robotics', 0.9886192083358765), ('evolutionary robotics', 0.9876964092254639), ('multi-agent system', 0.9861799478530884), ('cloud robotics', 0.9842559099197388), ('fog robotics', 0.9835143089294434), ('glossary of robotics', 0.9817663431167603), ('soft robotics', 0.9738423228263855), ('robotic governance', 0.9687554240226746), ('robot rights', 0.9686211943626404)]
解释- 输出列出了与搜索词(查询)"'人工智能'"最相似的词。输出是一个元组列表,其中每个元组中的第一个元素是相似的词,第二个元素是置信度值。例如,"机器人伦理"的相似度为 98.9%(置信度 - 0.989),然后是认知机器人(0.988),依此类推
结论
DeepWalk 是一种用途广泛的算法。只需稍加调整,它就可以在多种网络中实现。它是可以考虑的最有效的算法之一。