「GNN，简直太烂了」，一位Reddit网友的深度分析火了

AI资讯2年前 (2023)发布 AI工具箱

473 0 0

图神经网络（GNN）这个概念近几年很火，确实如此。

然而今天，一位Reddit网友却“背道而驰”地提出了强烈反对观点。例如：

过去5年中，大多数GNN论文提供的结果，对从业者没有太多帮助。

我太烦Node2Vec了，引用量不应该达到7500这个数量。

就玩那些没用的、小数据，效率提不上来，很难取得进步。

添加一些新的图层/超参数，编一个可爱的数学故事来解释它为什么重要。

当前的图形数据结构，简直糟糕透了。

全局方法，是个死胡同。

……

点评、分析之犀利，瞬间引来了众多网友的围观。

接下来便来细看下这位网友，为什么对GNN如此之厌恶。

（为了方便阅读，以下内容将以第一人称进行表述）

模型与压缩有关

先来简单回顾一下基础知识。

大家都说图（graph）是一种“非欧几里得”数据类型，但事实并非如此。

一个正则图（regular graph）只是思考特殊矩阵（邻接矩阵）的另一种方式而已。

很奇怪的一点就是，当我们看到满满都是实数的矩阵时候，就决定称之为“非欧几里得矩阵”。

但这背后也有其实际的原因，因为大多数的图都是非常稀疏的，也就是说矩阵里面大多数的数值都是零。

基于这一点，矩阵里面非零的数字就显得格外重要。这就使得问题更加接近离散数学，而不是简单连续、梯度友好的数学。

如果你有一个全矩阵（full matrix），那事情就会变得相当容易

如果我们暂时不考虑这些恼人的点，假设用一整个邻接矩阵也没什么大不了的，那我们就决绝了一大堆的问题。

首先，网络节点嵌入（network node embedding）就不再是个难题了。一个节点只是矩阵中的一行，所以它已经是一个数字向量。

其次，还解决了所有的网络预测问题。

一个足够强大且经过良好调优的模型，将提取网络和我们附加到节点上的任何目标变量之间的所有信息。

NLP也只是花式的矩阵压缩

让我们从图形切入到NLP。

正如我们将要看到的，我们所做的大多数NLP问题，都可以用图来表示，所以这并不是什么“题外话”。

首先，请注意，像Word2Vec和GloVe这样的Ye Olde词嵌入模型，只是矩阵分解。

GloVe 算法是对旧的词袋（bag of word）矩阵的一种变形。它遍历这些句子，并创建一个(隐含的)共现图（co-occurence graph），其中节点是单词，而边则根据单词在句子中出现的频率进行加权。

然后，GloVe对共生图的矩阵表示进行矩阵分解，Word2Vec在数学上是等价的。

甚至语言模型也只是矩阵压缩

语言模型风靡一时，可以说，它们主宰了 NLP 的大部分技术。

让我们以BERT为例，BERT会根据句子的上下文，来预测了一个单词：

这使得我们要构造的矩阵，从对单词的平均共现（co-occurence），增加到了对句子上下文的条件共存：

正如 Hanh 和 Futrell 的论文中所指出，我们正在组合地构造“理想矩阵”：

人类语言和语言模型具有无限的统计复杂性，但是在较低的层次上可以很好地近似。这个观察结果有两个含义：

1)我们可以用相对较小的模型获得较好的结果；2)我们的模型有很大的扩展潜力。

语言模型处理如此大的问题空间，以至于他们可能近似于柯氏复杂性（Kolmogorov Complexity）意义上的整个语言的压缩。也有可能庞大的语言模型，只是记住了大量的信息，而不是压缩信息。

那我们能像语言模型一样，对图进行上采样吗？

答案是：我们已经在做了。

我们把图的一阶嵌入，称为直接分解图的邻接矩阵或拉普拉斯矩阵（Laplacian Matrix）的方法。

如果使用拉普拉斯特征映射或者取拉普拉斯主分量来嵌入图，则为一阶。

同样，GloVe 方法也是对词共现图的一阶方法。

我最喜欢的图的一阶方法之一是ProNE，它和大多数方法一样好用，但是速度快两个数量级。

高阶方法就是我们在图上做的 “上采样”。

在大型邻域“上采样”的 GNN 和 node2vec 等基于随机漫步的方法都是在做高阶嵌入。

性能增益，在哪儿呢？

过去5年中，大多数GNN论文提供的结果，对从业者没有太多帮助。

正如OpenGraphsBenchmark（OGB）论文所指出的那样，GNN论文的实证部分是在少数具有2000-20000个节点的小图（Cora、CiteSeer、PubMed）上进行的。

这些数据集不能区分不同的方法。

最近的一些研究工作虽然解决了这个难题，但是为什么研究人员长期关注小型的、无用的数据集，是值得讨论的问题。

性能表现受任务分类的影响

一个让很多可能会感到惊讶的事实是，即使语言模型在很多NLP任务中有着良好的表现，但如果你所做的只是将句子嵌入到下游模型中，那么通过简单的方法，比如将单个 Word2Vec单词嵌入相加，从语言模型嵌入中并不会得到多少好处。

类似地，我发现对于许多图而言，简单的一阶方法在图聚类和节点标记预测任务上的表现，与高阶嵌入方法一样好。

事实上，高阶方法对于这些用例来说，在计算上是非常浪费的。

但高阶方法并不是说没有用，它通常在链路预测任务中表现得更好。

有趣的是，链接预测性能的差距，在人工创建的图中是不存在的。这表明高阶方法，确实学习了一些真实世界图形固有的结构。

但对于可视化而言，一阶方法会更好一些。高阶方法的可视化往往有其采样的伪影。

例如，Node2Vec可视化往往具有拉长/丝状结构，这些结构来自于长单链随机漫步的嵌入。

下面是 Owen Cornec 的可视化效果：

最后，有时简单的方法胜过高阶方法（在 OGB 论文中有一个实例）。

这里存在的一个问题是，我们不知道一个方法什么时候比另一个方法会更好些，我们绝对不知道其中的原因。

不同的图类型，对于不同的方法表示所反映出来的性能好坏，是有其原因的，但这是一个悬而未决的问题。

很大一部分的原因，是研究领域被没用的新算法给淹没了。

为什么会这样呢？继续往下看。

学术的激励（incentive），与学术的进步背道而驰

下面是“愤世嫉俗者”对机器学习论文制作的一些观点：

采用现存的一些算法
添加一些新的图层/超参数，编一个可爱的数学故事来解释它为什么重要
网格搜索你的超参数，直到你打破原始文件的基线
绝对不要在你的搜索结果区域中，将你正在比较的东西网格化
为你的新方法做一个可爱的首字母缩写，把不可能使用的Python2代码放到GitHub上

BTW：我太讨厌Node2Vec了

我一个副项目是一个节点嵌入库，目前最流行的方法是 Node2Vec。

不要使用Node2Vec！

取p=1和q=1的Node2Vec是Deepwalk算法，Deepwalk是一种实际的创新。

Node2Vec 的作者们紧跟着刚才提到的那5个步骤，包括步骤5提到的名字上的加分（因为word2vec很出名）。

这并不是什么学术造假，而是让ML社区变得更糟。

当然，Node2Vec也不应该被引用7500次。

学术进步，应该更加关注实际

40多年来，我们已经知道如何训练神经网络。然而，直到2012年，它们才在 AlexNet 上大受欢迎。

是因为实现和硬件达到了深度学习可行的程度。

类似地，我们至少在20年前就知道把单词共现矩阵分解成单词嵌入。

但词条嵌入直到2013年，随着Word2Vec才爆发。

这里的突破在于，基于小批量（minibatch）的方法，可以让你在硬件上训练维基百科规模的嵌入模型。

如果对少量数据进行训练，还需要数天或数周，那么一个领域的方法就很难取得进展。

效率对于学术进步至关重要

深度学习研究之所以能够取得如此成功，是因为它提高了效率，并且拥有了更好的库和硬件支持。

学术规范太糟糕

你花费在 p 和 q 上的 Node2Vec 网格搜索的时间，都可以更好地利用 Deepwalk 本身的网格搜索。

问题是人们不会在Deepwalk中网格搜索，因为实现都很糟糕。

体系结构并不重要

今年最重要的论文之一是 OpenAI 的“Scaling laws”论文，其中模型中参数的原始数量是整体性能最具预测性的特征。

这一点，甚至在原始的BERT论文中也有所提及，并且推动了2020年大规模语言模型的增长。

Transformer也可能取代卷积。正如Yannic Kilcher所说，Transformer正在毁掉一切，他们在图上进行研究，事实上，它是在基准测试时似乎是比较成功的方法之一。

研究人员似乎在结构上投入了大量的精力，但是最终这并不重要，因为你可以通过叠加更多的层来近似任何东西。

效率的胜利是伟大的，但神经网络架构只是实现这一目标的一种方式，而且由于对这一领域的过度研究，我们将在其他地方留下遗憾。

图形数据结构简直糟糕透了

NetworkX是个糟糕的库。

如果你在为婴儿做小图，它很好，但对于任何严肃的事情，它都会让你窒息，迫使你重写所有的东西……

这叫库？Really？

在这一点上，大多数处理大型图的人，最终都会手工滚动一些数据结构。

但这很困难，因为你的计算机内存是一个由1和0组成的一维数组，一个图没有明显的一维映射。

如果我们考虑更新图表（添加/删除一些节点/边) ，这就更难了。

全局方法是个死胡同

一次处理整个图的方法不能利用计算，因为它们在一定规模上耗尽了RAM。

因此，任何希望成为新标准的方法，都需要能够对图的某些部分进行逐段更新。

今后，采样效率（Sampling Efficiency）将在未来更加重要：

边缘局部方法：我所知道的包括GloVe 和 GGVec。

随机漫步采样：Deepwalk 及其后代使用这种方法，通常用于节点嵌入，而不是 GNN 方法。

近邻采样：这是目前GNN中最常见的一种，可以是低阶或高阶，这取决于邻居的大小。

网友评论

但对于这样的猛烈抨击，Reddit网友们mhwalker，似乎有不一样的声音。

大多数情况下，规模问题在工业上得到了解决。我们在数十亿个节点和数百亿个边上训练GNN。我们可以毫无问题地水平扩展。

但也正如你说的，这些文献大多数是无用的。

至于被问如何解决的，帖子作者做出了回复，并提到了阿里巴巴的一篇论文：

阿里巴巴有一篇关于其基础设施的论文，阐述了他们是如何做到这一点的。

Pinterest主要使用GraphSAGE与邻里抽样。Instagram使用一个node2vec实现(可能是handrolled)。

那么对于这样的讨论，你怎么看？

参考链接：

https://www.reddit.com/r/MachineLearning/comments/kqazpd/d_why_im_lukewarm_on_graph_neural_networks/

“

# AI资讯

文章版权归作者所有，未经允许请勿转载。

曾经，我对着AI客服喷了两分钟，它只回复了我的第一句话

AI工具箱

430

黑鲨4S评测：真·旗舰芯片870在游戏手机上好像不是很YES？

AI工具箱

416

让AI学会画手的方法来了，给输入加个buff就能控制生成细节，华人小哥出品丨GitHub 4.6k星

467

431

443

证明爱因斯坦错了！诺贝尔物理学奖今年颁给量子纠缠，潘建伟博士导师加冕

AI工具箱

422

暂无评论

暂无评论...

「GNN，简直太烂了」，一位Reddit网友的深度分析火了

模型与压缩有关

如果你有一个全矩阵（full matrix），那事情就会变得相当容易

NLP也只是花式的矩阵压缩

甚至语言模型也只是矩阵压缩

那我们能像语言模型一样，对图进行上采样吗？

性能增益，在哪儿呢？

性能表现受任务分类的影响

学术的激励（incentive），与学术的进步背道而驰

BTW：我太讨厌Node2Vec了

学术进步，应该更加关注实际

效率对于学术进步至关重要

学术规范太糟糕

体系结构并不重要

图形数据结构简直糟糕透了

全局方法是个死胡同

网友评论

英国熊孩子频繁攻击学校网络，政府被逼爹味儿下场：当白帽黑客吧，年薪45万

京东集团就京东金融低俗借贷广告一事再次道歉

相关文章

暂无评论