欢迎访问吉林大学未来科学国际合作联合实验室!

今天是
    人工智能团队数据挖掘方向研究成果被CCF-A类期刊TKDE接收
    发布日期: 2022-07-25  浏览:
  • 近日,吉林大学未来科学国际合作联合实验室人工智能团队研究成果"GraphLIME: Local Interpretable Model Explanations for Graph Neural Networks"被CCF-A类期刊IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING(简称TKDE)接收。该研究提出了一种非线性的GNN解释框架GraphLIME,这是一个使用Hilbert-Schmidt Independence Criterion (HSIC) Lasso的图结构局部可解释模型方法,HSIC Lasso是一种非线性特征选择方法,相比于线性方法能够更好地逼近GNN的决策过程。GraphLIME是一个通用的GNN模型解释框架,它在被解释节点的子图中局部学习一个非线性可解释模型,并基于该可解释模型产生对应的GNN解释信息。

    图神经网络(GNN)因其强大的图谱建模能力而在众多领域中被广泛使用,例如推荐系统、文本分类、分子结构合成等。GNNs使用神经网络来整合图中节点的特征信息和结构信息,并通过图的边传递这些信息。然而,GNN是一个黑箱子模型(Black box model),其多层的非线性映射导致了它的决策行为和预测结果难以解释,因此开发一种GNN解释方法非常重要,因为它可以提高GNN模型的透明度,并有助于使人们信任该模型。虽然目前已有大量的DNN模型解释方法,但由于这些方法没有明确使用图信息,而是在欧氏域内进行解释,因此不适合用于GNN模型的解释。在本文中我们提出一种利用使用Hilbert-Schmidt Independence Criterion (HSIC) Lasso的图结构局部可解释模型方法GraphLIME,利用核函数将图的局部信息映射到高维空间,采用最大相关性和最小冗余性原则选择特征作为解释信息,GraphLIME的解释流程如下图所示:

    图1:GraphLIME解释流程图

    首先,通过训练图神经网络得到一个完整的GNN模型,然后指定某个待解释的节点,并采用N-hop机制随机采样得到该节点的局部邻居子集,并将采样得到的特征信息送入训练好的GNN模型中得到其预测结果,然后我们构建HSIC Lasso特征选择模型,将上述采样得到的局部节点子集及其预测结果送入HSIC Lasso模型中得到特征解释结果,其算法流程如下图所示:

    图2:GraphLIME算法流程

    通过训练两个不同的GNN模型:GraphSAGE和GAT,并在两个公开的图结构数据Cora和PubMed验证,表明GNN模型方法的有效性,并以经典以及最新的解释方法作为基线比较方法。具体地,从以下三个层面去验证所提出方法GraphLIME在解释GNN模型的有效性。

    第一,所提出的模型是否具备有效过滤噪声特征的能力?为此,本文比较了在不同解释框架下选择的不同数量的“噪声”特征上的样本频率,以比较它们去噪的能力。通过随机地往两个数据集中加入10个噪声特征,并训练测试准确率在80%以上的GNN模型,以200个样本为测试集,计算产生的解释信息中不同噪声特征数量的样本频率,结果如下图所示,结果表明,相比于其他解释方法,数据包含大量噪声时所提出的GraphLIME能够有效过滤噪声特征,更能找到有用特征作为解释信息。

    图3:噪声过滤能力比较

    第二,所提出模型产生的解释信息是否是可信的?分类器模型的预测可能不可信,因此对于解释框架来说,解释能够帮助用户判断预测是否可信是很重要的。在这个实验中,比较了不同解释框架下的这种能力。随机选取30%的特征作为“不可信”特征,然后记录删除这些不可信特征后节点的预测结果,根据预测结果是否与删除前一致确定可信预测集,然后GraphLIME产生的解释特征信息得到预测结果的可信集并与上述过程得到的集和比较,计算F1百分比值,实验结果如下表所示,实验结果表明GraphLIME领先于其他基线方法。

    图4:解释模型的可信能力比较

    第三,所提出的模型解释者是否有助于识别更好的模型? 本文探索了解释框架是否可以用于模型选择,并指导用户在两种不同的GNN分类器中选择更好的一个。通过报告选择真正更好的分类器的准确性来比较不同框架在选择更好的分类器方面的性能。同样地,向数据集上随即加入10个噪声特征,并训练多组训练准确率在80%以上测试准确率只差在5%以上的GNN模型对,通过比较选择出的噪声特征数量来选择better model,实验结果如下图所示,实验结果表明所提出的GraphLIME比其他基线方法更好。

    图5:识别更好决策模型能力比较

    TKDE是中国计算机学会CCF-A类期刊,为人工智能、机器学习以及数据挖掘领域顶级的学术期刊之一。

    本文第一作者为吉林大学未来科学国际合作联合实验室博士生黄强,通讯作者为京都大学Makoto Yamada教授、吉林大学常毅教授。