当前位置: 主页 > xg111热点 >

项冠军霸榜蛋白质功能预测任务超1年中科大成果

发布者:xg111太平洋在线
来源:未知 日期:2024-10-03 06:03 浏览()

  这一挑衅为了应对,效的标签正则化技艺咱们提出了一种有, Deconvolution)即标签反卷积LD (Label,希奇的、可扩展性强的近似标签通过对GNN逆照射获得一种。E的锻练阶段以征服练习偏向逆照射有用地将GNN纳入N,锻练等效的倾向函数进而爆发了与撮合。D收敛到了最优倾向函数值于是咱们也进一步证实了L,法供应了表面保障为提出的LD方。验验证通过实,下最进步的本事LD明显优于当,chmark)挑衅赛的卵白质性能预测工作上斩获「第一名」正在国际顶级图练习尺度OGB(Open Graph Ben,9月27日起维持至今该纪录从2023年。

  实习中正在本,tch的巨细不突出12预锻练NEs最大ba,G(B)明明幼于。以所,s实行撮合锻练是难以告竣的通过图采样对NEs和GNN。

  性特点卷积的逆照射为了进一步避免线,反卷积来天生逆标签Y(γ)咱们提出了一个可锻练的标签。γ参数化Y(γ)标签反卷积旨正在用,的表达才略相同使得Y(γ)于

  练习基准数据集“标杆”OGB是目前公认的图,Jure Leskovec熏陶团队确立由图练习范围的国际顶级学者斯坦福大学,议NeurIPS上正式开源于2019年国际顶级学术会。

  矩阵的逆。意的是值得注,了GNNs参数θ的一局部正在NEs的锻练阶段包括。GNNs撮合锻练的练习偏向这种连结明显减轻了NEs和,响可扩展性同时不影。

  很多紧要范围图广博行使于,络和卵白质互相用意汇集比如引文汇集、商品网。际行使中正在很多实,富且有效的属性消息图中的节点拥有丰。如例,的节点(卵白质)分离包括着题目/摘要、商品的文本描摹和卵白质序列等紧要消息引文汇集中的节点(论文)、商品汇集中的节点(商品)以及卵白质互相用意汇集中,游工作尽管紧要这些消息对下。这些庞杂属性中捕捉节点性格的紧要器械之一而近年来振起的很多健壮的预锻练模子是从年中科大成果斩获图学习“世界杯”单。

  标签的(加权)均匀值是k-hop邻人中。N层GNN关于一个,不光依赖于它的特点节点的预测(默示),N跳邻人的特点并且依赖于其。似地类,对其预测有进献节点的特点不光,的预测也有进献对其N跳邻人。此因,解NEs锻练阶段的练习偏向i-hop标签可能有用缓。

  志皓石,学电子工程与消息科学系学士学位2020年得到中国科学技艺大。的 MIRA Lab 实习室攻读博士咨议生现于中国科学技艺大学电子工程与消息科学系,杰熏陶师从王。和AI4Science咨议意思搜罗图默示练习。ICLR等期刊、聚会上公告论文他曾以第一作家正在 TPAMI、,率约为8%的Spotlight陈说曾受邀正在ICLR 2023做经受。

  颖的图神经汇集的逆运算该本事引入了一个异常新,算法来神速近似它并提出标签反卷积,等价的耗费函数进而修建一个,神经汇集微调本事的练习偏向从而消灭了古板言语模子和图。

  ,爆发练习偏向导致撮合锻练。和图组织方面的练习偏向咱们总结了正在节点标签。IANT 和GLEM的耗费函数图5浮现了撮合锻练、LD、G。标签调解天生逆标签LD将图组织与节点,练一样的练习举止维持了与撮合训。而然,渺视了图组织或节点标签GIANT和GLEM,的练习偏向导致了明显。

  了节点属性的一样度和标签的一样度为了进一步斗劲逆标签和线中浮现。一样文本(即文本一样度大于0.6)但标签差异(节点0和1 咱们从ogbn-arxiv数据纠合随机挑选了几对拥有高度,3 2和,)的节点4和5。度分离来评估文本一样度和标签一样度咱们应用TF-IDF算法和余弦一样。都拥有较高的一样度图4a中每对节点,节点一样度较低但差异对中的,行独立挑选咱们对其进。4c评释图4b和,节点供应一样的监视信号逆标签为拥有一样文本的,点供应差异的监视信号为拥有差异文本的节。法告竣这一性格然而的确标签无。可见由此,标签噪声来保存的确语义属性逆标签通过低浸图组织中的。

  波器的启迪受到频谱滤,效的GNNs架构近来产生了很多高。于频谱的GNNsLD的推导也是基,即:

  些属性和图组织为了同时编码这,aph Neural Network)串联集成正在一块一个常见的架构是将预锻练模子与图神经汇集GNN(Gr,ode Encoder)对属性实行编码此中预锻练模子动作节点编码器NE(N。图所示如下,杂的节点属性形成定长的低维嵌入该架构通过节点编码器将这些复,图神经汇集以连结图组织消息再将其动作节点特点输入到。

  逆照射很难准确企图因为非线性GNN的,N的有用近似来替换因而咱们推导GN。NN的频谱公式接下来先容G,积与GNN分袂将线性特点卷。拥有一样表达的逆标然后通过LD参数化签

  预管理实行,多次增长内存和时刻开销的操作以避免正在NEs的锻练阶段推行。此因,ch的锻练倾向为mini-bat:

  而然,爆炸题目(neighbor explosion)动作NE的预锻练模子自己多量参数且GNN的邻人,锻练NEs和GNN正在现实中并不成行的两大锻练困难的叠加让直接端到端撮合。s和GNNs分袂锻练的范式咨议者们发端咨议分袂NE,s必然步数(GNN的锻练阶段)即先固定NEs的参数锻练GNN,s必然步数(NE的锻练阶段)再固定GNNs的参数锻练NE,迭代实行两步瓜代。

  时GNNs是可扩展确当NEs的参数β固定,征卷积分袂技艺来优化GNNs可直策应用上述的图采样或者特。

  意的是值得注,公式中GNNs的参数θNEs的锻练阶段不涉及。于差异的motivation咱们的本事LD和GLEM基,来说全部,还原GNNLD旨正在,旨正在抬高伪标而GLEM签

  拥有最优性保障的狂言语模子和图神经汇集分袂锻练框架由中科大王杰熏陶团队(MIRA Lab)提出的首个,chmark)挑衅赛的卵白质性能预测工作上斩获「第一名」正在国际顶级图练习尺度OGB(Open Graph Ben,9月27日起维持至今该记载从2023年。

  可练习的要么是,固定的要么是。]所示如[2,温和的假设下爆发放肆节点预测基于频谱的GNN可能正在极少。多的确天下的图数据这些假设也合用于许。倾向变为以是锻练:

  (NE)的参数默示节点编码器项冠军霸榜蛋白质功能预测任务超1。:用于卵白质序列的ESM2因为大型的预锻练模子(如,拥有健壮的特点提取才略用于文本的Bert),节点编码器f故将其动作。

  所示如下,据集上的发挥都明显优于全盘的baselineLD正在差异GNN backbone的三个数。

  卷积时的内存和时刻开销为了避免GNNs特点,SAGN)起初将特点卷积从GNNs平分离出来极少可扩展的GNNs(比如 GAMLP 和 。特点卷积实行一次预管理然后基于固定节点特点对。而然,可用NEs练习的因为节点特点是,s的撮合锻练还是是难以承袭的这种思法关于NEs和GNN。

  有着一样的练习举止固然LD和撮合锻练,上比撮合锻练更高效但LD正在特点存储。来说全部,tch节点B数据上的耗费为了企图mini-ba,庞杂度对B中的属性实行编码LD的NE以O(B)的内存。而然,的采形态图中的属性实行编码撮合锻练的NE对巨细为GB,存庞杂度O(GB)爆发比LD更大的内。

  签与i跳邻人标签的加权和逆标签Y(γ)是的确标。的权重γi的变革经过图8绘造了微调经过中。者i跳邻人中i较幼的标号逆标签往往是的确标签或。然是全盘标签中对节点分类最紧要的监视信号这是由于的确标签和i较幼的i跳邻人标签仍。表此,标签存正在过滑润题目i 较大的i跳邻人,i的增长即跟着,能趋于不成区别i跳邻人标签可。意的是值得注,收敛到庸俗解权重γi不,此中

  本事的庞杂性以及NEs的监视信号下面浮现了NEs锻练阶段差异锻练。速率最疾、存储最高效的算法LD和GLEM是全盘本事中。EM比拟且与GL,号中还研讨到了图组织LD正在NEs的监视信。

  略GNN特点卷积的题目针对分袂锻练框架中忽,高效的标签正则化技艺咱们提出了一种纯粹,Deconvolution即标签反卷积(Label ,D)L。标签为Y设节点,中的局部节点标签是缺失的)即使工作是半监视的(指图,到的固定节点特点锻练GNNs即可依据预锻练的NEs推理得。

  而然太平洋在线企业邮局练NEs中应用的mini-batch的巨细现有图采样本事中应用的G(B)明明大于预训。)的巨细来对齐mini-batch的巨细即使进一步减幼现有图采样本事中B或G(B,会明显低落它们的机能,所示如下。

  方华道,械打算与自愿化专业学士学位2023年得到上海大学机。的 MIRA Lab 实习室攻读硕士咨议生现于中国科学技艺大学电子工程与消息科学系,杰熏陶师从王。练习和天然言语管理咨议意思搜罗图默示。

  Ns分袂锻练的范式实行咨议本事业对现有的NEs和GN,正在NE锻练阶段指出了现有事业,NN中的特点卷积它们没有研讨G,原始撮合锻练的倾向函数并不等价导致它们提出的近似耗费函数与,的练习偏向存正在明显,(详见原论文举的反例)进而无法收敛到最优解。

分享到
推荐文章