我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:双彩网 > 知识发现 >

崔家旺等:知识发现技术述评

归档日期:07-02       文本归类:知识发现      文章编辑:爱尚语录

  根据对关联数据的挖掘层次的不同,将检索结果分为间接挖掘、直接挖掘和链接挖掘三类;总体而言,基于关联数据的知识发现研究仍处于探索阶段,相关研究较少且缺乏统一框架;基于关联数据的知识发现统一框架的构建以及针对关联数据知识发现技术的完善将是未来研究的重点。

  在Xiang Zhang等的研究基础上,Xiaowei Jiang提出了一种TOG图压缩策略进行实例层的关联数据语义挖掘[15]由于关联数据中存在大量的重复结构和相互依赖结构,因此在挖掘前可以利用这种机构特征进行图的压缩。根据关联数据的结构特征,作者提出了两种结合重复结构和压缩互相依赖结构等两种图压缩策略。压缩的核心思想是利用链向TOG中一系列高度相关实例的单个实例代表一个可压缩的图结构。在完成了图的压缩后,关联数据内的一些图结构将变成一些所谓“超节点”(hypernode)实例的内部结构,原始的关联数据图也压缩为较小的“超图”(hypergraph)。

  深度学习的概念源于人工神经网络的研究。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。波尔兹曼机(Boltzmann Machlne,简称BM)是Hinton和Sejnowski于1986年提出的一种根植于统计力学的随机神经网络。BM具有强大的无监督学习能力,能学习数据中复杂的规则。但是,拥有这种学习能力的代价是其训练(学习)过程耗时。此外,BM所表示的分布不仅无法确切计算,得到该分布的随机样本也很困难。于是Sejnowski引入了一种受限波尔兹曼机(Restricted Boltzmann Machine Model,简称RBM)。RBM具有一个可见层和一个隐层,层内无连接。RBM具有很好的性质,在给定可见层单元状态时,各隐单元的激活条件独立;反之,在给定隐单元状态时,可见层单元的激活亦条件独立。这样一来尽管RBM所表示的分布仍无法有效计算,但通过Gibbs采样(Gibbs sampling)可以得到RBM所表示分布的随机样本。目前RBM已经被成功运用到不同的机器学习问题[29]。

  从关联数据中学习知识的主要挑战之一是如何在高效利用节点属性的同时利用关联数据的关联抽取有效信息。当前对基于关联数据的知识发现要么采取人工选择的拓扑统计表示网络结构,要么将节点属性和网络节点线性映射到一个共享隐含特征空间(shared latent feature space)。但基于统计的方法可能损失网络结构中的重要模式,基于线性映射的方法可能无法捕捉到节点和关联的非线性特征。为解决这些问题,Kang Li、Jing Gao利用深度学习理论,构建了基于受限波尔兹曼机对关联数据进行表征学习的LRBM(Restricted Boltzmann Machines for Latent Feature Learning in Linked Data,学习关联数据潜在特征的受限波尔兹曼机)模型,LRBM利用对比散度(Contrastive Divergence,简称CD)进行模型的训练避免了大规模的采样,同时模型可以与传统RMB进行“叠加”以探索节点的深层特征和节点间的高阶交互模式[16]。

  LRBM不依赖任何主观选择的拓扑统计(topological statistics),可以在一个统一框架中同时获取节点和属性的特征,并根据这些特征构建节点关联以及隐藏单元之间的非线性关系。模型的核心在于节点共享隐含特征,这些隐含特征可以用来构建节点、关联关系和隐含单元的非线性关系。

  作者首先用关联矩阵表示关联数据集中的节点和关联关系,定义节点i到节点j的关联L中节点i定义为关联的发送者,节点j为关联的接收者,并将每个节点的隐含表示(latent representation)定义为发送者行为

  决定了节点i和j之间的交互。为将节点属性A、关联L和隐含特征表示R和S之间的交互建模,作者利用能量函数建立了一个隐含语义模型(Latent Factor Model,简称LFM),利用条件限制波尔茨曼机在模型加入了隐变量h以解决线性映射的问题,同时添加高斯噪声为关联关系赋予权重。最终,LRBM模型可关联数据中提取出节点属性、隐含特征S和R以及关联关系的交互特征,并可将其应用到关联预测、节点分类等知识发现活动中。

  在关联数据集合中,数据集合和数据对象之间是以某种方式关联的,对象之间的链接可能表示某种特定的模式,但这一模式通常很难用传统的统计模型去获取,因此,为该挑战提供解决方案的链接挖掘成为了新的研究热点。这一领域在链接分析、超文本和网络挖掘、关系学习和图挖掘等相关研究的交叉点上。

  关联遍历挖掘、频繁子图挖掘、LRBM等分别利用了图的遍历、压缩和深度学习的方法对关联数据的链接进行挖掘,为基于关联数据的知识发现提供了全新的方法和视角,但链接挖掘存在的问题是,由于当前研究仍处于探索阶段,相关研究相对比较分散,缺少能将相关研究和应用统一到一个框架中的综合体系,这一问题阻碍了已有研究之间的相互交流以及研究成果的拓展和共享。

  关联数据通过数据间的链接支持结构化数据的关联,这种携带语义的关联遍及整个数据网络,是关联数据的核心价值。为实现关联数据的价值,早期研究更多的关注了关联数据的构建与发布,而随着关联数据资源的快速发展,更多的研究开始关注关联数据的应用与消费,这些研究往往集中在“关联数据的数据资源”和“关联数据的关联”两个主题。本文所介绍的间接挖掘和直接挖掘主要关注“关联数据的数据资源”,这些研究促进了知识发现与关联数据领域之间研究体系上的拓展和融合,一方面有助于从数据挖掘和知识发现的角度去发挥关联数据的潜在价值;另一方面也可以借助数据挖掘和知识发现领域的知识解决关联数据存在的问题。链接挖掘则更多的关注了“关联数据的关联”主题,图论、深度学习等学科的引人为基于关联数据的知识发现提供了全新的视角与方法,虽然当前的研究仍比较分散缺少统一的综合框架,但这些方法和理论的引入已经为基于关联数据的知识发现提供了新的活力和可能。

  总体而言,基于关联数据的知识发现技术仍处于快速发展阶段,其作为一种新的知识发现技术已经体现了巨大的价值。随着关联数据数量的飞速发展和对关联数据质量控制的加强,且已经有国内外的研究人员开始着手研究基于关联数据的知识发现统一框架,未来的研究重点将更加倾向于基于关联数据知识发现技术本身的丰富和完善。

本文链接:http://weblodge.net/zhishifaxian/102.html