站长杂谈

香港服务器中的FP-growth算法发现频繁项集

时间:2017-06-13 16:53 点击:

  香港服务器中的FP-growth算法发现频繁项集

  大家都应该使用过搜索引擎,当输入一个汉字或者几个汉字以后,搜索引擎就好自动的补全剩余查询词项,或者列举出一堆和你输入的汉字相关的查询词项。为什么会这样呢?大多数互联网引擎公司的研究人员会查看互联网中使用过的词语经常出现在一起的词对,进而出现了给我们补全或者推荐的词项(互联网中使用过的词对出现的越频繁,被补全或者推荐的概率越大)。如何查看高频率出现的词对呢?这就需要一种高效发现频繁集的方法。

  小编了解的发现频繁集词对的方法有:Apriori算法和FP-growth算法。其中FP-growth算法是在Apriori算法基础上构建的,比Apriori算法要快速,基本上性能要优于两个数量级以上,其中FP-growth算法使用了一些不同的技术。其中具体的做法是将数据集存储在特定的FP树结构中进而发现高频率集或者高频繁词项。其中FP-growth算法只需要对数据库进行两次扫描即可,而Apriori算法需要对每个潜在的可能成为频繁集项数据进行扫描并进行判定是否频繁。在现如今大数据云计算火热的时代,数据量都很大,Apriori在处理小数据量是没有什么问题,但是在处理大数据时就显出了一些压力。下面我将为大家重点讲解FP-growth算法。

  FP-growth算法只需要扫描数据集两次,发现频繁数据集项的基本步骤如下(1)首先要构建FP树(2)从FP树种挖掘频繁数据集项;这样做的优点是:要快于Apriori,缺点是现实起来就有很多困难,在某些数据集上性能会下降(因为是大规模扫描数据),只适用于标称型数据。

  首先说一下FP(Frequent Pattern)树(也就是一种称为FP树形结构的紧凑数据存储方式),她通过链表的形式连接相似的元素。其中一个元素项可以在一颗FP树中出现多次。然后FP书会计算项集出现的频率次数。只要对项集之间完全不同时才会分叉。其中树节点给出集合中单个元素及其序列出现的次数,如图在路径中一一列出

香港服务器中的FP-growth算法发现频繁项集

  其次给大家说一下FP-growth算法一般流程:

  (1)收集数据

  (2)准备数据(处理数据):将数据处理成离散型数据。

  (3)分析数据

  (4)训练算法:构建FP树,并对树结构中的高频数据集挖掘并训练。

  (5)测试算法

  (6)使用算法(建立小的搜素词库,进行引擎搜素测试)

  本次讲解就到这里,相信小编已经给大家对于FP-growth算法,FP树,频繁项集原理做了一些正确合理的普及,大家现在应该理解FP-growth算法是如何进行数据集频繁项词挖掘的了,喜欢动手的朋友可以使用Phython在安装MapReduce基础上继续机器学习算法解析,这样会对机器学习算法有更深的了解(上述操作本人都亲自试验过)。

  希望大家踊跃的购买我们公司的香港服务器,更好的进行大数据、机器学习相关的研究和实战。

  如果还有什么不明确或者不懂的地方,欢迎来到新世界主机咨询了解,详情请咨询Skpey咨询:vpssj.net@hotmail.com, 。我们必将竭诚为您服务。