站长杂谈

针对weka数据挖掘的深化讲解

时间:2017-04-24 15:54 点击:

  针对weka数据挖掘的深化讲解

  对于非专业人员来说,一提到数据挖掘,许多人往往会觉得是一个十分高大上的工作,的确,一个人如果想要从零开始进行数据挖掘工作往往具有十分巨大的学习难度,但是随着机器学习的发展,已经出现了十分轻量化的数据挖掘工具,例如weka便是数据挖掘工具中的佼佼者。对于香港服务器的使用者,应该已经看过了我们之前为各位读者准备的机器学习以及数据挖掘工具weka的基本介绍,现在小编就更近一步,为各位读者深入的探讨一下weka的具体使用方法。

  首先讲到的便是weka中的回归技术,在weka之中,回归是最为简单易用的一种技术,但可能也是最不强大但是通常来讲,这两者也常常是相伴而行。在有些应用环境不是十分复杂的情况下,这个模型可以简单到只有一个输入变量和一个输出变量,在这一点上,weka几乎已经做到了极致。当然,简单仅仅是weka的一个选项,如果需要用到复杂的功能,weka也可以定义许多的输入变量。但实际上,所有回归模型均符合同一个通用模式。多个自变量综合在一起可以生成一个结果,即一个因变量。然后用回归模型根据给定的这些自变量的值预测一个未知的因变量的结果。下面我们就更加直观的解释一下回归模型,一提到回归模型,人们能立即想到的一个例子就是给房子定价。房子的价格,即因变量,是由很多的自变量决定的,例如我们能够想到的,房子的面积、厨房是否漂亮以及卫生间安全等。这便是一个回归模型,通过这个回归模型,我们能够实现对于房子的定价。

  对于这个例子,我们可以利用weka进行更进一步的讲解,首先是为WEKA构建数据集,这个数据集里面包含了训练数据,为了方便weka读取数据,我们必须将数据放入一个weka能够充分理解的格式。weka中默认的是 ARFF格式,对于其他类型的数据,读者需要手动进行格式转换。数据创建完成后,就可以开始创建我们的回归模型了。启动WEKA,然后选择Explorer。点击其中的Preprocess 选项卡。选择Open File按钮,选择上文中创建的ARFF文件。然后单击Classify选项卡。第一步便是选择我们想要创建的模型,从而使得WEKA 能够知道该如何处理数据并且在一个合适的条件下创建一个数据模型,接下来单击 Choose 按钮,然后扩展 functions 分支,最后选择 LinearRegression 叶。现在,选择了想要的模型后,我们必须告诉 WEKA 它创建这个模型应该使用的数据在哪里。我们可以简单地选择 Use training set。创建模型的最后一个步骤是选择因变量。在本例中指的就是房屋的销售价格,因为那正是我们想要的。我们准备好创建模型后,单击Start,我们便得到了我们需要的结果。

  如果您还有什么不明确或者是不懂的地方,欢迎来新世界主机咨询了解,详情请咨询Skype:vpssj.net@hotmail.com TEL: 400 1109 210。我们必将竭诚为您服务。