基于香港服务器Linux系统机器学习决策树算法
针对香港服务器这种性能比较高端的服务器,又安装了开源的Linux操作系统。如此优越的服务器和开源的操作系统,我们是不是得做点实验来体现它的价值所在。最近比较热门、比较流行的就是大数据、机器学习和人工智能。下面小编给大家讲一下机器学习中的决策树算法以及实验。
首先给大家讲一下决策树的作用、优缺点以及适用数据范围。给大家讲一个小故事,不知道大家是否玩过二十个问题的游戏,参与的一方在脑海中想到某个问题,然后向其他参与者提问,每次只允许提问20个问题。问题的答案只能回答对或错,通过逐渐推断分解,缩小猜测事务所在的范围。决策树亦是如此,通过用户不断输入一系列的数据,然后给出最终游戏的答案。决策树的主要优势就是能够读取数据集合并且对数据形式非常容易理解,可以使用不熟悉的数据集合,并从里面提取出一系列规则,最后得出相应结论。决策树的优点是:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不想关的特征数据。缺点:可能会产生过度匹配的问题。适用于数据型和标称型数据。
其次给大家讲解一下决策树算法的工作原理。先要弄懂当前的数据集的哪些特征在划分数据时起到关键性作用。找出了最关键的特征,也就意味着找出了最重要的结论一句。如何划分数据?重要的一点是必须要让信息变的更有价值(信息增益),也就是说要将无序的数据变的更加有序。通过不断地更精准的划分,最终找到更有价值的数据结论。
最后给大家介绍一下决策树算法的流程步骤。
(1)收集数据,收集书籍的方式多种多样(利用网络爬虫爬取数据、提供的文本文件、相关部门获取数据)
(2)准备数据(划分数据集),决策树的构造算法只适用于标称型数据,如果数值是离散型的那必须进行离散化使其变成标称型数据。按照特征值对数据进行划分。
(3)分析数据(递归构建决策树),可以使用任何方法,这里我们才有Python的Matplotlib来注解回执树形图。Matplotlib库中提供了annotations注解工具,它可以在数据图形上添加文本注释,进而解释数据的内容。
(4)构造注解树,这里我们使用两个新函数getNumLeafs()和getTreeDepth()来获取叶节点的数目和树的层数,然后使用retrieveTree()函数用于测试。
(5)测试算法(使用决策树进行分类),依靠训练好的数据集构造好决策树以后,可以用于实际数据的分类。(依靠决策树本身和相应的构造树的标签向量)。
(6)使用算法。
本次讲解就到这里,相信小编已经给大家对于决策树算法做了一些正确合理的普及,大家现在应该理解决策树算法以及如何使用和在什么情况下使用决策树算法了。
希望大家踊跃的购买我们公司的香港服务器、香港vps以及美国服务器,更好的进行机器学习相关算法的研究和实战。
如果还有什么不明确或者不懂的地方,欢迎来到新世界主机咨询了解,详情请咨询Skpey咨询:vpssj.net@hotmail.com, 。我们必将竭诚为您服务。