香港服务器Linux系统机器学习研究第三章
上篇文章小编给大家讲解了基于香港服务器Linux系统中机器学习的主要任务和目前针对监督学习非监督学习中比较流行的机器学习算法。相信大家已经大体了解机器学习在分类和回归预测中的流行算法以及算法强大的训练学习能力。本文小编将给大家讲解一下如何选择合适合理的算法以及开发机器学习程序步骤。机器学习相关文章将以连载的形式持续发出,希望香港服务器购买者和机器学习研究者密切留意。
首先小编将根据《香港服务器Linux系统机器学习研究第二章》中列举出来的一些机器学习流行算法,讲解一下如何选择合适的算法。在选择合适的算法之前,算法使用者一定要弄清楚用某个算法来做什么,完成什么工作量(是分类问题还是回归预测问题),需要收集收集分析的数据有哪些。
(1)预测目标变量,获得预测值,可以选择监督学习算法。如果确定使用监督学习算法,进一步确定目标变量类型。如果是离散类型数据,可以用分类算法做预测;如果是连续类型数据,可以选择回归算法做预测;反之如果不是做预测,则可以石油无监督学习算法。
(2)充分了解数据,数据了解的深浅程度对编写机器学习应用程序至关重要,充分了解特征值可以促进正确选择合理的算法。要从以下几个方面考虑数据:特征值类型(离散型还是连续型)、特征值是否充分(是否缺失)、数据是否存在异常、特征值发生频率。
其次小编将讲解一下开发机器学习程序的流程。
(1)收集提取数据。目前有多种方法来收集数据:利用网络爬虫从网站中爬取数据,利用传感器采集数据,也可以去有关公司获取数据,也可以使用公开的数据。
(2)提取有效数据(提取输入数据)。要使用数据格式符合要求的数据源,可以融合融合算法,便于算法与数据匹配。
(3)分析输入数据。先进行简单的人工分析,查看数据是否存在空值、是否存在异常。确保不存在垃圾数据。
(4)训练算法。是机器学习算法的核心(只适用于监督学习,无监督学习中午目标变量值,所以不需要训练算法)。
(5)测试算法。评估算法是否有效。在监督学习中,必须评估目标变量值;在无监督学习中,必须用其他手段来检测算法的成功率。
(6)使用算法。机器学习算法转换成相应的应用程序来执行任务。
给大家说一下小编最近做的实验,关于石油价格的预测:首先利用网络爬虫技术在石油相关网页中爬取相关石油价格数据,其次进行数据检查(将数据分为训练集和预测集),输入有效数据,采用Elman神经网络算法对训练集进行训练。通过输入前六天的石油价格数据进行训练,预测集就可以预测出第七天的石油价格。然后通知真实值与网络预测值做对比。
本次讲解就到这里,相信小编已经给大家做了一些正确合理的解释,大家现在应该理解机器学习,后期文章将继续以连载的形式为大家提供,希望大家留意。
希望大家踊跃的购买我们公司的香港服务器,更好的进行机器学习的研究和实战。
如果还有什么不明确或者不懂的地方,欢迎来到新世界主机咨询了解,详情请咨询Skpey咨询:vpssj.net@hotmail.com, 。我们必将竭诚为您服务。