关于香港服务器Hadoop的I/O系统
针对香港服务器这种性能比较高端的服务器,又安装了开源的Linux操作系统(Ubuntu14.04)。如此优越的服务器和开源的操作系统,我们是不是得做点实验来体现它的价值所在。最近比较热门、比较流行的就是大数据、云计算、机器学习和人工智能。下小
编给大家讲一下基于香港服务器下的Ubuntu14.04环境下的Hadoop架构中的I/O系统。
数据在使用之前,要对数据进行处理(即将数据转换成Hadoop可以识别的格式),这样才能进行后面的数据处理,但是海量大规模数据进行数据格式转换是一件很难并且大的任务,为此Hadoop开发出了一套能够为Hadoop所使用的文件I/O系统。
Hadoop的数据交换方式是采用宽带连接进行交换,因此对数据进行预处理时应采用压缩数据的方式,其中这样做的优点是1.节省了大量的带宽,更好的进行数据传输;2.对于Hadoop的处理机制而言,这样做可以更方便的进行数据传输。为此Hadoop才自身框架体系内自带了相应的压缩格式(DEFLATE、gzip、bzip2、LZO、LZ4、Snappy)。
Hadoop压缩库类:
(1)CompressionCodec接口:
Hadoop中的基本上所有的压缩类都实现了CompressionCodec接口,其中类型为CompressionCodec的Code实例化了一个GzipCodec的类。其中进行文件压缩的核心代码,创建输出压缩类和解压缩类:
CompressionOutputStream cos = codec.createOutputStream(os);
CompressionInputStream cis = codec.createInputStream(in);
(2)CompressionCodecFactory类
Hadoop提供了一种可以按照人类的思维进行对文件的类型分析,根据后缀名来获取文件的类型,每个CompressionCodec对应一个后缀名,对传递进来的文件名进行分割来获取目标文件的后缀名。
(3)压缩池压缩池中含有两个重要的方法,1。getCompressor方法,他可以在压缩池中获取闲置的资源;2.returnCompressor方法是将已经调用完毕的压缩资源归还到压缩池中,通过这两个方法可以使得压缩池可以进行大量的压缩和解压缩的任务。
在Hadoop中使用压缩:
压缩是透明的,通过对后缀名自动压缩,可以产生压缩对象和调用相应的压缩格式,有两张方式可以设置Hadoop应用程序的压缩操作。1.设置Hadoop配置文件的方式对压缩方式进行配置;2.动态的调用API,在main方法中通过代码对压缩类进行压缩,并设定相关压缩操作。
I/O序列化:对数据进行流的形式的存储,以便书籍在网络中传输或者写入磁盘中,Hadoop进行序列化的好处有1.格式确定;2.便于传输;3.更易于后台管理。
本次讲解就到这里,相信小编已经给大家对于Hadoop的I/O系统做了一些正确合理的普及,大家现在应该理解Hadoop的I/O系统是如何部署的了,喜欢动手的朋友可以安装上述步骤自行安装一遍进行I/O系统研究(上述操作本人都亲自试验过)。
希望大家踊跃的购买我们公司的香港服务器,更好的进行hadoop相关的研究和实战。
如果还有什么不明确或者不懂的地方,欢迎来到新世界主机咨询了解,详情请咨询Skpey咨询:vpssj.net@hotmail.com, 。我们必将竭诚为您服务。