关于大数据下图像存储和算法的研究

大数据分布式计算集群搭建

大数据分布式集群架构:

使用Ambari从0-1搭建分布式集群,集群节点可以无限扩,YARN集群模式。

yarn-cluster - 驱动程序将在YARN集群的远程节点中运行,仅在0.8.0之后才支持。yarn-cluster比yarn-client更受欢迎,因为它减轻了zeppelin 服务器的内存压力。

开了两个NODEMANAGERS

图像的储存:

我们通常将图像存储在S3,OBS,HDFS中,在S3中存储压缩图像也是合适的,因为S3限制了单个文件的存储大小。

图像的计算:

在YARN集群模式,使用spark读取HDFS的图像后,在使用pillow或者opencv将spark的图片二进制转为numpy.ndarray,然后就可以对图像进行算法处理。