Hadoop FileSystem 获取目录所占磁盘空间大小
By:Roy.LiuLast updated:2020-07-22
在Hadoop的监控中,查看hdfs 所占用磁盘空间大小,一般来说有两种方式:1.命令行模式,2. API模式。
如果是命令行模式,一般人都会用。
hadoop fs -du /mypath
但这种方式必须在登录到主机,在命令行下执行,很不方便。所以在很多情况下,用API来实现,这个时候需要引入pom依赖
<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.2.1</version> <exclusions> <exclusion> <groupId>org.eclipse.jetty</groupId> <artifactId>jetty-servlet</artifactId> </exclusion> <exclusion> <groupId>org.eclipse.jetty</groupId> <artifactId>jetty-webapp</artifactId> </exclusion> <exclusion> <groupId>org.eclipse.jetty</groupId> <artifactId>jetty-util</artifactId> </exclusion> </exclusions> </dependency>
我这里排除了一些不需要的jar, 看情况自己选择。
获取HDFS所占磁盘空间大小,主要用到里面的FileSystem类。
FileSystem fileSystem = null; boolean flag = true; try { fileSystem = FileSystem.get(new URI(hadoop), configuration, "tomcat"); } catch (Exception e) { flag = false; logger.error("==>cannot get hadoop hdfs file system, {}", e.getMessage()); } Path p = new Path("/"); ContentSummary contentSummary = fileSystem.getContentSummary(p); //集群占用空间, 一般来说是实际占用空间的几倍, 具体与配置的副本数相关. long clusterSpace = contentSummary.getSpaceConsumed(); //实际占用空间 long actualSpace = contentSummary.getLength();
From:一号门
COMMENTS