0747-5.16.2-YARN日志聚合目录说明
suiw9 2025-03-23 23:36 14 浏览 0 评论
作者:朱超杰
文档编写目的
日志聚合是YARN提供的日志集中化管理功能,它能将运行完成的Container任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个集中式存储和分析机制。默认情况下,Container任务日志存在在各个NodeManager上,如果启用日志聚集功能需要额外的配置。本文需要介绍的
yarn.nodemanager.remote-app-log-dir配置是当应用程序运行结束后,日志被转移到的HDFS目录,默认是/tmp/logs。本文将模拟修改该目录,然后又将其修改回默认。
- 测试环境
1.CM和CDH版本均为5.16.2
2.集群正常运行
3.采用管理员用户登录CM
4.集群未启用Kerberos安全认证
问题重现
2.1 默认配置下的MR日志
1.集群当前运行正常
2.未修改配置前,YARN的
yarn.nodemanager.remote-app-log-dir默认配置路径为/tmp/logs
3.查看/tmp/logs目录属性如下:属主为mapred,属组为hadoop,目录权限为777。
hdfs dfs -ls /tmp/
4.执行MR作业测试,可以正常执行
hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 5 5
5.查看作业日志,日志可以正常查看
2.2 YARN配置修改后的日志
1.查看当前HDFS上不存在/data0/tmp/logs目录
hdfs dfs -ls /
hdfs dfs -ls /data0/tmp/logs
2.修改YARN的
yarn.nodemanager.remote-app-log-dir配置为/data0/tmp/logs。然后保存更改,按照提示重启YARN服务。
3.配置修改后集群运行正常
4.执行MR作业测试
hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 5 5
如上所示,MR作业可以正常执行
5.查看作业日志
如上所示,无法正常查看日志。提示:
Logs not available for job_1581405002681_0001.Aggregation may not be complete, Check back later or try the nodemanager athadoop03.focus.com:8041Or see application log athttp://hadoop03.focus.com:8041/node/application/application_1581405002681_0001
问题解决
3.1 方式一:自动创建日志目录
1.通过CM进入YARN服务界面,然后选择【创建NodeManager远程应用程序日志目录】。
2.执行上述操作后会在HDFS上生成/data/tmp/logs目录,并且属主:属组为mapred:hadoop,目录权限为1777
hdfs dfs -ls /
hdfs dfs -ls /data/tmp
3.执行MR作业
hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 5 5
4.查看作业日志
如上所示,日志已被聚合到HDFS,可以正常查看
3.2 方式二:手动创建日志目录
1.在HDFS上创建/data/tmp/logs目录
sudo -u hdfs hdfs dfs -mkdir -p /data/tmp/logs
hdfs dfs -ls /
hdfs dfs -ls /data/tmp/
2.修改/data0/tmp/logs目录的属主和属组为mapred:hadoop
sudo -u hdfs hdfs dfs -chown mapred:hadoop /data/tmp/logs
hdfs dfs -ls /data/tmp/
3.修改/data0/tmp/logs目录访问权限为1777
sudo -u hdfs hdfs dfs -chmod 1777 /data/tmp/logs
hdfs dfs -ls /data/tmp/
4.执行MR作业测试,作业正常执行
hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 5 5
5.查看作业日志
如上所示,MR作业日志可以正常查看。
3.3 方式三:修改回默认目录/tmp/logs
1.修改
yarn.nodemanager.remote-app-log-dir参数配置为默认目录/tmp/logs。保存后根据提示重启相关服务
2.执行MR测试
hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 5 5
MR作业正常执行
3.查看作业日志
注意:无论是哪一种解决方式,对于无法查看日志的作业仍然无法查看,只能通过命令行的形式在本地查看。如下所示:
在hadoop03节点上查看本地日志
cd /data0/yarn/container-logs/llll application_1581405002681_0001/ll application_1581405002681_0001/container_1581405002681_0001_01_000003/
如上所示,作业job_1581319903607_0001的本地日志(每个NodeManager节点上都存在一部分)仍然在本地存在,未被聚合到HDFS,因此在HistoryServer Web UI上仍然无法查看该作业日志。
总结
1.在HistoryServer Web UI上查看YARN的历史作业日志需要开启日志聚合功能,即设置
yarn.log-aggregation-enable参数为true。当任务运行结束后,YARN会把appmaster container任务的日志都上传到HDFS的地址中;每个用户的作业在/tmp/logs下都有自己用户名对应的日志;比如,root用户其作业在HDFS上日志路径为/tmp/logs/root/logs/。
2.YARN的
yarn.nodemanager.remote-app-log-dir参数:应用程序运行结束后,日志被转移到的HDFS目录(启用日志聚集功能时有效),默认为HDFS上的/tmp/logs
目录。配置该参数时,如果其修改目录不存在,则需要执行YARN服务界面的【创建NodeManager远程应用程序日志目录】操作自动创建目录或者手动创建属主:属组为mapred:hadoop,权限设置为1777的HDFS目录;如果HDFS上该目录已存在,但是由于目录权限或属主问题导致无法查看日志,此时只能手动修改该目录权限和属主,不能通过YARN服务界面的【创建NodeManager远程应用程序日志目录】操作来修改属主和权限。
3.由于启了日志聚合功能(
yarn.log-aggregation-enable),对于所有的MR作业,在作业执行完毕后会将本地日志聚合到HDFS上指定目录,在日志聚合完毕后会自动删除本地日志。此时参数
yarn.nodemanager.log.retain-seconds所设置的本地日志保留时间是不生效的。
4.对于未被聚合到HDFS上的YARN作业日志,日志存储在yarn.nodemanager.log-dirs参数所配置的目录(每个NodeManager节点上都存在),只能通过命令行的形式在本地查看日志信息。并且本地日志不会被删除,只能手动定期清理。
相关推荐
- 看完这一篇数据仓库干货,终于搞懂什么是hive了
-
一、Hive定义Hive最早来源于FaceBook,因为FaceBook网站每天产生海量的结构化日志数据,为了对这些数据进行管理,并且因为机器学习的需求,产生了Hive这们技术,并继续发展成为一个成...
- 真正让你明白Hive参数调优系列1:控制map个数与性能调优参数
-
本系列几章系统地介绍了开发中Hive常见的用户配置属性(有时称为参数,变量或选项),并说明了哪些版本引入了哪些属性,常见有哪些属性的使用,哪些属性可以进行Hive调优,以及如何使用的问题。以及日常Hi...
- HIVE SQL基础语法(hive sql是什么)
-
引言与关系型数据库的SQL略有不同,但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询、条件查询。HIVE不适合用于联机事务处理,也不提供实时查询功能。它最适合应用在基于大量不可变数据...
- [干货]Hive与Spark sql整合并测试效率
-
在目前的大数据架构中hive是用来做离线数据分析的,而在Spark1.4版本中spark加入了sparksql,我们知道spark的优势是速度快,那么到底sparksql会比hive...
- Hive 常用的函数(hive 数学函数)
-
一、Hive函数概述及分类标准概述Hive内建了不少函数,用于满足用户不同使用需求,提高SQL编写效率:...
- 数仓/数开面试题真题总结(二)(数仓面试时应该讲些什么)
-
二.Hive...
- Tomcat处理HTTP请求流程解析(tomcat 处理请求过程)
-
1、一个简单的HTTP服务器在Web应用中,浏览器请求一个URL,服务器就把生成的HTML网页发送给浏览器,而浏览器和服务器之间的传输协议是HTTP,那么接下来我们看下如何用Java来实现一个简单...
- Python 高级编程之网络编程 Socket(六)
-
一、概述Python网络编程是指使用Python语言编写的网络应用程序。这种编程涉及到网络通信、套接字编程、协议解析等多种方面的知识。...
- [904]ScalersTalk成长会Python小组第20周学习笔记
-
Scalers点评:在2015年,ScalersTalk成长会Python小组完成了《Python核心编程》第1轮的学习。到2016年,我们开始第二轮的学习,并且将重点放在章节的习题上。Python小...
- 「web开发」几款http请求测试工具
-
curl命令CURL(CommandLineUniformResourceLocator),是一个利用URL语法,在命令行终端下使用的网络请求工具,支持HTTP、HTTPS、FTP等协议...
- Mac 基于HTTP方式访问下载共享文件,配置共享服务器
-
方法一:使用Python的SimpleHTTPServer进行局域网文件共享Mac自带Python,所以不需要安装其他软件,一条命令即可...
- 使用curl进行http高并发访问(php curl 大量并发获得结果)
-
本文主要介绍curl异步接口的使用方式,以及获取高性能的一些思路和实践。同时假设读者已经熟悉并且使用过同步接口。1.curl接口基本介绍curl一共有三种接口:EasyInterface...
- Django 中的 HttpResponse理解和用法-基础篇1
-
思路是方向,代码是时间,知识需积累,经验需摸索。希望对大家有用,有错误还望指出。...
你 发表评论:
欢迎- 一周热门
-
-
Linux:Ubuntu22.04上安装python3.11,简单易上手
-
宝马阿布达比分公司推出独特M4升级套件,整套升级约在20万
-
MATLAB中图片保存的五种方法(一)(matlab中保存图片命令)
-
别再傻傻搞不清楚Workstation Player和Workstation Pro的区别了
-
如何提取、修改、强刷A卡bios a卡刷bios工具
-
Linux上使用tinyproxy快速搭建HTTP/HTTPS代理器
-
Element Plus 的 Dialog 组件实现点击遮罩层不关闭对话框
-
日本组合“岚”将于2020年12月31日停止团体活动
-
SpringCloud OpenFeign 使用 okhttp 发送 HTTP 请求与 HTTP/2 探索
-
MacOS + AList + 访达,让各种云盘挂载到本地(建议收藏)
-
- 最近发表
- 标签列表
-
- dialog.js (57)
- importnew (44)
- windows93网页版 (44)
- yii2框架的优缺点 (45)
- tinyeditor (45)
- qt5.5 (60)
- windowsserver2016镜像下载 (52)
- okhttputils (51)
- android-gif-drawable (53)
- 时间轴插件 (56)
- docker systemd (65)
- slider.js (47)
- android webview缓存 (46)
- pagination.js (59)
- loadjs (62)
- openssl1.0.2 (48)
- velocity模板引擎 (48)
- pcre library (47)
- zabbix微信报警脚本 (63)
- jnetpcap (49)
- pdfrenderer (43)
- fastutil (48)
- uinavigationcontroller (53)
- bitbucket.org (44)
- python websocket-client (47)