百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

开源大数据集群部署(十六)Hadoop集群部署(一)

suiw9 2025-03-23 23:35 11 浏览 0 评论

作者:櫰木
按照上文中hadoop集群规划进行安装。

1 HADOOP集群安装

在hd1.dtstack.com主机root权限下安装hadoop集群

  • 解压
[root@hd1.dtstack.com software]# tar -zvxf hadoop-3.2.4.tar.gz -C /opt/
[root@hd1.dtstack.com software]# chown -R hdfs:hadoop /opt/hadoop-3.2.4
[root@hd1.dtstack.com software]# ln -s /opt/hadoop-3.2.4 /opt/hadoop

2 HADOOP Kerberos主体

服务

所在主机

主体格式(Principal)

keytab文件

NameNode

hd1.dtstack.com、hd2.dtstack.com

hdfs/_HOST@DTSTACK.COM

/etc/security/keytab/hdfs..keytab

DataNode

hd3.dtstack.com、hadoop04、hadoop05

hdfs/_HOST@DTSTACK.COM

/etc/security/keytab/hdfs..keytab

JournalNode

hd1.dtstack.com、hd2.dtstack.com、hd3.dtstack.com

hdfs/_HOST@DTSTACK.COM

/etc/security/keytab/hdfs.keytab

Web UI

hd1.dtstack.com、hd2.dtstack.com、hd3.dtstack.com

HTTP/_HOST@DTSTACK.COM

/etc/security/keytab/hdfs.keytab

JobHistory Server

hd1.dtstack.com、hd2.dtstack.com

yarn/_HOST@DTSTACK.COM

/etc/security/keytab/yarn..keytab

ResourceManager

hd1.dtstack.com、hd2.dtstack.com

yarn/_HOST@DTSTACK.COM

/etc/security/keytab/yarn.service.keytab

NodeManager

hd3.dtstack.com

yarn/_HOST@DTSTACK.COM

/etc/security/keytab/yarn..keytab

说明:

  • 创建主体命令见上面kerberos票据创建
  • _HOST表示配置文件变量,在实际使用过程会自动替换成主机名,如hd1.dtstack.com
  • Keytab文件名每台主机文件名一样,但文件内容不一样,主要区别是主机名
  • Keytab文件创建完成后分发到对应主机,且权限修改成600,权限修改命令如下:
chown -R root:hadoop /etc/security/keytab/
   chmod 660 /etc/security/keytab/*

按照kerberos票据创建进行票据主体创建和keytab文件创建以及分发到对应主机目录上

生成keytab文件

bash /root/bigdata/getkeytabs.sh /etc/security/keytab/hdfs.keytab  hdfs
由于页面需要http的principal,给hdfs的keytab添加httpprincipal
bash /root/bigdata/getkeytabs.sh /etc/security/keytab/hdfs.keytab  HTTP
bash /root/bigdata/getkeytabs.sh /etc/security/keytab/yarn.keytab  yarn
bash /root/bigdata/getkeytabs.sh /etc/security/keytab/yarn.keytab  HTTP

3、 HDFS使用HTTPS安全传输协议配置

在hd1.dtstack.com主机root权限下执行

  • 添加生成脚本
[root@hd1.dtstack.com hadoop]# cd /opt/hadoop/
[root@hd1.dtstack.com hadoop]# cd bin/ && vi on.sh
#!/bin/bash
 
path1=/opt/hadoop/bin
hosts="hd1.dtstack.com hd3.dtstack.com hd2.dtstack.com"
echo "===========begine install ca ==========="
sh $path1/ca_install.sh
echo "===========finish install ca ==========="
 
echo "===========begine install https ==========="
for host in $hosts
do
  ssh -t $host "$path1/keystore.sh"
  done
echo "===========finish install https ==========="
 
添加ca脚本
vi ca_install.sh
#! /bin/bash
 
path=/data/kerberos/hdfs_ca
#集群中安装https
hostnamess="hd1.dtstack.com hd3.dtstack.com hd2.dtstack.com"
passwords=abc123
hostname1=`hostname`
#ca证书创建,只需要在一个节点上创建
function make_CA(){
        hostnames=$hostnamess
        password=$passwords
        echo 'make_CA begin ...'
        cd $path
        #删除之前可能产生的过期CA证书
        rm -rf $path/hdfs_ca*
 
        #其中一台上生成CA,密码全部为abc123
        /usr/bin/expect <<-EOF
                set timeout 10
                spawn openssl req -new -x509 -keyout hdfs_ca_key -out hdfs_ca_cert -days 9999 -subj /C=CN/ST=zhejiang/L=hangzhou/O=dtstack/OU=dtstack/CN=$hostname1
                expect {
                                "*phrase*" {send "$password\r"; exp_continue}
 
                               "*phrase*" { send "$password\r"; exp_continue}
                        }
EOF
 
        #将生成的CA证书hdfs_ca_key、hdfs_ca_cert分发到其他节点上
        for host in $hostnames;
        do
                echo "copy hadoop CA to $host:$path"
                ssh root@$host "mkdir -p /data/kerberos/hdfs_ca"
                scp hdfs_ca_* $host:$path
        done
        #rm -rf hdfs_ca*
        echo 'make_CA end ...'
}
 
 
make_CA
添加keystore脚本
vi keystore.sh
#! /bin/bash
path=/data/kerberos/hdfs_ca
#集群中安装https keystore
hostnamess="hadoop01.dtstack.com hadoop03.dtstack.com hadoop02.dtstack.com"
passwords=abc123
current_hostnames="`hostname`"
export.UTF-8
function make_certificate(){
        current_hostname=$current_hostnames
        password=$passwords
 
        cd $path
        #keytool需要使用java环境
        source /etc/profile
 
        #生成keystore
        #name="CN=$current_hostname, OU=dtstack, O=dtstack, L=hangzhou, ST=zhejiang, C=CN"
        /usr/bin/expect <<-EOF
                spawn keytool -keystore keystore -alias localhost -validity 9999 -genkey -keyalg RSA -keysize 2048 -dname "CN=$current_hostname, OU=dtstack, O=dtstack, L=hangzhou, ST=zhejiang, C=CN"
                expect {
                        "*password*" {send "$password\r"; exp_continue}
                        "*password*" {send "$password\r"; exp_continue}
                        "*password*" {send "$password\r"; exp_continue}
                        "*password*" {send "$password\r"; exp_continue}
                }
EOF
 
        #添加CA到truststore
        /usr/bin/expect <<-EOF
                spawn keytool -keystore truststore -alias CARoot -import -file hdfs_ca_cert
                expect {
                        "*password*" {send "$password\r"; exp_continue}
                        "*password*" {send "$password\r"; exp_continue}
                        "*certificate*" {send "yes\r"; exp_continue}
                }
EOF
 
        #从keystore中导出cert
        /usr/bin/expect <<-EOF
                spawn keytool -certreq -alias localhost -keystore keystore -file cert
                expect {
                        "*password*" {send "$password\r"; exp_continue}
                }
EOF
 
        #用CA对cert签名
        /usr/bin/expect <<-EOF
                spawn openssl x509 -req -CA hdfs_ca_cert -CAkey hdfs_ca_key -in cert -out cert_signed -days 9999 -CAcreateserial
                expect {
                        "*phrase*" {send "$password\r"; exp_continue}
                }
EOF
 
        #将CA的cert和用CA签名之后的cert导入keystore
        /usr/bin/expect <<-EOF
                spawn keytool -keystore keystore -alias CARoot -import -file hdfs_ca_cert
                expect {
                        "*password*" {send "$password\r"; exp_continue}
                        "*certificate*" {send "yes\r"; exp_continue}
                }
EOF
 
        /usr/bin/expect <<-EOF
                spawn keytool -keystore keystore -alias localhost -import -file cert_signed
                expect {
                        "*password*" {send "$password\r"; exp_continue}
                }
EOF
 
        #将最终keystore,trustores放入合适的目录,并加上后缀jks
        #rm -rf /etc/security/https && mkdir -p /etc/security/https
        #chmod 755 /etc/security/https
        echo "install keystore、truststore to /data/kerberos/hdfs_ca/..."
        cp $path/keystore $path/keystore.jks
        cp $path/truststore $path/truststore.jks
}
 
        echo "[+] execute hlk_each_host_install_https.sh begin ..."
        echo "hostnames:$hostnames"
        echo "current_hostname:$current_hostname"
        #每个节点获取CA证书签照
        make_certificate
        echo "[+] execute hlk_each_host_install_https.sh end ..."

将脚本分发到每个节点的/opt/hadoop/bin/目录下,同时修改脚本权限

4、生成对应https证书(只需要在一个节点执行即可)

mkdir -p /data/kerberos/hdfs_ca
cd /opt/hadoop/bin/
bash on.sh

更多技术信息请查看云掣官网云掣YunChe - 可观测运维专家 | 大数据运维托管 | 云MSP服务

相关推荐

看完这一篇数据仓库干货,终于搞懂什么是hive了

一、Hive定义Hive最早来源于FaceBook,因为FaceBook网站每天产生海量的结构化日志数据,为了对这些数据进行管理,并且因为机器学习的需求,产生了Hive这们技术,并继续发展成为一个成...

真正让你明白Hive参数调优系列1:控制map个数与性能调优参数

本系列几章系统地介绍了开发中Hive常见的用户配置属性(有时称为参数,变量或选项),并说明了哪些版本引入了哪些属性,常见有哪些属性的使用,哪些属性可以进行Hive调优,以及如何使用的问题。以及日常Hi...

HIVE SQL基础语法(hive sql是什么)

引言与关系型数据库的SQL略有不同,但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询、条件查询。HIVE不适合用于联机事务处理,也不提供实时查询功能。它最适合应用在基于大量不可变数据...

[干货]Hive与Spark sql整合并测试效率

在目前的大数据架构中hive是用来做离线数据分析的,而在Spark1.4版本中spark加入了sparksql,我们知道spark的优势是速度快,那么到底sparksql会比hive...

Hive 常用的函数(hive 数学函数)

一、Hive函数概述及分类标准概述Hive内建了不少函数,用于满足用户不同使用需求,提高SQL编写效率:...

数仓/数开面试题真题总结(二)(数仓面试时应该讲些什么)

二.Hive...

Tomcat处理HTTP请求流程解析(tomcat 处理请求过程)

1、一个简单的HTTP服务器在Web应用中,浏览器请求一个URL,服务器就把生成的HTML网页发送给浏览器,而浏览器和服务器之间的传输协议是HTTP,那么接下来我们看下如何用Java来实现一个简单...

Python 高级编程之网络编程 Socket(六)

一、概述Python网络编程是指使用Python语言编写的网络应用程序。这种编程涉及到网络通信、套接字编程、协议解析等多种方面的知识。...

[904]ScalersTalk成长会Python小组第20周学习笔记

Scalers点评:在2015年,ScalersTalk成长会Python小组完成了《Python核心编程》第1轮的学习。到2016年,我们开始第二轮的学习,并且将重点放在章节的习题上。Python小...

「web开发」几款http请求测试工具

curl命令CURL(CommandLineUniformResourceLocator),是一个利用URL语法,在命令行终端下使用的网络请求工具,支持HTTP、HTTPS、FTP等协议...

x-cmd pkg | hurl - 强力的 HTTP 请求测试工具,让 API 测试更加简洁高效

简介...

Mac 基于HTTP方式访问下载共享文件,配置共享服务器

方法一:使用Python的SimpleHTTPServer进行局域网文件共享Mac自带Python,所以不需要安装其他软件,一条命令即可...

Python 基础教程十五之 Python 使用requests库发送http请求

前言...

使用curl进行http高并发访问(php curl 大量并发获得结果)

本文主要介绍curl异步接口的使用方式,以及获取高性能的一些思路和实践。同时假设读者已经熟悉并且使用过同步接口。1.curl接口基本介绍curl一共有三种接口:EasyInterface...

Django 中的 HttpResponse理解和用法-基础篇1

思路是方向,代码是时间,知识需积累,经验需摸索。希望对大家有用,有错误还望指出。...

取消回复欢迎 发表评论: