百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

50个大数据面试题第四篇:Hadoop开发人员新手面试问题

suiw9 2025-03-23 23:35 12 浏览 0 评论

在之前的文章中,我们总结了10个大数据面试入门级问题以及大数据面试中级问题,大家是否有收获呢?如果还没有看的小伙伴,可以在

《50个大数据面试题第一篇:10个大数据面试入门级问题》

《50个大数据面试题第二篇:10个大数据面试中级问题》

《50个大数据面试题第三篇:10个大数据Hadoop面试问题》

复习功课哦!

本篇是10个Hadoop开发人员新手面试问题及建议答案,话不多说,赶紧开始今天的学习。


Hadoop开发人员面试并不容易。如果您是一个新人,请学习Hadoop概念并做好准备。熟悉不同的文件系统,Hadoop版本,命令,系统安全性等。以下几个问题将帮助您通过Hadoop开发人员面试。

31.Hadoop中有哪些不同的配置文件?

Hadoop中的不同配置文件是:

core-site.xml -此配置文件包含Hadoop核心配置设置,例如I / O设置,对于MapReduce和HDFS非常常见。它使用主机名端口。

mapred-site.xml -此配置文件通过设置mapreduce.framework.name指定MapReduce的框架名称

hdfs-site.xml -此配置文件包含HDFS守护程序配置设置。它还指定HDFS上的默认阻止权限和复制检查。

yarn-site.xml -此配置文件指定ResourceManager和NodeManager的配置设置。

32. Hadoop 2和Hadoop 3有什么区别?

以下是Hadoop 2和Hadoop 3之间的区别如图


33. 如何在Hadoop中实现安全性?

Kerberos用于在Hadoop中实现安全性。在高级别使用Kerberos时,有3个步骤来访问服务。每个步骤都涉及与服务器的消息交换。

身份验证 -第一步是将客户端身份验证到身份验证服务器,然后向客户端提供带时间戳的TGT(票证授予票证)。

授权 -在此步骤中,客户端使用收到的TGT从TGS(票证授予服务器)请求服务票证。

服务请求 -这是在Hadoop中实现安全性的最后一步。然后,客户端使用服务票证向服务器验证自己。

34. 什么是商品硬件?

商品硬件是一种低成本系统,由可用性较低和质量较差的系统识别。商品硬件包括RAM,因为它执行许多需要RAM执行的服务。一个不需要高端硬件配置或超级计算机来运行Hadoop,它可以在任何商用硬件上运行。

35. NFS如何与HDFS不同?

有许多分布式文件系统以自己的方式工作。

NFS(网络文件系统)是最古老和最流行的分布式文件存储系统之一,而HDFS(Hadoop分布式文件系统)是最近使用和流行的处理大数据的系统。 NFS和HDFS之间的主要区别如下 -


36. Hadoop MapReduce如何工作?

MapReduce操作分为两个阶段:

映射阶段 - 在此阶段,输入数据由映射任务分割。地图任务并行运行。这些拆分数据用于分析目的。

减少阶段 - 在此阶段,类似的拆分数据将从整个集合中聚合并显示结果。

37. 什么是MapReduce?用于运行MapReduce程序的语法是什么?

MapReduce是Hadoop中的一种编程模型,用于处理计算机集群上的大型数据集,通常称为HDFS。它是一种并行编程模型。

运行MapReduce程序的语法是 - hadoop_jar_file.jar / input_path / output_path 。

38. NameNode,任务跟踪器和作业跟踪器的端口号是什么?

NameNode - 端口50070

任务跟踪器- 端口50060

工作追踪- 港口50030

39. HDFS中文件或目录级别的不同文件权限是什么?

Hadoop分布式文件系统(HDFS)使用特定的文件和目录权限模型。

以下用户级别用于HDFS :

Owner

Group

Others

对于上面提到的每个用户,以下权限适用 :

读(r)

写(w)

执行(x)

上述权限对文件和目录的工作方式不同。

对于文件:

在(r) 权限是用于读取文件

该(w) 许可是写一个文件。

对于目录:

在(r)权限列出内容的特定目录。

该(w) 权限创建或删除一个目录。

该(x) 许可是用于访问子目录。

40. Mapper的基本参数是什么?

Mapper的基本参数是:

LongWritable和Text

文本和IntWritable

相关推荐

看完这一篇数据仓库干货,终于搞懂什么是hive了

一、Hive定义Hive最早来源于FaceBook,因为FaceBook网站每天产生海量的结构化日志数据,为了对这些数据进行管理,并且因为机器学习的需求,产生了Hive这们技术,并继续发展成为一个成...

真正让你明白Hive参数调优系列1:控制map个数与性能调优参数

本系列几章系统地介绍了开发中Hive常见的用户配置属性(有时称为参数,变量或选项),并说明了哪些版本引入了哪些属性,常见有哪些属性的使用,哪些属性可以进行Hive调优,以及如何使用的问题。以及日常Hi...

HIVE SQL基础语法(hive sql是什么)

引言与关系型数据库的SQL略有不同,但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询、条件查询。HIVE不适合用于联机事务处理,也不提供实时查询功能。它最适合应用在基于大量不可变数据...

[干货]Hive与Spark sql整合并测试效率

在目前的大数据架构中hive是用来做离线数据分析的,而在Spark1.4版本中spark加入了sparksql,我们知道spark的优势是速度快,那么到底sparksql会比hive...

Hive 常用的函数(hive 数学函数)

一、Hive函数概述及分类标准概述Hive内建了不少函数,用于满足用户不同使用需求,提高SQL编写效率:...

数仓/数开面试题真题总结(二)(数仓面试时应该讲些什么)

二.Hive...

Tomcat处理HTTP请求流程解析(tomcat 处理请求过程)

1、一个简单的HTTP服务器在Web应用中,浏览器请求一个URL,服务器就把生成的HTML网页发送给浏览器,而浏览器和服务器之间的传输协议是HTTP,那么接下来我们看下如何用Java来实现一个简单...

Python 高级编程之网络编程 Socket(六)

一、概述Python网络编程是指使用Python语言编写的网络应用程序。这种编程涉及到网络通信、套接字编程、协议解析等多种方面的知识。...

[904]ScalersTalk成长会Python小组第20周学习笔记

Scalers点评:在2015年,ScalersTalk成长会Python小组完成了《Python核心编程》第1轮的学习。到2016年,我们开始第二轮的学习,并且将重点放在章节的习题上。Python小...

「web开发」几款http请求测试工具

curl命令CURL(CommandLineUniformResourceLocator),是一个利用URL语法,在命令行终端下使用的网络请求工具,支持HTTP、HTTPS、FTP等协议...

x-cmd pkg | hurl - 强力的 HTTP 请求测试工具,让 API 测试更加简洁高效

简介...

Mac 基于HTTP方式访问下载共享文件,配置共享服务器

方法一:使用Python的SimpleHTTPServer进行局域网文件共享Mac自带Python,所以不需要安装其他软件,一条命令即可...

Python 基础教程十五之 Python 使用requests库发送http请求

前言...

使用curl进行http高并发访问(php curl 大量并发获得结果)

本文主要介绍curl异步接口的使用方式,以及获取高性能的一些思路和实践。同时假设读者已经熟悉并且使用过同步接口。1.curl接口基本介绍curl一共有三种接口:EasyInterface...

Django 中的 HttpResponse理解和用法-基础篇1

思路是方向,代码是时间,知识需积累,经验需摸索。希望对大家有用,有错误还望指出。...

取消回复欢迎 发表评论: