百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

[干货]Hive与Spark sql整合并测试效率

suiw9 2025-03-30 20:52 8 浏览 0 评论

在目前的大数据架构中hive是用来做离线数据分析的,而在Spark1.4版本中 spark 加入了spark sql , 我们知道spark的优势是速度快,那么到底spark sql 会比hive 快多少呢。

Spark 1.4 在spark sql中加入了 窗口函数,这降低了hive 向spark sql迁移的难度。

本文有两个目的,一是hive 与spark sql 整合,二是测试 spark sql 与 hive的效率。

一下是版本信息:

hive版本 hive-0.12.0

spark版本 spark-1.5.2

Scala版本 scala-2.11.6

老规矩,没有废话

在Hive-site.xml 填入如下信息

javax.jdo.option.ConnectionURL

jdbc:mysql://10.10.113.44:3306/hive?createDatabaseIfNotExist=true

javax.jdo.option.ConnectionDriverName

com.mysql.jdbc.Driver

javax.jdo.option.ConnectionUserName

root

javax.jdo.option.ConnectionPassword

123456

datanucleus.autoCreateTables

true

datanucleus.autoCreateColumns

true

datanucleus.autoCreateSchema

true

`

这样做的目的是使用mysql作为hive的 metastore数据库。

将配置好的文件拷贝到 spark的 conf 目录下

[hadoop@10.10.113.45 ~/hive/conf]gt;cp hive-site.xml /home/hadoop/spark/conf/

修改spark 中conf 目录下的spark-env.sh 文件,并添加如下内容

SPARK_EXECUTOR_MEMORY=2G

SPARK_DRIVER_MEMORY=1500M

SPARK_MASTER_IP=10.10.113.45

SPARK_WORKER_MEMORY=4g

export JAVA_HOME=/usr/local/java

export HADOOP_CONF_DIR=/home/hadoop/hadoop/etc/hadoop

export HIVE_CONF_DIR=/home/hadoop/hive/conf

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/home/hadoop/hive/lib/mysql-connector-java-5.1.28.jar

修改log4j.properties.template 加入如下内容

log4j.rootCategory=WARN, console

然后重启 spark

./sbin/start-all.sh

我们首先来看一下,hive中有哪些数据库

hive> show databases;

OK

default

Hive1

然后在进入spark sql中看一下 是否一样。

spark-sql> show databases;OK

default

hive1

(删除掉日志信息后的结果)

我们看到 数据是一样的。

下面 我们来 测试一下hive和spark sql 查询同一张表的效率如何:

1、准备数据

Csv 格式的数据 dividends.csv,一共有15208条数据。

2、将数据上传到hadoop集群中

[hadoop@10.10.113.45 ~]gt;hdfs dfs -put dividends.csv /

[hadoop@10.10.113.45 ~]gt;hdfs dfs -ls /

Found 8 items

-rw-r--r-- 1 hadoop supergroup 405380 2015-11-26 14:29 /dividends.csv

drwxr-xr-x - hadoop supergroup 0 2015-11-23 17:22 /hbase

drwxr-xr-x - hadoop supergroup 0 2015-10-30 11:21 /hive_external

drwxr-xr-x - hadoop supergroup 0 2015-11-20 14:37 /spark

drwxr-xr-x - root supergroup 0 2015-11-25 15:37 /tachyon

-rw-r--r-- 1 hadoop supergroup 99 2015-11-25 16:36 /test.txt

drwx------ - hadoop supergroup 0 2015-11-26 10:08 /tmp

drwxr-xr-x - hadoop supergroup 0 2015-10-29 16:30 /user

3、在hive中建测试表

hive> create table test (

> a string ,

> b string ,

> c string ,

> d int

> )

> row format delimited

> fields terminated by ',';

OK

Time taken: 0.061 seconds

4、接着在spark sql 中看一下 是都存在

spark-sql> show tables;

ct false

s false

ss false

sss false

test false

whatsit false

5、将数据load 到hive中

hive> load data inpath '/dividends.csv' overwrite into table test;

Loading data to table default.test

Table default.test stats: [num_partitions: 0, num_files: 1, num_rows: 0, total_size: 405380, raw_data_size: 0]

OK

Time taken: 0.242 seconds

6、在hive中做count(*) 查询

hive> select count(*) from test;

OK

_c0

15208

Time taken: 20.104 seconds, Fetched: 1 row(s)

花费了20秒时间。

7,我们在spark中做相同的操作

hive> select count(*) from test;

15/11/26 14:38:10 INFO scheduler.StatsReportListener: 133.0 ms 133.0 ms 133.0 ms 133.0 ms 133.0 ms 133.0 ms133.0 ms 133.0 ms 133.0 ms

15208

花费了多长时间呢? 0.133秒

spark的速度是hive的200倍!!!!!!(不同硬件,会有不同)

这里只分享干货技术!!!!!!!

相关推荐

看完这一篇数据仓库干货,终于搞懂什么是hive了

一、Hive定义Hive最早来源于FaceBook,因为FaceBook网站每天产生海量的结构化日志数据,为了对这些数据进行管理,并且因为机器学习的需求,产生了Hive这们技术,并继续发展成为一个成...

真正让你明白Hive参数调优系列1:控制map个数与性能调优参数

本系列几章系统地介绍了开发中Hive常见的用户配置属性(有时称为参数,变量或选项),并说明了哪些版本引入了哪些属性,常见有哪些属性的使用,哪些属性可以进行Hive调优,以及如何使用的问题。以及日常Hi...

HIVE SQL基础语法(hive sql是什么)

引言与关系型数据库的SQL略有不同,但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询、条件查询。HIVE不适合用于联机事务处理,也不提供实时查询功能。它最适合应用在基于大量不可变数据...

[干货]Hive与Spark sql整合并测试效率

在目前的大数据架构中hive是用来做离线数据分析的,而在Spark1.4版本中spark加入了sparksql,我们知道spark的优势是速度快,那么到底sparksql会比hive...

Hive 常用的函数(hive 数学函数)

一、Hive函数概述及分类标准概述Hive内建了不少函数,用于满足用户不同使用需求,提高SQL编写效率:...

数仓/数开面试题真题总结(二)(数仓面试时应该讲些什么)

二.Hive...

Tomcat处理HTTP请求流程解析(tomcat 处理请求过程)

1、一个简单的HTTP服务器在Web应用中,浏览器请求一个URL,服务器就把生成的HTML网页发送给浏览器,而浏览器和服务器之间的传输协议是HTTP,那么接下来我们看下如何用Java来实现一个简单...

Python 高级编程之网络编程 Socket(六)

一、概述Python网络编程是指使用Python语言编写的网络应用程序。这种编程涉及到网络通信、套接字编程、协议解析等多种方面的知识。...

[904]ScalersTalk成长会Python小组第20周学习笔记

Scalers点评:在2015年,ScalersTalk成长会Python小组完成了《Python核心编程》第1轮的学习。到2016年,我们开始第二轮的学习,并且将重点放在章节的习题上。Python小...

「web开发」几款http请求测试工具

curl命令CURL(CommandLineUniformResourceLocator),是一个利用URL语法,在命令行终端下使用的网络请求工具,支持HTTP、HTTPS、FTP等协议...

x-cmd pkg | hurl - 强力的 HTTP 请求测试工具,让 API 测试更加简洁高效

简介...

Mac 基于HTTP方式访问下载共享文件,配置共享服务器

方法一:使用Python的SimpleHTTPServer进行局域网文件共享Mac自带Python,所以不需要安装其他软件,一条命令即可...

Python 基础教程十五之 Python 使用requests库发送http请求

前言...

使用curl进行http高并发访问(php curl 大量并发获得结果)

本文主要介绍curl异步接口的使用方式,以及获取高性能的一些思路和实践。同时假设读者已经熟悉并且使用过同步接口。1.curl接口基本介绍curl一共有三种接口:EasyInterface...

Django 中的 HttpResponse理解和用法-基础篇1

思路是方向,代码是时间,知识需积累,经验需摸索。希望对大家有用,有错误还望指出。...

取消回复欢迎 发表评论: