登录注册写文章

东软集团面试题汇总

一生所爱の赫萝

2022-02-13 10:57:26 阅读 965 标签：大数据 hadoop

1.hbase有什么特点，他的优缺点：

海量存储，列式存储，高并发，稀疏（列的灵活性，列族中可以指定任意多的列，在列数据为空的情况下，是不会占用存储空间的），高可用（WAL解决高可用，瞬间写入量）

2.单一RowKey固有的局限性决定了它不可能有效地支持多条件查询，不支持SQL语句

1.1.3hbase的过滤器说几个及其作用：

比较运算符（less,greater_or_equal,NO_OP），比较器（BinaryComparator，BitComparator，NullComparator）。

比较过滤器：

rowfilter,familyfilter,qualifierfilter,valuefilter,timestampsfilter,

Filter rowFilter = new RowFilter(CompareOp.GREATER, new BinaryComparator("95007".getBytes()));

2.专用过滤器：SingleColumnValueFilter -会返回满足条件的整行，单列值排除器 SingleColumnValueExcludeFilter ，前缀过滤器 PrefixFilter----针对行键，列前缀过滤器 ColumnPrefixFilter，分页过滤器 PageFilter

1.2.hive表的优化：怎么解决数据倾斜:key分布不均匀，数据本身，sql语句本身容易引起倾斜（goupbykey,join,distinct count）

groupbykey引起的：参数调优：set hive.groupby.skewindata=true;生成的查询计划会有两个MRJob

采用sum() group by的方式来替换count(distinct)完成计算

1.2hive有一张小表明细表，一张超级大的表join，怎么解决这种容易引起数据倾斜？

1.3.hive表之间有父子依赖关系，几十张表，你是如何处理的？

1.4.sqoop给了我一个错误的引导：说是sqoop收集数据。反怼了他。

1.5.Redis的哨兵模式：自己挖的坑，自己踩。

1.6其他的简历方面的也问了不少，没啥特别的说的。

文章来源：网络版权归原作者所有,如涉及知识产权问题，请权利人联系我们，我们将立即处理.

标签: 大数据 hadoop

一生所爱の赫萝

一生所爱の赫萝

文章 92 获得 0个赞共 0个粉丝

推荐阅读更多精彩内容

Go语言标准库有哪些

学习编程语言，早已不是学一点语法规则那么简单。现在更习惯称作选择 Ecosystem（生态圈），而这其中标准库的作用和分量尤为明显。在Go语言的安装文件里包含了一些可以直接使用的包，即标准库。Go语言

顾你木偶阅读 1183 标签: go
Go语言的性能如何？

根据 Go 开发团队和基本的算法测试，Go语言与C语言的性能差距大概在 10%~20% 之间。虽然没有官方的性能标准，但是与其它各个语言相比已经拥有非常出色的表现。时下流行的语言大都是运行在虚拟机上，

顾你木偶阅读 1046
Go语言为并发而生

在早期 CPU 都是以单核的形式顺序执行机器指令。Go语言的祖先C语言正是这种顺序编程语言的代表。顺序编程语言中的顺序是指：所有的指令都是以串行的方式执行，在相同的时刻有且仅有一个 CPU 在顺序执行

顾你木偶阅读 1168 标签: go
Go语言有哪些特性？

Go语言也称为 Golang，是由 Google 公司开发的一种静态强类型、编译型、并发型、并具有垃圾回收功能的编程语言。接下来从几个方面来具体介绍一下Go语言的特性。语法简单抛开语法样式不谈，单就类

顾你木偶阅读 1209 标签: go
什么是Go语言

Go语言（或 Golang）起源于 2007 年，并在 2009 年正式对外发布。Go 是非常年轻的一门语言，它的主要目标是“兼具 Python等动态语言的开发速度和 C/C++等编译型语言的性能与安

顾你木偶阅读 1259 标签: go
太平洋保险大地保险华腾有限公司面试题汇总

1.介绍项目：完整的2.zookeeper：zkServer，使用过这在内部删除东西？不明白他想问啥？3.zookeeper的反压：4.DAG：DAGscheduler,taskscheduler,t

上杉夏香阅读 879 标签: 大数据 hadoop storm
东软集团面试题汇总

1.hbase有什么特点，他的优缺点：海量存储，列式存储，高并发，稀疏（列的灵活性，列族中可以指定任意多的列，在列数据为空的情况下，是不会占用存储空间的），高可用（WAL解决高可用，瞬间写入量）2.单

一生所爱の赫萝阅读 965 标签: 大数据 hadoop
大数据组件技术面试

hadoop框架1.hdfs的读写基本不问,但是还是要知道2.mapjoin的原理3.hadoop的shuffle原理也没问,也要知道4.你在工作中的hadoop的小文件处理,结合项目进行说明5.ha

九公里浅绿阅读 1021 标签: 大数据 hadoop
阿里面试题汇总

一面1.hive数据倾斜有哪几种？举例说明2.数据采集方式是什么？3.数仓是如何分层的？4.数据应用层对外使用的话，是通过什么方式去使用的？5.数据应用程序指标的设计过程是怎样的？6.能举例说下进行过

田井中律阅读 916
贝贝公司面试题汇总

1.spark sql和hive sql的区别2.从原始数据层获取数据，数据丢失的情况有没有遇到过？3.kafka消息丢失，如何发现这些问题以及如何处理？4.项目中用到的kafka的topic，以及一

田井中律阅读 852