阿里面试题汇总

阅读 314

一面

1.hive数据倾斜有哪几种?举例说明

2.数据采集方式是什么?

3.数仓是如何分层的?

4.数据应用层对外使用的话,是通过什么方式去使用的?

5.数据应用程序指标的设计过程是怎样的?

6.能举例说下进行过深加工的指标设计流程吗?

7.指标的设计有参与过吗,通过什么方法去分析数据,从而确定指标的口径?

8.hivesql行转列和列转行

9.hadoop的读写原理

10.hivesql的解析过程

11.hive执行流程

12.hive自定义函数是怎样的?

13.有一张事实表,有一张维度表,我现在想创建一张宽表,通过选择表的一些字段去自动生成sql脚本,有没有尝试这样的方法?

14.用户漏斗转化的过程了解吗?


二面

1.怎样保证数据仓库的数据准确性,数据稳定性,什么方法可以监测数据是否准确?

2.谈谈你对数仓的理解

3.数据仓库从0到1怎么建设

4.针对数据应用层各种统计口径,数据服务层怎么设计?

5.项目中有没有建设指标系统

6.spark数据倾斜有哪几类?

7.spark的shuffle过程?

8.日志数据的收集形式是怎样的?

9.数据质量监控用的是什么工具?

10.数仓的数据模型有哪几种?


三面

1.已知的实时架构有哪些?

2.你对数仓的理解,从0到1建设数仓的过程

3.主要从哪些方面去做数据质量检测?

4.数据质量的精确性方面能举例说明吗?

5.数仓中的数据唯一性怎么校验?

6.数仓中的元数据管理,管理的是什么形式的数据?

7.数仓进行数据监测,有什么措施?

8.范式模型和星型模型的各自优缺点是什么?

9.有这样一个场景,一张表中有三个字段,学生id,班级编号,学生的语文成绩,如何求出每个班级的学生语文成绩的平均分,平均分的计算去除最低分和最高分,用一条sql计算。

总结:阿里面试下来,总的来说主要是离线数仓更多,我主要准备的也是离线数仓这些,也期待你有一些工程化的经验,所以还算顺利,到了第三面问一些实时数仓相关的,就说不了解了,还算比较顺利通过。

文章来源:网络 版权归原作者所有,如涉及知识产权问题,请权利人联系我们,我们将立即处理.
标签:
田井中律
文章 96 获得 0个赞 共 0个粉丝

推荐阅读 更多精彩内容

  • 学习编程语言,早已不是学一点语法规则那么简单。现在更习惯称作选择 Ecosystem(生态圈),而这其中标准库的作用和分量尤为明显。在Go语言的安装文件里包含了一些可以直接使用的包,即标准库。Go语言
    顾你木偶 顾你木偶 阅读 524 标签: go  
  • 根据 Go 开发团队和基本的算法测试,Go语言与C语言的性能差距大概在 10%~20% 之间。虽然没有官方的性能标准,但是与其它各个语言相比已经拥有非常出色的表现。时下流行的语言大都是运行在虚拟机上,
    顾你木偶 顾你木偶 阅读 458
  • 在早期 CPU 都是以单核的形式顺序执行机器指令。Go语言的祖先C语言正是这种顺序编程语言的代表。顺序编程语言中的顺序是指:所有的指令都是以串行的方式执行,在相同的时刻有且仅有一个 CPU 在顺序执行
    顾你木偶 顾你木偶 阅读 567 标签: go  
  • Go语言也称为 Golang,是由 Google 公司开发的一种静态强类型、编译型、并发型、并具有垃圾回收功能的编程语言。接下来从几个方面来具体介绍一下Go语言的特性。语法简单抛开语法样式不谈,单就类
    顾你木偶 顾你木偶 阅读 678 标签: go  
  • Go语言(或 Golang)起源于 2007 年,并在 2009 年正式对外发布。Go 是非常年轻的一门语言,它的主要目标是“兼具 Python等动态语言的开发速度和 C/C++等编译型语言的性能与安
    顾你木偶 顾你木偶 阅读 716 标签: go  
  • 1.介绍项目:完整的2.zookeeper:zkServer,使用过这在内部删除东西?不明白他想问啥?3.zookeeper的反压:4.DAG:DAGscheduler,taskscheduler,t
    上杉夏香 上杉夏香 阅读 284 标签: 大数据  hadoop  storm  
  • 1.hbase有什么特点,他的优缺点:海量存储,列式存储,高并发,稀疏(列的灵活性,列族中可以指定任意多的列,在列数据为空的情况下,是不会占用存储空间的),高可用(WAL解决高可用,瞬间写入量)2.单
    一生所爱の赫萝 一生所爱の赫萝 阅读 292 标签: 大数据  hadoop  
  • hadoop框架1.hdfs的读写基本不问,但是还是要知道2.mapjoin的原理3.hadoop的shuffle原理也没问,也要知道4.你在工作中的hadoop的小文件处理,结合项目进行说明5.ha
    九公里浅绿 九公里浅绿 阅读 422 标签: 大数据  hadoop  
  • 一面1.hive数据倾斜有哪几种?举例说明2.数据采集方式是什么?3.数仓是如何分层的?4.数据应用层对外使用的话,是通过什么方式去使用的?5.数据应用程序指标的设计过程是怎样的?6.能举例说下进行过
    田井中律 田井中律 阅读 315
  • 1.spark sql和hive sql的区别2.从原始数据层获取数据,数据丢失的情况有没有遇到过?3.kafka消息丢失,如何发现这些问题以及如何处理?4.项目中用到的kafka的topic,以及一
    田井中律 田井中律 阅读 294