一面
1.hive数据倾斜有哪几种?举例说明
2.数据采集方式是什么?
3.数仓是如何分层的?
4.数据应用层对外使用的话,是通过什么方式去使用的?
5.数据应用程序指标的设计过程是怎样的?
6.能举例说下进行过深加工的指标设计流程吗?
7.指标的设计有参与过吗,通过什么方法去分析数据,从而确定指标的口径?
8.hivesql行转列和列转行
9.hadoop的读写原理
10.hivesql的解析过程
11.hive执行流程
12.hive自定义函数是怎样的?
13.有一张事实表,有一张维度表,我现在想创建一张宽表,通过选择表的一些字段去自动生成sql脚本,有没有尝试这样的方法?
14.用户漏斗转化的过程了解吗?
二面
1.怎样保证数据仓库的数据准确性,数据稳定性,什么方法可以监测数据是否准确?
2.谈谈你对数仓的理解
3.数据仓库从0到1怎么建设
4.针对数据应用层各种统计口径,数据服务层怎么设计?
5.项目中有没有建设指标系统
6.spark数据倾斜有哪几类?
7.spark的shuffle过程?
8.日志数据的收集形式是怎样的?
9.数据质量监控用的是什么工具?
10.数仓的数据模型有哪几种?
三面
1.已知的实时架构有哪些?
2.你对数仓的理解,从0到1建设数仓的过程
3.主要从哪些方面去做数据质量检测?
4.数据质量的精确性方面能举例说明吗?
5.数仓中的数据唯一性怎么校验?
6.数仓中的元数据管理,管理的是什么形式的数据?
7.数仓进行数据监测,有什么措施?
8.范式模型和星型模型的各自优缺点是什么?
9.有这样一个场景,一张表中有三个字段,学生id,班级编号,学生的语文成绩,如何求出每个班级的学生语文成绩的平均分,平均分的计算去除最低分和最高分,用一条sql计算。
总结:阿里面试下来,总的来说主要是离线数仓更多,我主要准备的也是离线数仓这些,也期待你有一些工程化的经验,所以还算顺利,到了第三面问一些实时数仓相关的,就说不了解了,还算比较顺利通过。