阿里面试题汇总

田井中律

2022-02-13 10:53:46 阅读 917

一面

1.hive数据倾斜有哪几种？举例说明

2.数据采集方式是什么？

3.数仓是如何分层的？

4.数据应用层对外使用的话，是通过什么方式去使用的？

5.数据应用程序指标的设计过程是怎样的？

6.能举例说下进行过深加工的指标设计流程吗？

7.指标的设计有参与过吗，通过什么方法去分析数据，从而确定指标的口径？

8.hivesql行转列和列转行

9.hadoop的读写原理

10.hivesql的解析过程

11.hive执行流程

12.hive自定义函数是怎样的？

13.有一张事实表，有一张维度表，我现在想创建一张宽表，通过选择表的一些字段去自动生成sql脚本，有没有尝试这样的方法？

14.用户漏斗转化的过程了解吗？

二面

1.怎样保证数据仓库的数据准确性，数据稳定性，什么方法可以监测数据是否准确？

2.谈谈你对数仓的理解

3.数据仓库从0到1怎么建设

4.针对数据应用层各种统计口径，数据服务层怎么设计？

5.项目中有没有建设指标系统

6.spark数据倾斜有哪几类？

7.spark的shuffle过程？

8.日志数据的收集形式是怎样的？

9.数据质量监控用的是什么工具？

10.数仓的数据模型有哪几种？

三面

1.已知的实时架构有哪些？

2.你对数仓的理解，从0到1建设数仓的过程

3.主要从哪些方面去做数据质量检测？

4.数据质量的精确性方面能举例说明吗？

5.数仓中的数据唯一性怎么校验？

6.数仓中的元数据管理，管理的是什么形式的数据？

7.数仓进行数据监测，有什么措施？

8.范式模型和星型模型的各自优缺点是什么？

9.有这样一个场景，一张表中有三个字段，学生id，班级编号，学生的语文成绩，如何求出每个班级的学生语文成绩的平均分，平均分的计算去除最低分和最高分，用一条sql计算。

总结：阿里面试下来，总的来说主要是离线数仓更多，我主要准备的也是离线数仓这些，也期待你有一些工程化的经验，所以还算顺利，到了第三面问一些实时数仓相关的，就说不了解了，还算比较顺利通过。

文章来源：网络版权归原作者所有,如涉及知识产权问题，请权利人联系我们，我们将立即处理.

标签:

田井中律

文章 96 获得 0个赞共 0个粉丝