1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        2020最新互聯(lián)網(wǎng)大數(shù)據(jù)面試題

        共 1747字,需瀏覽 4分鐘

         ·

        2020-10-07 07:08


        百度:

        1. 操作系統(tǒng)網(wǎng)絡(luò)通信序列化問(wèn)題

        2. WordCount多線程,按行讀取,統(tǒng)計(jì)每一行單詞的個(gè)數(shù)和,最后統(tǒng)計(jì)總共的單詞出現(xiàn)的次數(shù)(wordcount),多線程實(shí)現(xiàn)

        3. mapreduce的shuffle過(guò)程詳細(xì)

        4. Mapreduce計(jì)算過(guò)程中的序列化問(wèn)題,數(shù)據(jù)傾斜問(wèn)題

        5. Redis,HBase,MongoDB各個(gè)數(shù)據(jù)庫(kù)之間的區(qū)別

        6. 二叉樹(shù)按層打印并輸出層數(shù),非遞歸

        7. 兩個(gè)10億url的文件,找重復(fù)url

        8. 一個(gè)百億大文件,top10查找

        9. spark Shuffle,MR shuffle,兩個(gè)框架shuffle異同

        10. Spark內(nèi)存模型,內(nèi)存管理怎么做的

        11. 三次握手四次斷開(kāi)原理

        滴滴:

        1. 兩個(gè)有序數(shù)組合并為一個(gè)有序數(shù)組

        2. 快慢指針判斷鏈表是否有環(huán)

        3. spark shuffle

        4. Kafka為什么快,怎么保證數(shù)據(jù)一致性和高可用性

        5. Kafka的二分查找是普通的二分查找嗎?為什么不是,那是什么樣的

        6. hbase rowkey設(shè)計(jì)原理

        7. hbase ,hadoop讀寫(xiě)流程

        8. Yarn資源調(diào)度策略和調(diào)度流程

        9. Hive優(yōu)化常用的有哪些,數(shù)據(jù)量特別的兩張表join思路

        10. N層子查詢和join的SQL優(yōu)化有哪些思路

        11. Hive內(nèi)部表和外部表的區(qū)別

        12. Coding:盛水最多的容器,兩數(shù)之和

        伴魚(yú):

        1. 二分查找—口述

        2. HBase散列性怎么保證,rowkey的設(shè)計(jì),和創(chuàng)建表的方式

        3. Yarn優(yōu)化做了什么

        轉(zhuǎn)轉(zhuǎn)

        1. HDFS的namenode功能介紹和journalnode的作用

        2. YARN調(diào)優(yōu)的相關(guān)問(wèn)題

        3. Spark 檢查點(diǎn)機(jī)制怎么做的,怎么實(shí)現(xiàn)的

        4. MR和spark的shuffle詳細(xì)講解

        5. groupByKey和reduceByKey的區(qū)別

        6. spark怎么精準(zhǔn)消費(fèi)一次kafka

        7. Kafka高速率的原因

        騰訊:

        1. 日活,月活,回流統(tǒng)計(jì)

        2. spark精準(zhǔn)一次消費(fèi)kafka怎么做

        3. flink精準(zhǔn)一次消費(fèi)kafka怎么做

        4. Hdfs讀寫(xiě)流程,快照原理,三備份和EC的區(qū)別

        5. hdfs中Crc校驗(yàn)是什么

        6. Spark 序列化,廣播變量,累加器基本原理和實(shí)現(xiàn)

        7. spark內(nèi)存模型

        8. 數(shù)倉(cāng)基本理論,各層都是做什么的,怎么設(shè)計(jì)的

        9. Hadoop源碼MR中partiton是怎么獲取的

        螞蟻金服:

        1. K個(gè)有序鏈表合并為一個(gè)有序鏈表

        2. 二分查找

        3. 非遞歸二叉樹(shù)遍歷

        4. spark groupByKey和reduceByKey區(qū)別

        5. spark內(nèi)存模型


        觸寶:

        1:大數(shù)據(jù)常用組件,每個(gè)組件具體運(yùn)用和整體架構(gòu)設(shè)計(jì)

        2:了解數(shù)據(jù)倉(cāng)庫(kù)嗎?數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu),解釋下數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖,數(shù)據(jù)中臺(tái)的區(qū)別?

        3:小白去大潤(rùn)發(fā)超市買(mǎi)了一瓶92的拉菲? 哪些是緯度 哪些是指標(biāo),怎么設(shè)計(jì)數(shù)據(jù)模型

        4:Kafka怎么保證數(shù)據(jù)不丟失?

        ? producer 生產(chǎn)端是如何保證數(shù)據(jù)不丟失的,broker端是如何保證數(shù)據(jù)不丟失的,會(huì)做。

        5:HashMap的理解,問(wèn)題為什么Map桶中個(gè)數(shù)超過(guò)8個(gè)才轉(zhuǎn)為紅黑樹(shù)?

        6:10億數(shù)據(jù)和10億數(shù)據(jù)做join 怎么優(yōu)化

        7:count(1) sum(A) 是如何做shuff的?

        8:SELECT a.uid,b.name,SUM(1) as user1?

        FROM user_log? a

        JOIN user b ON? a.uid = b.uid

        WHERE a.os = '1'

        GROUP BY a.uid,b.name spark的過(guò)程


        --------? ?往 期 推 薦??----------

        ? ??

        瀏覽 59
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            高潮喷水在线观看 | 五月天色婷婷丁香社区欧美网址 | 国产成人精品视频A片西瓜视频 | 国产欧美一区二区三区在线看蜜臀 | 久久精品视频在线播放 | 国产色图片 | 91久久国产露脸精品国产吴梦梦 | 久久久久久久高潮 | 啊灬啊灬啊灬快灬高潮校花 | 西西裸体视频 |