字節跳動 NLP 算法面試題整理

大家好,這裏是面經醬~

今天來幫大家梳理網上公開面經中提到的阿里 NLP 算法崗相關面試題,歡迎在 面經醬 (www.mjj666.cn) 搜索最新面經,有其他公司、崗位的面經梳理需求請留言哦~

編程 & 數學基礎

  1. 【高頻】Topk

  2. 三叉樹遍歷

  3. 求一個大於等於輸入的正整數的最小降序序列

  4. 快排

  5. 提取有效的 ip 地址

  6. 【高頻】貪心和 DP 的區別

  7. 給定 x 種硬幣,湊齊 y 元

  8. 給 100 億個數據,找到中位數

  9. 有序含重複值數組找某個值第一次出現的位置

  10. 最長重複子序列

  11. DP 的一般做法流程

  12. 海量商家和海量語料,語料不平衡,語料對商家 group by 後按照時間排序

  13. 全排列

  14. 概率題:甲乙扔骰子,獲勝概率相同,投 10 次,已經 5 次了,甲已經贏了 3 次,問甲獲勝概率

  15. 概率題,三個硬幣,一個硬幣兩面人頭,一個硬幣一面人頭一面數字,一個硬幣兩面數字,問隨機拿去一個硬幣,其中人頭向上,問另一面人頭也向上概率

  16. 智力題:倒水問題

  17. Python 垃圾回收

  18. Python 列表合併

  19. Linux 多個進程如何通信

  20. 進程和線程區別

  21. Linux debug

項目深度

  1. 文本生成評估指標,BLUE 的缺點

  2. 爲什麼使用 lightGBM,比起 xgboost 的優點是什麼

  3. 【高頻】樣本不均衡

  4. 長文本的處理

  5. 引入詞向量的相似性對於結果有什麼不好的影響

  6. 如何引入知識圖譜

  7. 詞向量中很稀疏和出現未登錄詞,如何處理

  8. 解碼策略

  9. 爲什麼要用深度學習,不用傳統方法

  10. kmeans 的 k 怎麼選擇

  11. 新詞發現怎麼做

基礎知識

  1. HMM

  2. FM

  3. Wide&Deep

  4. 【高頻】預訓練模型:Transformer、BERT、UniLM 等模型細節(時間複雜度)、優缺點

  5. 語言模型的公式

  6. Self-attention 和 attention 的區別

  7. transformer 爲什麼用 + 不用 concat

  8. Attention、Mask 的使用

  9. 位置編碼

  10. Seq2seq 結構

  11. BN、LN 區別,在 inference 時如何處理

  12. 手撕 LSTM

  13. Word Piece

  14. 線性和非線性之間的關係

  15. DSSM 以及改進

  16. 樹模型和深度學習的區別

  17. 【高頻】梯度爆炸怎麼解決

  18. 最小二乘法的推導、本質,和極大似然的關係

  19. 對 epcho 做 shuffle,類似於一種優化器

  20. 優化器,什麼情況下不適用動量優化器

  21. 【高頻】防止過擬合的方法

  22. 【高頻】決策樹和 GBDT 區別

  23. 交叉熵的損失函數

  24. GDBT 如何抑制樹的不斷增長

  25. xgboost 如何做分類

  26. mse 和交叉熵的區別

  27. lr 模型:如何做特徵交叉、緩解過擬合、和 svm 的區別

  28. Sigmoid、Tanh 函數與導數

  29. Sigmoid 和 ReLU 的區別

  30. 【高頻】Dropout 作用、原理、實現

  31. PCA 原理及涉及的公式

  32. L1,L2 正則化

  33. LSTM 和 RNN 的結構、解決的問題

  34. sigmoid 當數據太大的時候不敏感怎麼辦

  35. bagging、boosting

  36. 熵的定義、公式

  37. cnn 的卷積計算,參數計算

開放題

  1. 若有個電子病歷數據,能識別多少種類型的實體

  2. 如何根據商品評論,生成商品的描述

  3. 文本生成:一對多訓練如何訓練

  4. 文本匹配常見架構

  5. 因果詞向量的應用場景

  6. 項目初期,10w 短文本,如何用無監督做分類

  7. 減輕特徵工程的手段

  8. 【高頻】平時逛過哪些有關 NLP 的論壇

  9. 說幾個兩年之內的前沿技術

  10. 導師覺得你最大的優點和缺點

  11. 想做一個什麼樣的人

  12. 對阿里的理解

  13. 研究生最大的收穫

  14. 舉一個例子說明遇到的最大的困難

  15. 介紹你做的最好的一篇論文以及創新點

  16. 當碰到難題時,團隊士氣低落的時候,作爲團隊的一員,該怎麼做

  17. 對推薦系統理解

  18. 【高頻】研究生期間的研究方向

參考資料

  1. NLP 面試覆盤 | 阿里 / 騰訊 / 頭條 / paypal / 快手: https://blog.csdn.net/abcdefg90876/article/details/107398761

  2. 【面試通關篇】NLP 面經集結 | 達摩院、騰訊、微軟、美團、百度: https://blog.csdn.net/hecongqing/article/details/106010267

  3. 暑期實習面經 (NLP 方向) 達摩院、騰訊、微軟、美團、百度: http://www.baidu.com/link?url=gYEOOVPm9H1wSuDYt49LzT4EPN9aKmw4KlXM4cS6qf7VzIT2mkypYxSAErez9r6NXntdoS5jj17TfMmxvGwS8nrqQBn5rBu6Hn1VFkaNALW

  4. 阿里面經 - 達摩院自然語言處理實習生 (已拿到意向書): https://blog.csdn.net/weixin_42018581/article/details/106376403

  5. NLP 實習面試經歷 (小米、去哪兒、美團、三角獸、愛奇藝、阿里): https://blog.csdn.net/wqy20140101/article/details/88092741

  6. 阿里 NLP 三面涼經: https://www.nowcoder.com/discuss/180499

  7. 阿里面經 - 達摩院自然語言處理實習生(已拿到意向書): https://www.nowcoder.com/discuss/432536

  8. 阿里達摩院 NLP 面經: https://www.nowcoder.com/discuss/424692

  9. 阿里達摩院 NLP 二面涼經: https://www.nowcoder.com/discuss/402085

  10. 暑期實習面經(NLP 方向)達摩院、騰訊、微軟、美團、百度精: https://www.nowcoder.com/discuss/414566

  11. 阿里國際事業部 NLP 算法面經: https://www.nowcoder.com/discuss/89133

  12. 阿里自然語言處理崗線上面經: https://www.nowcoder.com/discuss/226159

  13. 阿里巴巴面經 - NLP: https://www.nowcoder.com/discuss/279013

  14. 3.26 阿里健康 NLP 暑期實習崗一面: https://www.nowcoder.com/discuss/625107

  15. 騰訊 / 阿里 / 攜程 詳細 NLP 算法實習面經: https://www.nowcoder.com/discuss/639224

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/ypHlJLG6HsTZckuLeQA-Ew