作者:小森(南京大學 CS碩士在讀)
部門與崗位:核心本地商業(yè) - 業(yè)務研發(fā)平臺 - 大模型
一面
自我介紹,問實習和論文,問的實習內(nèi)容比較多,主要是和他們做的比較貼近的一個業(yè)務場景,問的也挺深的
除了你用到的 Qwen,還了解其他的大模型嗎?說一下 LLaMA 的結(jié)構(gòu)吧,它在結(jié)構(gòu)和訓練上都做了哪些貢獻
了解大模型的位置編碼嗎?說一說 RoPE 的原理,為什么現(xiàn)在 RoPE 更受大家的歡迎?還了解其他的位置編碼嗎
DeepSeek 有了解嗎,DeepSeek 用到的 MLA 注意力是怎么做的?它可以直接用 RoPE 嗎?為什么不能,它做了哪些優(yōu)化
剛剛提到 MLA,那 MLA 是怎么對 KV Cache 做優(yōu)化的
說一說大模型后訓練的流程
代碼:25. K 個一組翻轉(zhuǎn)鏈表
一面考察八股比較多,主要在幾個比較經(jīng)典的大模型,LLaMA、Qwen 以及 DeepSeek,難度不算大。但是代碼題比較難(竟然出 hard……
二面
自我介紹和講論文講實習,和一面類似,也是比較關(guān)注具體業(yè)務場景下做的工作,對論文的討論并不多
串了一下 Qwen,主要是發(fā)布的這幾版模型,都做了哪些貢獻,包括數(shù)據(jù)、模型和訓練這幾個方面,不過問的不深
Qwen 是怎么做長度外推的
了解大模型的解碼策略嗎,簡要說一說吧
代碼:199. 二叉樹的右視圖
聊天環(huán)節(jié),職業(yè)規(guī)劃等
二面整體來說比較輕松,問的不深入,比較泛,主要還是看對大模型的了解的多少
總結(jié)
美團就進行了兩輪技術(shù)面,并且難度都不大。后來談薪的時候才知道,原來我是個大白菜,怪不得面試的這么輕松,果斷放棄了
@AI行業(yè)洞察

熱門跟貼