本週新聞較少,來看看吧!
(1)一推出震憾世界!DeepSeek 是什麼,為何引爆「低成本 AI 革命」(原文點此)
DeepSeek宣布推出基於DeepSeek-V3版本,引入chain-of-thought推理過程的LLM(大型語言模型)DeepSeek-R1,使用費用約目前主要競爭對手的0.1倍左右。
編按:
[a]DeepSeek是間位於中國杭州的新創公司,母公司是中國避險基金幻方量化。
[b]DeepSeek-V3是使用MoE架構(Mixture of Experts)配合上資料壓縮技巧,大幅降低運算時所需的資源。 MoE架構是把一個大型LLM變成多個專精特定技能的小型LLM;輸入的問題先經過解析後,分給對應的小型LLM處理。 因為不需動用到全部的LLM,所以可以節省運算資源。
[c]DeepSeek-R1是將DeepSeek-V3經過Reinforcement Learning(強化學習)...等過程調整而成。 在Reinforcement Learning的過程中,模型會被反饋輸出結果的優劣評價,使得模型能往輸出好結果方面演進。
[d]DeepSeek的LLM遭到外界懷疑是從OpenAI的ChatGPT經過Distillation(蒸餾)而來。 Distillation是指把大型LLM答案的相關資訊餵給小型LLM,幫助小型LLM習得正確權重;可以想像成老師將能得到正確答案有關的訊息告訴學生,這樣學生就可以加速了解怎樣能得到正確答案。
[e]雖然DeepSeek已大幅降低運算資源的需求,但是外界爆料指出該公司手上擁有上萬片遭管制的Nvidia高算力GPU。
短評:
[a]由於DeepSeek的LLM是開源專案,成果可受外界公評,效能造假的可能性低。
[b]MoE架構並非新鮮事,其他科技巨頭很容易複製,而且他們的算力更高,要弄出性能更好的LLM並非難事。 DeepSeek算是幫所有人測試MoE架構是可以大幅降低運算資源並保持性能,未來可能會有更多公司跟進。
[c]AI所需算力降低可讓使用成本降低,進而促使更多應用使用AI;這麼一來,AI總算力反而可能是上升的。 所以,AI硬體算力需求應該還是能繼續保持成長。
[d]DeepSeek是否違法使用OpenAI的LLM進行Distillation,或是擁有遭管制的Nvidia的高算力GPU靜待後續結果,不影響[a][b]。
留言
張貼留言