2025.02.01一週科技新聞集錦:中國AI新創DeepSeek推出「DeepSeek-R1」AI模型，成本僅競爭對手0.1倍，引發熱議 ~ 建蛋的科技新聞

本週新聞較少，來看看吧！
(1)一推出震憾世界！DeepSeek 是什麼，為何引爆「低成本 AI 革命」(原文點此)
DeepSeek宣布推出基於DeepSeek-V3版本，引入chain-of-thought推理過程的LLM(大型語言模型)DeepSeek-R1，使用費用約目前主要競爭對手的0.1倍左右。
編按:
[a]DeepSeek是間位於中國杭州的新創公司，母公司是中國避險基金幻方量化。
[b]DeepSeek-V3是使用MoE架構(Mixture of Experts)配合上資料壓縮技巧，大幅降低運算時所需的資源。 MoE架構是把一個大型LLM變成多個專精特定技能的小型LLM；輸入的問題先經過解析後，分給對應的小型LLM處理。因為不需動用到全部的LLM，所以可以節省運算資源。
[c]DeepSeek-R1是將DeepSeek-V3經過Reinforcement Learning(強化學習)...等過程調整而成。在Reinforcement Learning的過程中，模型會被反饋輸出結果的優劣評價，使得模型能往輸出好結果方面演進。
[d]DeepSeek的LLM遭到外界懷疑是從OpenAI的ChatGPT經過Distillation(蒸餾)而來。 Distillation是指把大型LLM答案的相關資訊餵給小型LLM，幫助小型LLM習得正確權重；可以想像成老師將能得到正確答案有關的訊息告訴學生，這樣學生就可以加速了解怎樣能得到正確答案。
[e]雖然DeepSeek已大幅降低運算資源的需求，但是外界爆料指出該公司手上擁有上萬片遭管制的Nvidia高算力GPU。
短評:
[a]由於DeepSeek的LLM是開源專案，成果可受外界公評，效能造假的可能性低。
[b]MoE架構並非新鮮事，其他科技巨頭很容易複製，而且他們的算力更高，要弄出性能更好的LLM並非難事。 DeepSeek算是幫所有人測試MoE架構是可以大幅降低運算資源並保持性能，未來可能會有更多公司跟進。
[c]AI所需算力降低可讓使用成本降低，進而促使更多應用使用AI；這麼一來，AI總算力反而可能是上升的。所以，AI硬體算力需求應該還是能繼續保持成長。
[d]DeepSeek是否違法使用OpenAI的LLM進行Distillation，或是擁有遭管制的Nvidia的高算力GPU靜待後續結果，不影響[a][b]。

建蛋的科技新聞

2025.02.01一週科技新聞集錦:中國AI新創DeepSeek推出「DeepSeek-R1」AI模型，成本僅競爭對手0.1倍，引發熱議

留言

張貼留言

Search

總網頁瀏覽量

Follow me

Menu items