專訪:DeepSeek為何能在AI大模型中脫穎而出
德國之聲:DeepSeek被不少人稱為“神秘的東方力量”。其原因之一在於性能比肩GPT-4o的DeepSeek-V3,據其自稱訓練成本不到GPT-4o的1/20。也有人質疑其真實成本是否更多?您認為用如此低的成本訓練出頂級的模型有可能嗎?
肖涵博士:我認為完全有可能。首先這並不包含試錯成本的,也就是“炮灰成本”。只計算這一次成功花了五百多萬。其次大模型本身的訓練技巧,隨著時間變化,發生了很多演進和升級。像OpenAI這種頂尖公司,發布一項產品需要打磨很久,成品出來可以從發布日期向前倒退3、4個月,而DeepSeek本身不需要做太多PR相關的宣傳,准備大概一個月左右,所以這兩個模型之間差了有小半年,在這個時間差裡,模型的發展是非常迅速的。不管從數學上還是深度學習上會出現很多新知識使得模型訓練更有效。而且就我所知,DeepSeek在2023年就開始做一些非常底層的技術優化,再加上整個開源社區,在過去兩三年之內,會有很多新的一些技巧,使得成本會降得非常低。
德國之聲:您剛才提到開源社區, DeepSeek便宜又好用,有人認為它的成功不僅是技術層面,更是對開源精神的徹底踐行,您認為就開源與閉源而言,開源會是未來趨勢所在嗎?
我覺得就AI模型而言,未來價格肯定是越來越便宜,這在未來會象是水電煤氣一樣,成為通用的基礎設施。好比我們現在不會在每個月為上網花多少錢糾結一樣。但便宜是有代價的。因為就很多初創公司而言,它無法支付這麼高的運營成本。DeepSee之前積攢了非常多的GPU,它現在把這部分算力一下釋放出來,肯定會對市場造成沖擊。而開源本身,和價格以及商業化之間是一個非常復雜的關系。有人非常討厭開源——比如早期的比爾蓋茨。他曾經非常討厭Linux,因為他覺得Linux開源免費,沒有人願意用Windows了。所以這兩天我們看到Altman(OpenAI CEO)和Amodei(Anthropic CEO)反應非常激烈,因為覺得DeepSeek這種低價策略加上開源,導致他們的客戶流失非常嚴重。
德國之聲:所以主要還是商業利益上的沖突,從DeepSeek來說,這可能是個很好的戰略?
從DeepSeek角度來說,把模型開源確實是一個非常好的戰略,但得看它之後是不是堅持開源,如果堅持開源就是戰略,假如只開源這一次,就是一個戰術。為什麼說是很好的戰略呢?因為西方對中國模型本身並不放心,他覺得模型內部訓練時就有了價值觀偏見。因為生成類AI的輸出風格和他的訓練樣本非常相關。大家都知道中國互聯網基本處於一個封閉狀態,西方人會對“模型自帶的意識形態”產生害怕心理。而選擇開源的話,就相當你把我模型的數據(不是訓練模型的數據)下載下來放到自己的GPU上去跑,包括我們今天看到Amazon和英偉達的雲服務器都支持了DeepSeek模型,就是因為它選擇開源模式。部署到本機內部,西方也無所謂什麼顧慮,不管什麼價值觀輸出,至少不存在信息傳回中國政府這種。
德國之聲:您剛剛說到西方的顧慮,正好有一則新聞,意大利宣布暫時禁用DeepSeek,理由是就數據保護給出的信息不充分。不少國家監管機構也開始對DeepSeek數據保護漏洞行調查。數據保護問題是對使用AI模型的普遍憂慮嗎?
首先意大利並不只是針對DeepSeek,它當年也針對OpenAI,以及Google。但我覺得歐洲對於發展AI和個人隱私保護這兩者沒有捋得很清楚。這兩者肯定要有一先一後,幾乎不可能同時解決。這也是為什麼歐洲之所以今天在AI方面比較落後,它把這兩個矛盾沒有理清楚。在這一領域中美走得比較前面就是因為大家在數據保護上相對還是“睜一只眼閉一只眼”。比如我曾在三藩市參加一個聚會,有個小游戲要求一小時內寫一個小程序:掃描人臉——生成一條pick up line (搭訕)原理是:用掃描得到的人臉匹配Linkin個人信息再輸入GPT生成。我在歐洲呆久了,想,這app侵犯人隱私權不得完蛋啊,結果底下美國人一片歡呼。所以這可能還是文化不同。
德國之聲:說到中美在AI領域走在前列。有人比喻美國主要做從0到1,也就是技術創新,中國人是做從1到10,應用創新。這次DeepSeek成功,有人認為仍然只是應用層面的提高,沒有技術創新,但也有人認為DeepSeek已經出現根本性突破。您認為有技術層面的創新嗎?
根本突破不存在。DeepSeek肯定是從1到10,因為是OpenAI先做出來,這點毋庸置疑。DeepSeek是在它之後做出來,但在工程上把成本壓得非常低。並且我覺得在這個問題上,我認為在過去二三十年中美發展以及世界經濟發展都離不開中美非常明確的分工 – 美國負責0到1,中國1到10,明確分工之下,世界才能和平發展,經濟穩定向前,如果其中哪一方覺得“不公平,我也想做0到1,或者美國說“憑什麼1到10都是你”,比如我要把美國工廠都遷回來,這就有矛盾了是不是?一旦矛盾出現,分工開始出現糾纏,大家都開始想著利益重新劃分。
德國之聲:所以DeepSeek是站在前人0到1的基礎上,比如思維鏈這種,他不是第一個提出來,但是它挖得比較深。
對,它有勇氣去深入挖掘,這本身和DeepSeek的公司背景有關系。這是一個量化公司,做量化交易,和普通公司最大的不同,他們在“玩錢”,“玩槓桿”,是非常危險的事,從這種角度,做量化交易的人往往更腳踏實地,不會道聽途說哪種算法好就拿來用,即使是Google,OpenAI發明的算法,它也會做非常非常多的修改。相反很多AI公司他們多是互聯網所謂”大廠“思維 – 想著怎麼用產品經理的思維把產品做大,然後去marketing,去PR。產品本身如何在其次,至少用廣告打造、宣傳讓大家認為產品有前途。量化交易不是這種思維。所以這一點上也是DeepSeek區別於其他中國AI公司的地方。並且我覺得這次DeepSeek也是給中美一些非常愛玩廣告噱頭的AI公司的一個提醒,更關注的應該是把最有效的資源投入到解決最難的問題上。
德國之聲:這次DeepSeek震撼硅谷AI巨頭,震撼芯片交易市場,有人問,中國在AI領域要趕超美國了嗎?
我覺得差距肯定會越來越小,主要取決於兩點。第一點中國對於AI模型的監管是不是還是像現在這樣睜一只眼閉一只眼。比如政府肯定知道 ,比如這個模型在被提問時可能是會說出“天安門事件“這種敏感信息(外文語言模式,或者模型脫機使用,編者按),但它選擇不作為,我認為這是正確的,應該選擇不作為。模型層面不應該有審核,大模型提供商不應該被審核。審核的應該是下游做應用的層面。假設有一天中國政府說要對模型層面進行審核,那對AI的發展肯定會是一個非常不好的信號。第二點是能不能有更多初創公司進入這個賽道,投入到模型訓練這個紅海(競爭殘酷、激烈的市場)中。幾年下來不少AI初創都淡出了,如果之後因為價格戰內卷到比如只剩下DeepSeek和通義千問,這對於AI模型發展其實是不好的。
德國之聲:說到AI市場競爭,微軟和OpenAI聲稱DeepSeek蒸餾自己的模型來對其模型進行訓練,有人說這是無法避免的,您覺得這算“知識竊取“嗎?
OpenAI o1思維鏈並沒有公開,但DeepSeek的思維鏈是很清楚的,從它的“深度思考”模式你可以看到。OpenAI在比較模型時可能會覺得存在自己“被逆向工程”了的可能。但逆向工程這個東西在整個技術發展來講就是無法避免的。德國汽車都被逆向工程了多少回了嘛。我覺得這個東西用平常心對待就完了。就相當於發你一個律師函,就是給你點壓力。
肖涵,德國慕尼黑工業大學獲得計算機科學博士。Jina AI 創始人兼 CEO 。德中人工智能協會創始人兼主席 。
德國之聲致力於為您提供客觀中立的新聞報導,以及展現多種角度的評論分析。文中評論及分析僅代表作者或專家個人立場。
© 2025年 德國之聲版權聲明:本文所有內容受到著作權法保護,如無德國之聲特別授權,不得擅自使用。任何不當行為都將導致追償,並受到刑事追究。
作者: 德才