從技術角度分析 Cerebras 的市場應用

Louis
6 min readOct 10, 2024

--

共同作者: Louis, Jerry, Owens

Cerebras 前一陣子向 SEC 申請 IPO 上市 (S-1 Form),雖然目前 (2024/10/09) 被美國投審會 CFIUS 暫時擋下來,但是 AI 模型推理確實是接下來幾年兵家必爭的市場。究竟申請 Cerebras IPO 上市是要籌資拼成長呢,還是要割韭菜?請看本文的分析:

硬體規格

Cerebras 最有名的特色就是把一整片 12 吋晶圓 (wafer),當成一顆晶片 (chip/die) 來用。把圓形切成正方形 (46225 mm²) 就直接上了!

SRAM 記憶體

最關鍵的數字就是: 44GB on-chip SRAM,這個對等於 NVIDIA 的 HBM ,不過因為是 on-chip ,可以放在計算單元旁邊,速度是快很多的。不過理論上每單位 SRAM 的功耗會比 DDR 高。

另外,它可以撘配 12 ~ 1,200 TB 的 off-chip model memory (沒看到技術細節,推測是 DDR。也沒有提到傳輸介面,應該就是 DDR 使用的 bus)。由於 DDR 的速度比較慢,距離計算單元又很遠 (off-chip),所以資料放在這邊,只會拉垮整體速度,所以設計意義不明,先暫時忽略不計 (也許可以當做 NIC → input data buffer 使用?)。

晶片間通訊

目前從網站找到的資訊, Cerebras 還沒有對標 NVLink 的晶片傳輸,網站上只有 12x 100GE Data Ports 與 64 x CS-3 這樣的字樣,我就合理推論晶片之間不能自主傳輸,都要透過 host 來傳遞,這是很沒有效率的做法 (多次的 copy, long latency)。

合理的推論是:在需要協同多顆晶圓的情況下, Cerebras 沒有 NVLink 的優勢。以 H200 為例: 900GB/s * max 18 links / GPU,對上 Cerebras 的 12x100Gbps (不是 GB/s 喔),大概差了一百倍。

精準度

目前支援 FP32, FP16, BF16, INT4, INT8, FP16 六種精準度,所以可以進行訓練、微調、推理。

製程

Cerebras 使用台積電 5nm 製程。由於晶圓太大,沒有封裝技術可以支援,所以 1. 沒辦法 2.也沒有需要用到 COWOS 。不會受到 COWOS 產能的限制,這應該算是優點吧。

強項與挑戰

效能高 / 低延遲

由於使用 SRAM ,優點就很明顯:產出 token 的速度可以輾壓 GPU,這也表示它的延遲 (latency ,產出第一個 token 的時間) 很低。在一些應用場景 (例如:即時翻譯,即時對話 …) 有很強的競爭力。

良率問題

製程的瑕疵會隨機出現在任何地方。Cerebras 透過冗餘的硬體搭配軟體檢查來解決 (犧牲一些容量)。

功耗

功耗的對比比較複雜,需要實測的數據。

成本

網站上宣稱推理價格只要 GPU 的 1/5 ,由於推廣初期有補貼的可能性,所以無法得知真實的成本。一般來說,SRAM 無論在製造成本或是運行成本,都比 HBM 來得高,長期來說,如果沒有成本優勢,將會不利發展。

Context window 過小

目前 cloud 版本中 Llama 2 只支援 4K context window,這會讓應用受限,例如:閱讀文件做摘要,就會讓品質下降。不確定地端產品有沒有一樣的限制。

SRAM 容量 / 跨晶片通訊

這兩點是最大的罩門,細節請見下一段落。

被 SRAM 侷限的應用場景

由於內建的 SRAM 只有 44GB ,這會侷限住支援的模型大小。底下分以下三種場景 (皆以 Llama 為例,用 70B 當標竿):

訓練

使用 FP16 訓練 Llama 70B 模型,需要 500GB 記憶體。

根據 Cerecras 自己的資料,一共需要 16 張來訓練,以台積電 5nm 報價 USD 25K 計算,一共需要 USD 400K。而且跨晶片訓練,效率就會大幅下降。

使用 H200 (141GB) 來做訓練,只需要 3 張,每張 50K ,一共只需要 USD 150K。H200 便宜 62%,且速度又快。

由此可見,在訓練大模型上,Cerebras 沒有優勢。但是在訓練小模型 (比方說: 3B) 的情況下,Cerebras 的 SRAM 倒是有機會比 GPU 來得快或省錢 (需要實際測試)。

微調

使用 LoRa 等方法針對預訓練模型進行微調,只需要較少的記憶體。但是即使是 70B 的模型,也需要 160GB 的記憶體 (LoRa 16-bit)。同上,Cerebras 在跨晶片訓練時,沒有優勢。

不過在 13B 以下的小模型做微調,就很有機會了,因為模型可以放到一顆晶片上面。但是實際上的效能與成本,還是需要測試才能知道,是否較 GPU 有顯著優勢。

推理

使用最小的 INT4 精準度,Llama 70B 需要 40GB 記憶體,剛好可以放入一顆晶片中。更小的模型也可放進去,甚至可以平行處理更小的模型 (data parallelism)。

但是大於 70B 的模型,就需要跨晶片,效率就會大幅下降。

所以,我們可以預見,在 70B 以下的模型,將是 Cerebras 想要大展身手的市場。

結論

  • Cerebras 的強項 SRAM ,反而成為限制模型大小的緊箍咒。44GB 的大小,只在 Llama 70B 以下的推理市場有競爭力。極可能在高效能與低延遲應用場景有優勢 (例如:即時的語音對話)。
  • 晶片之間的通訊技術 (類比 NVLink),是 Cerebras 未來突破應用場景的關鍵。
  • 在訓練與微調小模型的市場, Cerebras 也許有一博的機會 (需要實際測試)。
  • 不過 NVIDIA / AMD / Intel 也可以做小模型的推理與訓練,CSP (Cloud Service Provider) 站在 fleet management 與 supplychain 的角度,不一定會想採用 Cerebras 這類的解決方案。還需要觀察市場接受度。

參考資料

--

--

Louis

A maker who believes that software can change the world. Love science, engineering and economics. From Taiwan. Living in Bay Area.