從技術角度分析 Cerebras 的市場應用

6 min readOct 10, 2024

共同作者： Louis, Jerry, Owens

Cerebras 前一陣子向 SEC 申請 IPO 上市 (S-1 Form)，雖然目前 (2024/10/09) 被美國投審會 CFIUS 暫時擋下來，但是 AI 模型推理確實是接下來幾年兵家必爭的市場。究竟申請 Cerebras IPO 上市是要籌資拼成長呢，還是要割韭菜？請看本文的分析：

硬體規格

Cerebras 最有名的特色就是把一整片 12 吋晶圓 (wafer)，當成一顆晶片 (chip/die) 來用。把圓形切成正方形 (46225 mm²) 就直接上了！

SRAM 記憶體

最關鍵的數字就是： 44GB on-chip SRAM，這個對等於 NVIDIA 的 HBM ，不過因為是 on-chip ，可以放在計算單元旁邊，速度是快很多的。不過理論上每單位 SRAM 的功耗會比 DDR 高。

另外，它可以撘配 12 ~ 1,200 TB 的 off-chip model memory (沒看到技術細節，推測是 DDR。也沒有提到傳輸介面，應該就是 DDR 使用的 bus)。由於 DDR 的速度比較慢，距離計算單元又很遠 (off-chip)，所以資料放在這邊，只會拉垮整體速度，所以設計意義不明，先暫時忽略不計 (也許可以當做 NIC → input data buffer 使用?)。

晶片間通訊

目前從網站找到的資訊， Cerebras 還沒有對標 NVLink 的晶片傳輸，網站上只有 12x 100GE Data Ports 與 64 x CS-3 這樣的字樣，我就合理推論晶片之間不能自主傳輸，都要透過 host 來傳遞，這是很沒有效率的做法 (多次的 copy, long latency)。

合理的推論是：在需要協同多顆晶圓的情況下， Cerebras 沒有 NVLink 的優勢。以 H200 為例： 900GB/s * max 18 links / GPU，對上 Cerebras 的 12x100Gbps (不是 GB/s 喔)，大概差了一百倍。

精準度

目前支援 FP32, FP16, BF16, INT4, INT8, FP16 六種精準度，所以可以進行訓練、微調、推理。

製程

Cerebras 使用台積電 5nm 製程。由於晶圓太大，沒有封裝技術可以支援，所以 1. 沒辦法 2.也沒有需要用到 COWOS 。不會受到 COWOS 產能的限制，這應該算是優點吧。

強項與挑戰

效能高 / 低延遲

由於使用 SRAM ，優點就很明顯：產出 token 的速度可以輾壓 GPU，這也表示它的延遲 (latency ，產出第一個 token 的時間) 很低。在一些應用場景 (例如：即時翻譯，即時對話 …) 有很強的競爭力。

良率問題

製程的瑕疵會隨機出現在任何地方。Cerebras 透過冗餘的硬體搭配軟體檢查來解決 (犧牲一些容量)。

功耗

功耗的對比比較複雜，需要實測的數據。

成本

網站上宣稱推理價格只要 GPU 的 1/5 ，由於推廣初期有補貼的可能性，所以無法得知真實的成本。一般來說，SRAM 無論在製造成本或是運行成本，都比 HBM 來得高，長期來說，如果沒有成本優勢，將會不利發展。

Context window 過小

目前 cloud 版本中 Llama 2 只支援 4K context window，這會讓應用受限，例如：閱讀文件做摘要，就會讓品質下降。不確定地端產品有沒有一樣的限制。

SRAM 容量 / 跨晶片通訊

這兩點是最大的罩門，細節請見下一段落。

被 SRAM 侷限的應用場景

由於內建的 SRAM 只有 44GB ，這會侷限住支援的模型大小。底下分以下三種場景 (皆以 Llama 為例，用 70B 當標竿)：

訓練

使用 FP16 訓練 Llama 70B 模型，需要 500GB 記憶體。

根據 Cerecras 自己的資料，一共需要 16 張來訓練，以台積電 5nm 報價 USD 25K 計算，一共需要 USD 400K。而且跨晶片訓練，效率就會大幅下降。

使用 H200 (141GB) 來做訓練，只需要 3 張，每張 50K ，一共只需要 USD 150K。H200 便宜 62%，且速度又快。

由此可見，在訓練大模型上，Cerebras 沒有優勢。但是在訓練小模型 (比方說: 3B) 的情況下，Cerebras 的 SRAM 倒是有機會比 GPU 來得快或省錢 (需要實際測試)。

微調

使用 LoRa 等方法針對預訓練模型進行微調，只需要較少的記憶體。但是即使是 70B 的模型，也需要 160GB 的記憶體 (LoRa 16-bit)。同上，Cerebras 在跨晶片訓練時，沒有優勢。

不過在 13B 以下的小模型做微調，就很有機會了，因為模型可以放到一顆晶片上面。但是實際上的效能與成本，還是需要測試才能知道，是否較 GPU 有顯著優勢。

推理

使用最小的 INT4 精準度，Llama 70B 需要 40GB 記憶體，剛好可以放入一顆晶片中。更小的模型也可放進去，甚至可以平行處理更小的模型 (data parallelism)。

但是大於 70B 的模型，就需要跨晶片，效率就會大幅下降。

所以，我們可以預見，在 70B 以下的模型，將是 Cerebras 想要大展身手的市場。

結論

Cerebras 的強項 SRAM ，反而成為限制模型大小的緊箍咒。44GB 的大小，只在 Llama 70B 以下的推理市場有競爭力。極可能在高效能與低延遲應用場景有優勢 (例如：即時的語音對話)。
晶片之間的通訊技術 (類比 NVLink)，是 Cerebras 未來突破應用場景的關鍵。
在訓練與微調小模型的市場， Cerebras 也許有一博的機會 (需要實際測試)。
不過 NVIDIA / AMD / Intel 也可以做小模型的推理與訓練，CSP (Cloud Service Provider) 站在 fleet management 與 supplychain 的角度，不一定會想採用 Cerebras 這類的解決方案。還需要觀察市場接受度。