繞開CPU和內(nèi)存，你瀏覽的內(nèi)容或來自SSD的推薦

2021-12-17 14:14:32

相信很多人還記得AI芯片公司世界語今年發(fā)布的千核RISC-V處理器ET-SoC-1。隨著這款7nm芯片在第二季度的成功流回，世界語得以在芯片上運(yùn)行代碼，并嘗試新的應(yīng)用方向，其中之一就是AI-SSD。在最近的三星代工活動上，世界語披露了其AI-SSD的概念模型。

個性化推薦系統(tǒng)的挑戰(zhàn)

當(dāng)我們刷短視頻，聽歌、瀏覽社交網(wǎng)絡(luò)時，部分內(nèi)容來自我們關(guān)注過的用戶，但絕大多數(shù)來自推薦系統(tǒng)的推送。推薦系統(tǒng)的準(zhǔn)確性很大程度上決定了軟件的用戶體驗(yàn)，也是當(dāng)今互聯(lián)網(wǎng)經(jīng)濟(jì)體系的命脈。然而，這種推薦往往是服務(wù)器上最大的AI處理負(fù)載。優(yōu)化推薦系統(tǒng)可以提高推薦系統(tǒng)的速度，降低服務(wù)器的成本。

DLRM深度學(xué)習(xí)推薦模型/元

說到推薦系統(tǒng)，就不得不說到嵌入，這是目前推薦系統(tǒng)的關(guān)鍵組成部分。雖然每個家族都有不同的推薦模型，但或多或少都是利用查找嵌入表的方法來實(shí)現(xiàn)分類特征的處理。在這個過程中，嵌入式表存儲在DRAM中，CPU對嵌入式表進(jìn)行操作，對內(nèi)存帶寬和內(nèi)存容量提出了雙重挑戰(zhàn)。

在內(nèi)存帶寬方面，美團(tuán)、騰訊等廠商都采用了多GPU加速來充分利用GPU帶寬，但這種方式還是需要多GPU或多服務(wù)器的支持來解決容量問題。雖然廠商也可以選擇HBM這樣的大帶寬內(nèi)存方案，但成本增加是巨大的。

據(jù)Meta介紹，在臉書社交網(wǎng)站的個性化推薦系統(tǒng)中，大規(guī)模的嵌入式表可以達(dá)到百萬行以上，導(dǎo)致推薦模型的大小達(dá)到10GB左右，一個神經(jīng)推薦模型中的所有嵌入式表甚至需要TB級別以上的空間。比如Meta的Instagram已經(jīng)在開發(fā)10TB的推薦模型，百度的廣告排名模型也達(dá)到了10TB。這種容量要求對于硬盤來說可能足夠了，但是對于內(nèi)存來說太奢侈了。

因此，為了解決容量問題，很多人也提出了固態(tài)硬盤的存儲解決方案。目前，傳統(tǒng)固態(tài)硬盤雖然可以輕松存儲大規(guī)模推薦系統(tǒng)，但讀取延遲和帶寬更差，顯著降低了推理性能。

專為推薦而設(shè)計的固態(tài)硬盤

世界語與三星合作開發(fā)了AI-SSD的概念模型，研究將所有嵌入式表處理移入SSD的影響，從而消除了推薦系統(tǒng)中CPU和DRAM的鏈接。三星展示了將使用世界語的ET-SoC-1芯片與其PM9A3 SSD相結(jié)合的成果。

在AI-SSD中，所有的嵌入式表都存儲在SSD中，CPU負(fù)責(zé)所有的用戶數(shù)據(jù)輸入和深度神經(jīng)網(wǎng)絡(luò)，而SSD中的ET-SoC-1負(fù)責(zé)嵌入式表的查詢和交互操作。此外，由于選擇了這種內(nèi)存計算方式，使得PCIe鏈路上的數(shù)據(jù)傳輸最小化，降低了讀寫的高延遲，最終的分類數(shù)據(jù)直接發(fā)送給CPU生成推薦結(jié)果。

AI-SSD帶寬性能測試結(jié)果/世界語

在測試中，世界語選擇了Meta的開源推薦模型DLRM，將AI-SSD與傳統(tǒng)的CPU-SSD進(jìn)行對比。在不同的型號配置下，AI-SSD的讀取帶寬可以提高10到100倍，并且?guī)捒梢噪S著使用內(nèi)核數(shù)量的增加而繼續(xù)線性增加。

請注意，在這次測試中，世界語最多只使用了四個Minion Shire，每個節(jié)點(diǎn)只有32個內(nèi)核。整個ET-SoC-1有34個子節(jié)點(diǎn)和1088個內(nèi)核。如果所有計算單元都用于SSD，提升將達(dá)到數(shù)百倍甚至更多，非常適合數(shù)據(jù)中心級別的SSD產(chǎn)品。ET-SoC-1的可擴(kuò)展性也可以使其減少內(nèi)核數(shù)量，用于一些邊緣推薦系統(tǒng)。

計算交換空間

但是，即使使用AI-SSD，也是增加硬件成本的一種方式。除了不缺錢的大公司會用這款產(chǎn)品，一些小的互聯(lián)網(wǎng)應(yīng)用可能不會直接選擇替代SSD的方式。因此，只有一種方法可以繼續(xù)優(yōu)化推薦模型。

佐治亞理工學(xué)院和梅塔學(xué)院為DLRM提出了一種張量訓(xùn)練壓縮方法，命名為TT-Rec。這種方法通過將嵌入表乘以幾個小矩陣來壓縮嵌入表，進(jìn)一步減小了嵌入表的大小。然而，這種額外的計算是不可避免的額外消耗，但幸運(yùn)的是，它的評估結(jié)果足夠優(yōu)秀。

在Kaggle和Terabyte數(shù)據(jù)集的測試訓(xùn)練下，TT-Rec將數(shù)據(jù)分別從2.16GB和12.57GB壓縮到18.36MB和0.11GB，整體大小壓縮超過100倍，甚至幾乎沒有精度損失。額外的操作體現(xiàn)在訓(xùn)練時間上，分別增加了14.3%和13.9%。因此，在實(shí)際使用中，我們必須在記憶容量、模型精度和訓(xùn)練時間之間做出一定的權(quán)衡。

總結(jié)

雖然從推薦系統(tǒng)配置的角度來看，還有很多可供選擇的解決方案，但關(guān)于存儲與計算融合的研究已經(jīng)全面鋪開。存儲市場正在迅速與計算市場重疊。三星、西數(shù)、希捷等存儲廠商紛紛開始這種布局，傳統(tǒng)的馮諾依曼架構(gòu)將被近數(shù)據(jù)處理取代。

繞開CPU和內(nèi)存，你瀏覽的內(nèi)容或來自SSD的推薦