相信很多人還記得AI芯片公司世界語今年發(fā)布的千核RISC-V處理器ET-SoC-1。隨著這款7nm芯片在第二季度的成功流回,世界語得以在芯片上運(yùn)行代碼,并嘗試新的應(yīng)用方向,其中之一就是AI-SSD。在最近的三星代工活動上,世界語披露了其AI-SSD的概念模型。
個性化推薦系統(tǒng)的挑戰(zhàn)
當(dāng)我們刷短視頻,聽歌、瀏覽社交網(wǎng)絡(luò)時,部分內(nèi)容來自我們關(guān)注過的用戶,但絕大多數(shù)來自推薦系統(tǒng)的推送。推薦系統(tǒng)的準(zhǔn)確性很大程度上決定了軟件的用戶體驗(yàn),也是當(dāng)今互聯(lián)網(wǎng)經(jīng)濟(jì)體系的命脈。然而,這種推薦往往是服務(wù)器上最大的AI處理負(fù)載。優(yōu)化推薦系統(tǒng)可以提高推薦系統(tǒng)的速度,降低服務(wù)器的成本。
DLRM深度學(xué)習(xí)推薦模型/元
說到推薦系統(tǒng),就不得不說到嵌入,這是目前推薦系統(tǒng)的關(guān)鍵組成部分。雖然每個家族都有不同的推薦模型,但或多或少都是利用查找嵌入表的方法來實(shí)現(xiàn)分類特征的處理。在這個過程中,嵌入式表存儲在DRAM中,CPU對嵌入式表進(jìn)行操作,對內(nèi)存帶寬和內(nèi)存容量提出了雙重挑戰(zhàn)。
在內(nèi)存帶寬方面,美團(tuán)、騰訊等廠商都采用了多GPU加速來充分利用GPU帶寬,但這種方式還是需要多GPU或多服務(wù)器的支持來解決容量問題。雖然廠商也可以選擇HBM這樣的大帶寬內(nèi)存方案,但成本增加是巨大的。
據(jù)Meta介紹,在臉書社交網(wǎng)站的個性化推薦系統(tǒng)中,大規(guī)模的嵌入式表可以達(dá)到百萬行以上,導(dǎo)致推薦模型的大小達(dá)到10GB左右,一個神經(jīng)推薦模型中的所有嵌入式表甚至需要TB級別以上的空間。比如Meta的Instagram已經(jīng)在開發(fā)10TB的推薦模型,百度的廣告排名模型也達(dá)到了10TB。這種容量要求對于硬盤來說可能足夠了,但是對于內(nèi)存來說太奢侈了。
因此,為了解決容量問題,很多人也提出了固態(tài)硬盤的存儲解決方案。目前,傳統(tǒng)固態(tài)硬盤雖然可以輕松存儲大規(guī)模推薦系統(tǒng),但讀取延遲和帶寬更差,顯著降低了推理性能。
專為推薦而設(shè)計的固態(tài)硬盤
世界語與三星合作開發(fā)了AI-SSD的概念模型,研究將所有嵌入式表處理移入SSD的影響,從而消除了推薦系統(tǒng)中CPU和DRAM的鏈接。三星展示了將使用世界語的ET-SoC-1芯片與其PM9A3 SSD相結(jié)合的成果。
在AI-SSD中,所有的嵌入式表都存儲在SSD中,CPU負(fù)責(zé)所有的用戶數(shù)據(jù)輸入和深度神經(jīng)網(wǎng)絡(luò),而SSD中的ET-SoC-1負(fù)責(zé)嵌入式表的查詢和交互操作。此外,由于選擇了這種內(nèi)存計算方式,使得PCIe鏈路上的數(shù)據(jù)傳輸最小化,降低了讀寫的高延遲,最終的分類數(shù)據(jù)直接發(fā)送給CPU生成推薦結(jié)果。
AI-SSD帶寬性能測試結(jié)果/世界語
在測試中,世界語選擇了Meta的開源推薦模型DLRM,將AI-SSD與傳統(tǒng)的CPU-SSD進(jìn)行對比。在不同的型號配置下,AI-SSD的讀取帶寬可以提高10到100倍,并且?guī)捒梢噪S著使用內(nèi)核數(shù)量的增加而繼續(xù)線性增加。
請注意,在這次測試中,世界語最多只使用了四個Minion Shire,每個節(jié)點(diǎn)只有32個內(nèi)核。整個ET-SoC-1有34個子節(jié)點(diǎn)和1088個內(nèi)核。如果所有計算單元都用于SSD,提升將達(dá)到數(shù)百倍甚至更多,非常適合數(shù)據(jù)中心級別的SSD產(chǎn)品。ET-SoC-1的可擴(kuò)展性也可以使其減少內(nèi)核數(shù)量,用于一些邊緣推薦系統(tǒng)。
計算交換空間
但是,即使使用AI-SSD,也是增加硬件成本的一種方式。除了不缺錢的大公司會用這款產(chǎn)品,一些小的互聯(lián)網(wǎng)應(yīng)用可能不會直接選擇替代SSD的方式。因此,只有一種方法可以繼續(xù)優(yōu)化推薦模型。
佐治亞理工學(xué)院和梅塔學(xué)院為DLRM提出了一種張量訓(xùn)練壓縮方法,命名為TT-Rec。這種方法通過將嵌入表乘以幾個小矩陣來壓縮嵌入表,進(jìn)一步減小了嵌入表的大小。然而,這種額外的計算是不可避免的額外消耗,但幸運(yùn)的是,它的評估結(jié)果足夠優(yōu)秀。
在Kaggle和Terabyte數(shù)據(jù)集的測試訓(xùn)練下,TT-Rec將數(shù)據(jù)分別從2.16GB和12.57GB壓縮到18.36MB和0.11GB,整體大小壓縮超過100倍,甚至幾乎沒有精度損失。額外的操作體現(xiàn)在訓(xùn)練時間上,分別增加了14.3%和13.9%。因此,在實(shí)際使用中,我們必須在記憶容量、模型精度和訓(xùn)練時間之間做出一定的權(quán)衡。
總結(jié)
雖然從推薦系統(tǒng)配置的角度來看,還有很多可供選擇的解決方案,但關(guān)于存儲與計算融合的研究已經(jīng)全面鋪開。存儲市場正在迅速與計算市場重疊。三星、西數(shù)、希捷等存儲廠商紛紛開始這種布局,傳統(tǒng)的馮諾依曼架構(gòu)將被近數(shù)據(jù)處理取代。