【ITBEAR】微軟投資的硅谷新興企業(yè)d-Matrix近日正式宣布,其精心研發(fā)的人工智能芯片Corsair已投入市場(chǎng)流通。
據(jù)d-Matrix介紹,Corsair在單服務(wù)器環(huán)境下,為L(zhǎng)lama3 8B模型提供了驚人的處理能力,每秒可處理高達(dá)60000個(gè)tokens,且每個(gè)tokens的延遲僅為1毫秒。這一數(shù)據(jù)彰顯了Corsair在高效處理大規(guī)模數(shù)據(jù)方面的卓越性能。
Corsair不僅性能出眾,還在能源效率和成本節(jié)約方面展現(xiàn)出顯著優(yōu)勢(shì)。d-Matrix聲稱(chēng),與GPU及其他替代方案相比,Corsair能夠在提供同等性能的同時(shí),顯著降低能耗和成本。
在AI推理運(yùn)算領(lǐng)域,數(shù)據(jù)傳輸一直是制約性能提升的關(guān)鍵瓶頸。由于AI推理需要處理大量且快速的內(nèi)存數(shù)據(jù),傳統(tǒng)解決方案往往難以兼顧這兩方面的需求。d-Matrix針對(duì)這一挑戰(zhàn),提出了創(chuàng)新的解決方案。
目前,業(yè)界主要有三種解決數(shù)據(jù)傳輸瓶頸的方法。第一種是通過(guò)采樣和流水線技術(shù)減少處理的數(shù)據(jù)量,雖然能加速深度學(xué)習(xí),但犧牲了準(zhǔn)確性和精確性。第二種是在傳統(tǒng)處理器附近設(shè)置專(zhuān)用AI引擎,如蘋(píng)果、英偉達(dá)、Intel和AMD所采用的方式,但這種方法需要集成SRAM和外部DRAM,能耗高且效率較低。
d-Matrix采用的是第三種方法,即將計(jì)算移動(dòng)到內(nèi)存附近。這種被稱(chēng)為數(shù)字存算一體(DIMC)的技術(shù)架構(gòu),通過(guò)降低延遲和減少消耗,顯著提升了AI推理運(yùn)算的性能。DIMC技術(shù)特別適合處理AI推理中的靜態(tài)但大型權(quán)重?cái)?shù)據(jù)集,這些數(shù)據(jù)集在推理過(guò)程中會(huì)被反復(fù)訪問(wèn),DIMC技術(shù)消除了大部分能量轉(zhuǎn)移費(fèi)用和數(shù)據(jù)移動(dòng)的延遲。
得益于DIMC技術(shù)的優(yōu)勢(shì),Corsair提供了150TB/s的超高內(nèi)存帶寬,交互速度提高了10倍,能效提高了3倍。這一突破性的性能表現(xiàn),使得Corsair在AI推理運(yùn)算領(lǐng)域具有廣泛的應(yīng)用前景。
Corsair芯片還采用了行業(yè)標(biāo)準(zhǔn)的PCIe Gen5全高全長(zhǎng)卡外形,并通過(guò)DMX Bridge卡連接成對(duì)的卡,以滿足高性能計(jì)算的需求。每張Corsair卡都由多個(gè)DIMC計(jì)算核心驅(qū)動(dòng),具備2400 TFLOP的8位峰值計(jì)算能力,同時(shí)配備了2GB的集成性能內(nèi)存和高達(dá)256GB的片外容量?jī)?nèi)存,確保了強(qiáng)大的計(jì)算能力和數(shù)據(jù)存儲(chǔ)能力。