IPU-M2000和縱向擴(kuò)展的IPU-POD64快5.3倍
發(fā)布時(shí)間:2020/12/12 17:29:38 訪問(wèn)次數(shù):485
BERT-Large的訓(xùn)練時(shí)間比最新的NVIDIA DGX-A100快5.3倍(比雙DGX設(shè)置快2.6倍以上),這一結(jié)果彰顯了Graphcore的IPU-POD橫向擴(kuò)展解決方案在數(shù)據(jù)中心的優(yōu)勢(shì),以及Poplar軟件棧管理復(fù)雜工作負(fù)載的能力,這些工作負(fù)載能夠利用多個(gè)處理器并行工作!盙raphcore為其最新的AI計(jì)算系統(tǒng)——IPU-M2000和縱向擴(kuò)展的IPU-POD64發(fā)布了第一套性能benchmark。
在各種流行的模型中,Graphcore技術(shù)在訓(xùn)練和推理方面均顯著優(yōu)于NVIDIA的A100(基于DGX)。
EfficientNet-B4:吞吐量高18倍
ResNeXt-101:吞吐量高3.7倍
BERT-Large:與DGX A100相比,在IPU-POD64上的訓(xùn)練時(shí)間快5.3倍(比雙DGX系統(tǒng)縮短2.6倍)
LSTM:以更低時(shí)延實(shí)現(xiàn)吞吐量提升超過(guò)600倍
EfficientNet-B0:吞吐量提升60倍/時(shí)延縮短超過(guò)16倍
ResNeXt-101:吞吐量提升40倍/時(shí)延縮短10倍
BERT-Large:以更低的時(shí)延實(shí)現(xiàn)吞吐量提升3.4倍
Benchmark中包括了BERT-Large(基于Transformer的自然語(yǔ)言處理模型)在IPU-POD64的全部64個(gè)處理器上運(yùn)行的結(jié)果。
與Poplar軟件棧的其他元素一樣,Graphcore正在將其用于IPU接口庫(kù)的PyTorch開(kāi)源,從而使社區(qū)能夠?qū)yTorch的開(kāi)發(fā)做出貢獻(xiàn),并且加速PyTorch的開(kāi)發(fā)。
IPU-Machine:M2000(IPU-M2000)是一臺(tái)即插即用的機(jī)器智能計(jì)算刀片,旨在輕松部署并為可大規(guī)模擴(kuò)展的系統(tǒng)提供支持。
纖巧的1U刀片可提供1 PetaFlop的機(jī)器智能計(jì)算能力,并在機(jī)箱內(nèi)部納入針對(duì)AI橫向擴(kuò)展進(jìn)行了優(yōu)化的集成網(wǎng)絡(luò)技術(shù)。
(素材來(lái)源:ttic和eccn.如涉版權(quán)請(qǐng)聯(lián)系刪除。特別感謝)
BERT-Large的訓(xùn)練時(shí)間比最新的NVIDIA DGX-A100快5.3倍(比雙DGX設(shè)置快2.6倍以上),這一結(jié)果彰顯了Graphcore的IPU-POD橫向擴(kuò)展解決方案在數(shù)據(jù)中心的優(yōu)勢(shì),以及Poplar軟件棧管理復(fù)雜工作負(fù)載的能力,這些工作負(fù)載能夠利用多個(gè)處理器并行工作!盙raphcore為其最新的AI計(jì)算系統(tǒng)——IPU-M2000和縱向擴(kuò)展的IPU-POD64發(fā)布了第一套性能benchmark。
在各種流行的模型中,Graphcore技術(shù)在訓(xùn)練和推理方面均顯著優(yōu)于NVIDIA的A100(基于DGX)。
EfficientNet-B4:吞吐量高18倍
ResNeXt-101:吞吐量高3.7倍
BERT-Large:與DGX A100相比,在IPU-POD64上的訓(xùn)練時(shí)間快5.3倍(比雙DGX系統(tǒng)縮短2.6倍)
LSTM:以更低時(shí)延實(shí)現(xiàn)吞吐量提升超過(guò)600倍
EfficientNet-B0:吞吐量提升60倍/時(shí)延縮短超過(guò)16倍
ResNeXt-101:吞吐量提升40倍/時(shí)延縮短10倍
BERT-Large:以更低的時(shí)延實(shí)現(xiàn)吞吐量提升3.4倍
Benchmark中包括了BERT-Large(基于Transformer的自然語(yǔ)言處理模型)在IPU-POD64的全部64個(gè)處理器上運(yùn)行的結(jié)果。
與Poplar軟件棧的其他元素一樣,Graphcore正在將其用于IPU接口庫(kù)的PyTorch開(kāi)源,從而使社區(qū)能夠?qū)yTorch的開(kāi)發(fā)做出貢獻(xiàn),并且加速PyTorch的開(kāi)發(fā)。
IPU-Machine:M2000(IPU-M2000)是一臺(tái)即插即用的機(jī)器智能計(jì)算刀片,旨在輕松部署并為可大規(guī)模擴(kuò)展的系統(tǒng)提供支持。
纖巧的1U刀片可提供1 PetaFlop的機(jī)器智能計(jì)算能力,并在機(jī)箱內(nèi)部納入針對(duì)AI橫向擴(kuò)展進(jìn)行了優(yōu)化的集成網(wǎng)絡(luò)技術(shù)。
(素材來(lái)源:ttic和eccn.如涉版權(quán)請(qǐng)聯(lián)系刪除。特別感謝)
熱門點(diǎn)擊
- LT3045和LT3045-1恒定的輸出噪聲
- 9V/0.6A-12V1A輸出電壓和電流電源
- 4K QAM和4路雙頻并發(fā)技術(shù)3.6Gbps
- NJM074/084四路JFET輸入運(yùn)算放大
- TPS546D24A的電感和電容轉(zhuǎn)換器開(kāi)關(guān)頻
- 集成式負(fù)載點(diǎn)穩(wěn)壓器SG250HX組串式逆變器
- MPQ88XX- AEC1高度集成的30W數(shù)
- 超低功耗14位ADC與EMIF接口的匹配關(guān)系
- 80-264 VAC的輸入主動(dòng)式功率穩(wěn)定的輸
- 傳感器模塊整合低功耗VCSEL發(fā)射器
推薦技術(shù)資料
- 100A全集成電源模塊R
- Teseo-VIC6A GNSS車用精準(zhǔn)定位
- 高效先進(jìn)封裝工藝
- 模數(shù)轉(zhuǎn)換器 (Analog-to-Digit
- 集成模數(shù)轉(zhuǎn)換器(ADC)
- 128 通道20 位電流數(shù)字轉(zhuǎn)換器̴
- 多媒體協(xié)處理器SM501在嵌入式系統(tǒng)中的應(yīng)用
- 基于IEEE802.11b的EPA溫度變送器
- QUICCEngine新引擎推動(dòng)IP網(wǎng)絡(luò)革新
- SoC面世八年后的產(chǎn)業(yè)機(jī)遇
- MPC8xx系列處理器的嵌入式系統(tǒng)電源設(shè)計(jì)
- dsPIC及其在交流變頻調(diào)速中的應(yīng)用研究