国产午夜亚洲精品国产成人小说 ,色吊丝中文字幕 ,好吊妞视频成人公开免费 ,秋霞最新入口成人入口免费

#香農(nóng)伙伴# 寒武紀發(fā)布第三代云端AI芯片思元370

來源:寒武紀微信公眾號 原作者:寒武紀 時間:2021-11-3 22:45:42

2021年11月3日,寒武紀發(fā)布第三代云端AI芯片思元370、基于思元370的兩款加速卡MLU370-S4和MLU370-X4、全新升級的Cambricon Neuware軟件棧。

\

▲ 寒武紀第三代云端AI芯片思元370

基于7nm制程工藝,思元370是寒武紀首款采用chiplet(芯粒)技術的AI芯片,集成了390億個晶體管,最大算力高達256TOPS(INT8),是寒武紀第二代產(chǎn)品思元270算力的2倍。憑借寒武紀最新智能芯片架構MLUarch03,相較于峰值算力的提升,思元370實測性能表現(xiàn)更為優(yōu)秀:以ResNet-50為例,MLU370-S4加速卡(半高半長)實測性能為同尺寸主流GPU的2倍;MLU370-X4加速卡(全高全長)實測性能與同尺寸主流GPU相當,能效則大幅領先。

\

▲ 寒武紀MLU370-S4(左)與MLU370-X4加速卡

思元370也是國內(nèi)第一款公開發(fā)布支持LPDDR5內(nèi)存的云端AI芯片,內(nèi)存帶寬是上一代產(chǎn)品的3倍,訪存能效達GDDR6的1.5倍。

同時,寒武紀全新升級了Cambricon Neuware軟件棧,新增推理加速引擎MagicMind,實現(xiàn)訓推一體,顯著提升了開發(fā)部署的效率,降低用戶的學習成本、開發(fā)成本和運營成本。

新一代智能處理器架構MLUarch03

寒武紀智能處理器架構MLUarch03,擁有新一代張量運算單元,內(nèi)置Supercharger模塊大幅提升各類卷積效率;采用全新的多算子硬件融合技術,在軟件融合的基礎上大幅減少算子執(zhí)行時間;片上通訊帶寬是上一代MLUarch02的2倍、片上共享緩存容量最高是MLUarch02的2.75倍;推出全新MLUv03指令集,更完備,更高效且向前兼容。

▲ Supercharger和多算子硬件融合技術

有7nm先進工藝和全新MLUarch03架構的加持,思元370芯片算力最高可達256TOPS(INT8),是上一代產(chǎn)品思元270算力的2倍。相較于峰值算力的提升,思元370在實測性能和能效方面的表現(xiàn)更為優(yōu)秀:以ResNet-50為例,MLU370-S4加速卡(半高半長)實測性能為同尺寸主流GPU的2倍;MLU370-X4加速卡(全高全長)實測性能與同尺寸主流GPU相當,能效則大幅領先。

\

▲ 7nm先進工藝和全新MLUarch03架構加持,思元370實測性能和實測能效超市場主流GPU產(chǎn)品

*測試環(huán)境:
MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
GPU數(shù)據(jù):ResNet-50來自于相關產(chǎn)品官網(wǎng),Transformer、VGG16、YOLOv3均取自實測最大吞吐性能。

思元370全面加強了FP16、BF16以及FP32的浮點算力,同時支持推理和訓練任務。此外,思元370還是國內(nèi)第一款公開發(fā)布支持LPDDR5的云端AI芯片,內(nèi)存帶寬是上一代產(chǎn)品的3倍,訪存能效達GDDR6的1.5倍。

值得強調(diào)的是,寒武紀堅持自研智能芯片架構、指令集,是全球范圍內(nèi)在該技術方向積累最為深厚的公司之一。

\

▲ 寒武紀智能芯片架構演進

先進chiplet技術

思元370采用chiplet(芯粒)技術,在一顆芯片中封裝2顆AI計算芯粒(MLU-Die),每一個MLU-Die具備獨立的AI計算單元、內(nèi)存、IO以及MLU-Fabric控制和接口,通過MLU-Fabric保證兩個MLU-Die間的高速通訊,可以通過不同MLU-Die組合規(guī)格多樣化的產(chǎn)品,為用戶提供適用不同場景的高性價比AI芯片。

\

▲ 思元370采用chiplet技術,可實現(xiàn)不同算力、內(nèi)存和編解碼器的組合

MLU-Fabric是實現(xiàn)芯粒技術的關鍵所在。它為兩個MLU-Die提供低功耗、低延時和超高帶寬的互聯(lián),支持芯片上實現(xiàn)統(tǒng)一的內(nèi)存獲取和地址映射,創(chuàng)建虛擬通路避免進程死鎖,支持數(shù)據(jù)校驗錯誤發(fā)生時進行數(shù)據(jù)重傳,保證數(shù)據(jù)準確性。

得益于芯粒技術,思元370可通過不同的組合為客戶提供更多樣化的產(chǎn)品選擇,此次寒武紀發(fā)布了兩款加速卡,未來還將推出更多基于思元370的產(chǎn)品。


全新推理加速引擎MagicMind

MagicMind是寒武紀全新打造的推理加速引擎,MagicMind支持跨框架的模型解析、自動后端代碼生成及優(yōu)化。在MLU、GPU、CPU訓練好的算法模型上,借助MagicMind,用戶僅需投入極少的開發(fā)成本,即可將推理業(yè)務部署到寒武紀全系列產(chǎn)品上,并獲得頗具競爭力的性能。

MagicMind的優(yōu)勢不僅在于可以提供極致的性能、可靠的精度以及簡潔的編程接口,讓用戶能夠?qū)W⒂跇I(yè)務本身,無需理解芯片更多底層細節(jié)就可實現(xiàn)模型的快速高效部署,MagicMind插件化的設計還可以滿足在性能或功能上追求差異化競爭力的客戶需求。

\

▲ 推理加速引擎MagicMind是寒武紀軟件棧Cambricon Neuware全新升級的重要組成部分


訓推一體的Cambricon Neuware

為了加快用戶端到端業(yè)務落地的速度,減少模型訓練研發(fā)到模型部署之間的繁瑣流程,寒武紀的統(tǒng)一基礎軟件平臺Cambricon Neuware整合了訓練和推理的全部底層軟件棧,包括底層驅(qū)動、運行時庫、算子庫以及工具鏈等,將MagicMind和深度學習框架Tensorflow,Pytorch深度融合,實現(xiàn)訓推一體。依托于訓推一體,在寒武紀全系列計算平臺上,從云端到邊緣端,用戶均可以無縫地完成從模型訓練到推理部署的全部流程,進行靈活的訓練推理業(yè)務混布和潮汐式的業(yè)務切換,可快速響應業(yè)務變化,提升算力利用率,降低運營成本。

在通用性方面,Cambricon Neuware支持FP32、FP16混合精度、BF16和自適應精度訓練等多種訓練方式并提供靈活高效的訓練工具,高性能算子庫已完整覆蓋視覺、語音、自然語言處理和搜索推薦等典型深度學習應用,可滿足用戶對于算子覆蓋率以及模型精度的需求。

全新推理加速引擎MagicMind和訓推一體特性,將為用戶帶來更為便捷、高效的開發(fā)體驗,大幅降低學習成本、開發(fā)成本和運營成本。


領先的媒體性能,支持8K解碼

思元370升級了視頻圖像編解碼單元,可提供更高效的視頻處理能力和更優(yōu)的編碼質(zhì)量,支持更復雜、更繁重、低延時要求的計算機視覺任務。

解碼方面,思元370集成了強大的媒體性能,可支持132路1080p視頻解碼或10路8K視頻解碼。編碼方面,全新編碼器通過靈活的碼率優(yōu)化(RDO)控制、多參考幀、二次編碼等特性組合,在相同圖像質(zhì)量(全高清視頻PSNR)的情況下比上一代產(chǎn)品節(jié)省42%帶寬,有效降低帶寬成本。

\
▲ 思元370視頻編碼質(zhì)量顯著提升

*測試環(huán)境:
MLU270-S4:SYS-4029GP-TRT/2x Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz
MLU370-S4:NF5280M5/2x Intel Xeon Gold 5218R CPU @ 2.1GHz
視頻內(nèi)容:BQTerrace_1920x1080_60.yuv

內(nèi)置模塊加強數(shù)據(jù)保護

寒武紀高度重視用戶隱私,思元370內(nèi)置數(shù)據(jù)保護模塊,是寒武紀第一顆支持國內(nèi)外主流加密標準的云端芯片,支持用戶數(shù)據(jù)、深度學習模型的加解密以及計算結果的加密輸出,通過信任根的方式,保護AI芯片在啟動及運行過程中加載的所有代碼,還支持遠程認證,用戶可在業(yè)務運行過程中遠程驗證AI業(yè)務環(huán)境是否符合要求。思元370系列產(chǎn)品可更好地為用戶數(shù)據(jù)和AI模型提供保護。

 

\

 ▲ 數(shù)據(jù)保護啟動驗證過程


搭載思元370的兩款AI加速卡正式亮相

此次發(fā)布中,兩款基于思元370的加速卡正式亮相:高密度、半高半長、功耗75W的MLU370-S4智能加速卡和高性能、全高全長、功耗150W的MLU370-X4智能加速卡。與上一代產(chǎn)品相比,370系列加速卡在性能、能效方面都有更為卓越的表現(xiàn)。例如,對標準ResNet-50v1進行軟件定制優(yōu)化后,MLU370-X4加速卡性能高達30204fps。

\

▲ 寒武紀MLU370-S4加速卡

在Cambricon Neuware SDK上實測,在常用的4個深度學習網(wǎng)絡模型上,MLU370-S4加速卡的性能平均接近市場主流70W GPU的2倍。而在能效方面,MLU370-S4優(yōu)勢更為明顯,處理相同AI任務相較于70W GPU用電量減少50%以上,將有力地幫助用戶實現(xiàn)“雙碳”目標。

\

 ▲ 相比主流同尺寸GPU產(chǎn)品,MLU370-S4加速卡性能優(yōu)勢明顯
*測試環(huán)境:MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
GPU數(shù)據(jù)來自于相關產(chǎn)品官網(wǎng)。

MLU370-S4加速卡在解碼方面具有強勁競爭力,相較于同尺寸GPU,可提供3倍的解碼能力和1.5倍的編碼能力??傮w而言,MLU370-S4加速卡的能效出色,體積小巧,可在服務器中實現(xiàn)高密度部署。


▲ 寒武紀MLU370-X4加速卡

MLU370-X4加速卡的優(yōu)勢則表現(xiàn)為高性能,算力可達256TOPS(INT8),加強了FP16、FP32的計算性能,新增BF16計算類型。

在Cambricon Neuware SDK上實測,常用的4個深度學習網(wǎng)絡模型中,MLU370-X4加速卡與市場主流150W GPU相比,性能表現(xiàn)2項持平2項更優(yōu),實測能效則為GPU的2倍。比如YOLOv3網(wǎng)絡中,MLU370-X4的性能是150W GPU性能的1.5倍,能效為GPU的2.5倍。

\

▲ 相比主流GPU產(chǎn)品,MLU370-X4性能領先
*測試環(huán)境:MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
GPU數(shù)據(jù):ResNet-50來自于相關產(chǎn)品官網(wǎng),Transformer、VGG16、YOLOv3均取自實測最大吞吐性能。

\▲ MLU370-S4、MLU370-X4加速卡規(guī)格


370系列加速卡應用適配進展順利,思元全系列產(chǎn)品為產(chǎn)業(yè)升級提供算力支撐

從云端推理思元270、邊緣推理思元220、云端訓練思元290,到最新發(fā)布的推訓一體思元370,寒武紀為用戶提供了覆蓋不同場景、不同算力規(guī)模的全系列產(chǎn)品。此次發(fā)布的256TOPS算力的思元370主要面向中高端推訓場景,與主要面向訓練的512TOPS高端產(chǎn)品思元290形成協(xié)同,共同為客戶提供全功能、全場景的智能算力。

思元370在2020年三季度流片,相關加速卡產(chǎn)品于2021年二季度陸續(xù)送測客戶。目前,部分客戶已完成測試、導入,產(chǎn)品進入早期銷售階段。

思元370系列加速卡已與國內(nèi)主流互聯(lián)網(wǎng)廠商開展深入的應用適配,在語音、視覺等場景的性能表現(xiàn)超出客戶預期。

阿里云基礎設施異構計算負責人張偉豐博士表示:“阿里云基礎設施異構計算團隊已經(jīng)完成了思元370的測試及導入,結合阿里云震旦異構計算加速平臺完成了ODLA的接口適配,總體性能表現(xiàn)超出預期。雙方將在vODLA池化,HALO編譯以及面向業(yè)務場景的性能調(diào)優(yōu)等技術領域深度合作?!?/p>

百度異構計算架構師黎世勇對思元370也同樣充滿期待,他說:“自2018年起,百度與寒武紀展開了多維度的軟硬件協(xié)作,思元100等產(chǎn)品服務百度語音合成等多種業(yè)務場景。我們相信,隨著思元370等新產(chǎn)品的落地,雙方軟硬件充分結合的生態(tài)勢必將發(fā)揮更大的效能,助力人工智能行業(yè)多場景落地?!?/p>

除互聯(lián)網(wǎng)之外,近年來,寒武紀在智慧金融、智慧能源、智慧交通等行業(yè)與合作伙伴共同完成了諸多落地案例。

“今年年初,招商銀行已成功上線基于寒武紀上一代云端推理產(chǎn)品思元270的智能模型推理服務,并憑借高效、便捷、安全的服務贏得了金融客戶的高度認可?!闭猩蹄y行人工智能實驗室負責人李金龍介紹了寒武紀與招商銀行的合作內(nèi)容,就未來深化合作表示說:“寒武紀第三代產(chǎn)品思元370,在性能、通用性和軟件易用性等方面均達到業(yè)內(nèi)領先水平,我們希望與寒武紀繼續(xù)深化合作,一同為智慧金融等應用場景提供更高質(zhì)量的人工智能計算服務?!?/p>

思元370系列加速卡已與國內(nèi)主流服務器合作伙伴完成適配。浪潮信息副總裁、人工智能和高性能產(chǎn)品線總經(jīng)理劉軍表示:“浪潮跟寒武紀長久以來保持著緊密合作,思元370在性能、能效等方面較之思元270均有大幅提升,我們期待雙方未來能夠攜手為更多行業(yè)和領域提供人工智能計算相關服務。”劉軍還介紹了與寒武紀之前合作的進展:“浪潮搭載寒武紀芯片的AI服務器已經(jīng)在中國移動、互聯(lián)網(wǎng)、智算中心等客戶和行業(yè)中實現(xiàn)落地。”

寒武紀長期秉承“云邊端一體、訓推一體、軟硬件協(xié)同”的技術理念。370新品發(fā)布和寒武紀統(tǒng)一基礎軟件平臺Cambricon Neuware的全新升級,將這一技術理念的落實又向前推進了重要的一步。

寒武紀用自己的研發(fā)實力和研發(fā)速度向市場印證自己的初心與決心:為人工智能的大爆發(fā)提供最好用的AI芯片,讓機器更好地理解和服務人類。

Copyright ? 2021 香農(nóng)芯創(chuàng) All Rights Reserved.粵ICP備05098851