omniture

  • <sup id="8old7"><fieldset id="8old7"></fieldset></sup><legend id="8old7"><span id="8old7"></span></legend><tt id="8old7"></tt>
      1. <td id="8old7"></td>
          四虎在线播放亚洲成人,亚洲一本二区偷拍精品,国产一区二区一卡二卡,护士张开腿被奷日出白浆,99久久精品国产一区二区蜜芽,国产福利在线观看免费第一福利,美女禁区a级全片免费观看,最新亚洲人成网站在线影院

          詳解:本土AI超節(jié)點元腦SD200如何率先實現token生成速度8.9ms

          2025-11-10 11:19

          北京2025年11月10日 /美通社/ -- 近日,在2025人工智能計算大會上,浪潮信息公布,基于元腦SD200超節(jié)點AI服務器,DeepSeek R1大模型token生成速度僅需8.9毫秒,創(chuàng)造國內大模型最快token生成速度。


          元腦SD200創(chuàng)新設計滿足低延遲推理需求

          智能體時代的標志性特征是多模型協同與實時決策,每個智能體具備感知-決策-執(zhí)行的閉環(huán)能力,涉及復雜的、多步驟的工作流,需要任務分解、自主決策以及持續(xù)的規(guī)劃和執(zhí)行。在智能體推理的過程中,即使是單個推理步驟中的延遲也會在多步驟任務中被指數級放大,導致用戶體驗遲滯。因此,token生成速度正成為影響用戶評價的一個關鍵指標。

          元腦SD200超節(jié)點AI服務器基于高帶寬、低延時、原生內存語義的開放總線協議,通過構建高性能交換單元打造3D Mesh高性能互連超擴展系統(tǒng),支持64張本土AI芯片高密度算力擴展,能夠很好地滿足DeepSeek等大模型的低延遲推理需求,加快token生成速度。


          • 精簡互連協議:采用事務層-數據鏈路層-物理層三層精簡互連協議,事務層天然支持Load/Store內存語義;數據鏈路層支持基于信用的流控機制和鏈路級錯誤重傳保障;物理層建立10-12低誤碼率的高可靠物理通道,報文有效數據利用率達成96%以上。
          • 全局統(tǒng)一編址:為解決跨主機域通信難題,設計獨立于主機域的交換域全局地址空間,將多個獨立主機域下的GPU在交換域進行統(tǒng)一的顯存編址,為GPU互訪提供基礎保障。
          • 全局地址映射與數據路由:創(chuàng)新研發(fā)影子設備技術,通過影子設備將遠端GPU映射到本地主機域,實現所有獨立主機對全局GPU的顯存訪問,通過端口高效轉發(fā)技術實現跨主機P2P訪問。


          定制通信算法深度適配元腦SD200

          除了硬件方面的創(chuàng)新,浪潮信息AI團隊也針對DeepSeek、Kimi等模型的計算特征和元腦SD200的硬件架構特征,完成了通信庫、計算框架層面等多方面的優(yōu)化,充分發(fā)揮了元腦SD200的計算性能,最終實現了低延遲推理。同時,也支持預填充-解碼 (Prefill-Decode) 分離推理,在滿足客戶業(yè)務場景SLO需求的基礎上提供更高性能。

          通信庫層面,針對Allreduce、Allgather、Alltoall等典型通信算子,浪潮信息制定了與元腦SD200深度適配的通信算法。例如,對于Allreduce,為了充分發(fā)揮元腦SD200的低延遲優(yōu)勢,專為Allreduce設計了分層算法策略:針對小數據量,采用全量收集,本地規(guī)約的低延遲定制One-Shot算法,旨在最小化GPU間的同步與通信開銷;針對大數據量,采用高吞吐的定制化環(huán)形算法,以徹底解決帶寬瓶頸并實現最優(yōu)帶寬利用率。而對于模型應用中最常見的中等數據量,則采用兼顧延遲與帶寬的定制Two-Shot算法。浪潮信息更結合芯片緩存特性對此核心場景進行了深度優(yōu)化:對中小數據量啟用無緩存方案以追求極致延遲;對中大數據量則啟用緩存方案,從而最大化吞吐效率。

          實測數據表明,在64 GPU集群上進行DeepSeek R1 671B模型的BF16推理時,針對Batch Size為1的decode階段(其Allreduce數據量約為14 KB),優(yōu)化后的算法將通信時延降低了5.8倍。此外,在16 KB至16 MB這一核心數據量區(qū)間內,定制優(yōu)化算法的通信時延相較于未優(yōu)化前的實現降低了1.6至5.8倍;與傳統(tǒng)scale-out系統(tǒng)相比,時延降低幅度則進一步擴大至4.5至12.7倍。

          全方位框架優(yōu)化保障計算低延遲

          框架層面,浪潮信息AI團隊完成了并行方式、算子融合、多流水線等多方面優(yōu)化,來保證計算的低延遲。

          首先,在并行方式上,選擇了整網的張量并行。在此并行模式下,通過模型均勻切分實現了設備間計算負載的完全均衡、各個計算板卡之間計算的完全并行和同步,消除了流水線氣泡與負載不均衡問題。同時,元腦SD200的高帶寬、低延遲確保了AllReduce、AllGather等通信算子性能的大幅提升,使得通信時間大幅下降,從而實現了超低延遲的推理性能。

          其次,在算子上,實現了極致的算子融合等優(yōu)化。GPU的計算速度遠遠超過了內存帶寬的訪問速度,從內存中讀寫數據的時間成本,大部分時候比實際進行計算的時間成本還要高。算子融合可以通過減少不必要的內存讀寫和計算開銷,來顯著提升推理速度、降低延遲并減少內存占用,所以基于SGlang框架的已有實現,進行了多個算子的融合。

          • 對MLA模塊中attn_mla計算前的算子進行融合,該融合算子以Query和Key向量進行RMSnorm計算后的輸出為輸入,以attn_mla計算的輸入q_input、k_input、v_input等為輸出,包含bmm計算、rotary_emb計算以及向量拆分轉置等計算;
          • RMSNorm和add計算融合;
          • 實現int8精度的量化和RMSNorm、silu等激活函數的融合;
          • 將路由專家分組選擇中多個算子的融合為一個算子。

          最后,也進行了多stream的優(yōu)化。多個算子計算時,默認在單stream模式下,所有操作都排成一條隊,一個接一個地執(zhí)行。當算子本身的計算量不是很大時,會導致GPU的部分硬件單元在計算時處于空閑狀態(tài),也就浪費了計算資源。多stream優(yōu)化就是為了讓這些硬件單元"同時忙起來",對于相互之間沒有依賴關系的操作,可以放到不同的stream中并行執(zhí)行,提高硬件的利用效率,同時減小整體的計算時間。在多stream并行優(yōu)化方面,浪潮信息實現了MLA層的多個layernorm計算的并行,并實現了MoE階段和共享專家計算和路由專家分組選擇的并行等,實現了約10%的性能提升。

          預填充-解碼分離軟件提高整體計算性能

          此外,浪潮信息開發(fā)了預填充-解碼 (Prefill-Decode) 分離軟件,針對預填充與解碼不同的計算特性,使用不同的并行計算策略、硬件配置等,提高系統(tǒng)整體的計算性能。同時在業(yè)務部署中,支持節(jié)點服務的動態(tài)擴展;支持利用負載均衡和鍵值緩存(KV cache)命中率進行任務分配,把任務下發(fā)到鍵值緩存匹配度相對較高、任務負載相對較小的節(jié)點,減少重復計算,同時最大化計算資源利用率。另外,PD分離軟件還實現了鍵值緩存offload技術,可把鍵值緩存到CPU端內存與分布式存儲系統(tǒng)上,增大緩存空間。


          元腦SD200超節(jié)點AI服務器通過高帶寬和超低延遲通信、超大顯存池、智能路由優(yōu)化、PD分離推理等創(chuàng)新技術,大幅提升了DeepSeek、Kimi等大模型的推理輸出速度。元腦SD200搭載64張本土AI芯片運行DeepSeek R1大模型,當輸入長度為4096、輸出長度為1024時,單用戶token生成達到112 tokens/s,每token生成時間僅為8.9ms,率先實現國內AI服務器token生成速度低于10ms,將推動萬億參數大模型在金融、科研、智能制造等領域快速落地。

          消息來源:浪潮信息
          主站蜘蛛池模板: 久久天天躁狠狠躁夜夜av不卡| 文中字幕一区二区三区视频播放| 国产一区二区av天堂热| 成在线人永久免费视频播放 | 久久久久国产一级毛片高清版A| 亚洲日本中文字幕天天更新| 久久久一本精品99久久精品36| 国产午夜福利小视频在线| 成人亚欧欧美激情在线观看| 久久久久免费看黄a片app| 欧美日本在线一区二区三区| 又黄又刺激又黄又舒服| 国产精品丝袜亚洲熟女| 亚洲熟伦熟女新五十熟妇| 91久久夜色精品国产网站| 亚洲AV无码秘?蜜桃蘑菇| 国产一区二区三区色老头| 久久综合久色欧美综合狠狠| 亚洲av成人无码天堂| 人妻丰满熟妇av无码处处不卡| 亚洲欧美综合人成在线| 免费视频成人片在线观看| 苏州市| 久久亚洲精品中文字幕无| 91久久性奴调教国产免费| 国产一级片内射在线视频| 久久久久久毛片免费播放| 精品国产亚洲一区二区三区| 色偷偷www.8888在线观看| 亚洲永久精品免费在线看| 仙游县| 国产va免费精品观看精品| 国内精品无码一区二区三区| 边吃奶边添下面好爽| 亚洲精品漫画一二三区| 性XXXX视频播放免费直播| 国产在视频线在精品视频2020| 精品无码国产一区二区三区av| 天天澡日日澡狠狠欧美老妇| 99久久精品一区二区国产| 日韩精品av一区二区三区|