omniture

  • <sup id="8old7"><fieldset id="8old7"></fieldset></sup><legend id="8old7"><span id="8old7"></span></legend><tt id="8old7"></tt>
      1. <td id="8old7"></td>
          四虎在线播放亚洲成人,亚洲一本二区偷拍精品,国产一区二区一卡二卡,护士张开腿被奷日出白浆,99久久精品国产一区二区蜜芽,国产福利在线观看免费第一福利,美女禁区a级全片免费观看,最新亚洲人成网站在线影院

          源2.0-M32大模型發布量化版 運行顯存僅需23GB 性能可媲美LLaMA3

          2024-08-23 17:51 6103

          北京2024年8月23日 /美通社/ -- 近日,浪潮信息發布源2.0-M32大模型4bit和8bit量化版,性能比肩700億參數的LLaMA3開源大模型。4bit量化版推理運行顯存僅需23.27GB,處理每token所需算力約為1.9 GFLOPs,算力消耗僅為同等當量大模型LLaMA3-70B的1/80。而LLaMA3-70B運行顯存為160GB,所需算力為140GFLOPs。

          源2.0-M32量化版是"源"大模型團隊為進一步提高模算效率,降低大模型部署運行的計算資源要求而推出的版本,通過采用領先的量化技術,將原模型精度量化至int4和int8級別,并保持模型性能基本不變。源2.0-M32量化版提高了模型部署加載速度和多線程推理效率,在不同硬件和軟件環境中均能高效運行,降低了模型移植和部署門檻,讓用戶使用更少的計算資源,就能獲取源2.0-M32大模型的強大能力。

          源2.0-M32大模型是浪潮信息"源2.0"系列大模型的最新版本,其創新性地提出和采用了"基于注意力機制的門控網絡"技術,構建包含32個專家(Expert)的混合專家模型(MoE),模型運行時激活參數為37億,在業界主流基準評測中性能全面對標700億參數的LLaMA3開源大模型,大幅提升了模型算力效率。

          模型量化(Model Quantization)是優化大模型推理的一種主流技術,它顯著減少了模型的內存占用和計算資源消耗,從而加速推理過程。然而,模型量化可能會影響模型的性能。如何在壓縮模型的同時維持其精度,是量化技術面臨的核心挑戰。

          源2.0-M32大模型研發團隊深入分析當前主流的量化方案,綜合評估模型壓縮效果和精度損失表現,最終采用了GPTQ量化方法,并采用AutoGPTQ作為量化框架。為了確保模型精度最大化,一方面定制化適配了適合源2.0-M32結構的算子,提高了模型的部署加載速度和多線程推理效率,實現高并發推理;另一方面對需要量化的中間層(inter_layers)進行了嚴格評估和篩選,確定了最佳的量化層。從而成功將模型精度量化至int4和int8級別,在模型精度幾乎無損的前提下,提升模型壓縮效果、增加推理吞吐量和降低計算成本,使其更易于部署到移動設備和邊緣設備上。

          評測結果顯示,源2.0-M32量化版在多個業界主流的評測任務中性能表現突出,特別是在MATH(數學競賽)、ARC-C(科學推理)任務中,比肩擁有700億參數的LLaMA3大模型。


          總之,源2.0-M32大模型量化版在保持推理性能的前提下,顯著降低了計算資源消耗和內存占用,其采用的GPTQ量化方法通過精細調整,成功將模型適配至int4和int8精度級別。通過定制化算子優化,源2.0-M32量化版實現了模型結構的深度適配和性能的顯著提升,確保在不同硬件和軟件環境中均能高效運行。未來,隨著量化技術的進一步優化和應用場景的拓展,源2.0-M32量化版有望在移動設備和邊緣計算等領域發揮更廣泛的作用,為用戶提供更高效的智能服務。

          源2.0-M32量化版已開源,下載鏈接如下:

          Hugging Face平臺下載鏈接:

          https://huggingface.co/IEITYuan/Yuan2-M32-gguf-int4
          https://huggingface.co/IEITYuan/Yuan2-M32-hf-int4
          https://huggingface.co/IEITYuan/Yuan2-M32-hf-int8 

          modelscope平臺下載鏈接:

          https://modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4
          https://modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4
          https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8 

           

          消息來源:浪潮信息
          China-PRNewsire-300-300.png
          全球TMT
          微信公眾號“全球TMT”發布全球互聯網、科技、媒體、通訊企業的經營動態、財報信息、企業并購消息。掃描二維碼,立即訂閱!
          collection
          主站蜘蛛池模板: 亚洲成在人线AⅤ中文字幕| 99久久精品国产一区色| 亚洲一区成人av在线| 拍真实国产伦偷精品| 久久自己只精产国品| 亚洲日韩久久综合中文字幕| 日韩福利视频导航| 国产精品一区二区三区黄| 国产精品久久无码不卡黑寡妇| 亚洲精品一区国产精品| 免费福利视频一区二区三区高清| 最近中文国语字幕在线播放| 人妻精品动漫h无码| 精品久久久久中文字幕日本| 国产精品中文第一字幕| 亚洲av永久无码精品水牛影视| 国产精品自产在线观看一| 一区二区三区av在线观看| а∨天堂一区中文字幕| 男女性杂交内射女bbwxz| 克什克腾旗| 色综合色综合色综合久久| 高清精品一区二区三区| 国产成人精品亚洲午夜麻豆| 天天综合色一区二区三区| 免费av深夜在线观看| 福利在线视频一区二区| 蜜臀av一区二区三区在线| 久久婷婷五月综合色一区二区| 香港特级三A毛片免费观看| 欧美精品在线观看视频| 国产91精品一区二区蜜臀| 午夜福利在线观看成人| 少妇高潮尖叫黑人激情在线| 午夜通通国产精品福利| 精品国产中文字幕av| 中文有无人妻vs无码人妻激烈| 庐江县| 国产精品国产精品偷麻豆| 久热色视频精品在线观看| 亚洲伊人久久精品影院|