国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當(dāng)前位置: 首頁 > news >正文

b2b網(wǎng)站開發(fā)搜索引擎營銷sem

b2b網(wǎng)站開發(fā),搜索引擎營銷sem,武漢口碑最好的裝修公司有哪幾家,國外做的比較好的購物網(wǎng)站課程概述 此企業(yè)內(nèi)訓(xùn)課程“Nvidia智算中心的深度技術(shù)研修”專為某智算廠商研發(fā)中心設(shè)計,內(nèi)容涵蓋了從基礎(chǔ)設(shè)施構(gòu)建到高性能計算優(yōu)化的全方位技術(shù)要點。課程為期七天,分模塊詳細(xì)講解了NV算力資源的網(wǎng)絡(luò)架構(gòu)、存儲優(yōu)化、智算集群的建設(shè)與自動化管理、NCCL…
課程概述

此企業(yè)內(nèi)訓(xùn)課程“Nvidia智算中心的深度技術(shù)研修”專為某智算廠商研發(fā)中心設(shè)計,內(nèi)容涵蓋了從基礎(chǔ)設(shè)施構(gòu)建到高性能計算優(yōu)化的全方位技術(shù)要點。課程為期七天,分模塊詳細(xì)講解了NV算力資源的網(wǎng)絡(luò)架構(gòu)、存儲優(yōu)化、智算集群的建設(shè)與自動化管理、NCCL通信優(yōu)化及分布式訓(xùn)練進階等內(nèi)容,結(jié)合大量實際案例,深入探討各類技術(shù)在智算中心中的應(yīng)用與最佳實踐。通過該課程,學(xué)員將全面掌握高效構(gòu)建和管理智算平臺的技能,為企業(yè)的AI和大數(shù)據(jù)應(yīng)用提供強有力的技術(shù)支持。

內(nèi)訓(xùn)目標(biāo)

掌握NV算力資源的網(wǎng)絡(luò)架構(gòu)與關(guān)鍵技術(shù):了解Nvidia計算平臺下的高性能網(wǎng)絡(luò)解決方案,學(xué)習(xí)如何設(shè)計和優(yōu)化NVLink、Infiniband等網(wǎng)絡(luò)架構(gòu),提高網(wǎng)絡(luò)流量管理與數(shù)據(jù)傳輸效率。

優(yōu)化大模型的存儲與計算性能:通過學(xué)習(xí)GPUDirectStorage等技術(shù),掌握大模型訓(xùn)練和推理階段的存儲需求及優(yōu)化策略,提升數(shù)據(jù)讀寫速度和存儲系統(tǒng)性能。

高效建設(shè)智算集群:學(xué)習(xí)基于Nvidia GPU的集群硬件選型與設(shè)計原則,掌握從集群建設(shè)、配置到實施的全流程管理技能,確保高效的集群構(gòu)建和運維。

實現(xiàn)集群的自動化部署與管理:通過掌握Ansible、Puppet等自動化工具,提升大規(guī)模集群環(huán)境下的部署與管理效率,確保集群的穩(wěn)定性和可擴展性。

掌握NCCL集合通信優(yōu)化與分布式訓(xùn)練技術(shù):學(xué)習(xí)Nvidia NCCL通信庫的優(yōu)化方法及在分布式訓(xùn)練中的應(yīng)用,提升模型訓(xùn)練效率和系統(tǒng)整體性能。

提升智算中心的整體性能和穩(wěn)定性:通過測試方案與標(biāo)準(zhǔn)的學(xué)習(xí),掌握智算中心軟硬件性能測試、故障管理與優(yōu)化技術(shù),提高智算平臺的穩(wěn)定性和性能。

課程準(zhǔn)備及說明

授課前1周,講師會對授課需要的硬件資源和軟件環(huán)境給出詳細(xì)的說明和教程文檔。學(xué)員根據(jù)環(huán)境要求和教程文檔提前準(zhǔn)備好相應(yīng)的硬件資源和軟件環(huán)境。

課時安排

一共7天,每天6-7小時。

課程大綱

第一天:NV基礎(chǔ)設(shè)施關(guān)鍵技術(shù)

1.1NV算力資源的網(wǎng)絡(luò)關(guān)鍵技術(shù)和解決方案

  • NV算力資源的網(wǎng)絡(luò)架構(gòu)
    • 介紹基于Nvidia算力資源的網(wǎng)絡(luò)架構(gòu),涵蓋NvidiaMellanox的高性能網(wǎng)絡(luò)解決方案。
    • 詳細(xì)分析Infiniband和以太網(wǎng)在NV算力集群中的應(yīng)用,比較其在性能、擴展性和成本上的差異。
    • 探討網(wǎng)絡(luò)流量管理與優(yōu)化技術(shù),分析網(wǎng)絡(luò)擁塞管理的典型案例。
  • 高效數(shù)據(jù)傳輸技術(shù)
    • NVLink和PCIe總線在高性能計算中的應(yīng)用。
    • 遠(yuǎn)程直接內(nèi)存訪問(RDMA)技術(shù)在提升網(wǎng)絡(luò)傳輸效率中的作用。
    • 結(jié)合典型案例,分析網(wǎng)絡(luò)帶寬瓶頸及解決方案。

1.2基于NV算力資源的網(wǎng)絡(luò)組網(wǎng)設(shè)計

  • 組網(wǎng)架構(gòu)設(shè)計
    • 討論基于Nvidia算力資源的多種網(wǎng)絡(luò)組網(wǎng)架構(gòu),包括星型、樹型、環(huán)形和混合架構(gòu)。
    • 基于實際案例講解組網(wǎng)設(shè)計過程中的注意事項和最佳實踐。
    • 介紹高性能計算集群中拓?fù)浣Y(jié)構(gòu)設(shè)計的要點,特別是在大規(guī)模集群中的應(yīng)用。
  • 可擴展性與冗余設(shè)計
    • 分析如何在Nvidia算力環(huán)境中設(shè)計具有高擴展性和高可用性的網(wǎng)絡(luò)架構(gòu)。
    • 討論冗余設(shè)計在確保網(wǎng)絡(luò)穩(wěn)定性中的作用,結(jié)合案例進行分析。

1.3大模型全流程中存儲的要求

  • 大模型存儲需求分析
    • 探討大模型在訓(xùn)練和推理階段的存儲需求,包括數(shù)據(jù)集存儲、模型參數(shù)存儲和臨時數(shù)據(jù)存儲。
    • 結(jié)合Nvidia的GPUDirectStorage技術(shù),分析如何優(yōu)化存儲系統(tǒng)以滿足大模型的需求。
  • 存儲架構(gòu)規(guī)劃與性能優(yōu)化
    • 介紹高性能存儲架構(gòu)的設(shè)計要點,涵蓋分布式存儲系統(tǒng)、對象存儲、文件系統(tǒng)的選擇與配置。
    • 結(jié)合實際案例,講解存儲系統(tǒng)在性能、擴展性、可靠性等方面的優(yōu)化策略。

1.4基于NV算力存儲容量和性能規(guī)劃、基于NV算力存儲解決方案

  • 存儲容量規(guī)劃
    • 詳細(xì)介紹如何根據(jù)大模型的規(guī)模和數(shù)據(jù)量,規(guī)劃合理的存儲容量,避免資源浪費和性能瓶頸。
    • 分析Nvidia算力環(huán)境中常見的存儲容量規(guī)劃方法,結(jié)合案例進行詳細(xì)解釋。
  • 存儲性能優(yōu)化
    • 討論如何通過多級緩存、數(shù)據(jù)壓縮和分片等技術(shù)手段,提升存儲系統(tǒng)的整體性能。
    • 結(jié)合Nvidia的存儲解決方案,介紹如何優(yōu)化I/O性能,確保數(shù)據(jù)的高效存取。
第二-三天:基于英偉達GPU建設(shè)的智算集群建設(shè)

2.1英偉達環(huán)境的萬卡集群建設(shè)交付案例

  • 集群硬件選型與規(guī)劃
    • 介紹萬卡集群建設(shè)中常用的硬件選型,包括NvidiaA100、H100GPU,Infiniband網(wǎng)絡(luò)設(shè)備及高性能存儲設(shè)備。
    • 結(jié)合典型案例分析硬件選型對集群性能的影響。
  • 集群建設(shè)流程
    • 詳細(xì)講解從需求分析、硬件選型、集群設(shè)計到實施的全過程。
    • 結(jié)合實際項目案例,分析在集群建設(shè)中常見的問題及其解決方案。

2.2大規(guī)模IB參數(shù)網(wǎng)建設(shè)與自動化

  • IB網(wǎng)絡(luò)的設(shè)計與部署
    • 詳細(xì)講解Infiniband網(wǎng)絡(luò)在大規(guī)模集群中的應(yīng)用,包括拓?fù)湓O(shè)計、網(wǎng)絡(luò)配置及性能優(yōu)化。
    • 結(jié)合案例分析如何在實際部署中優(yōu)化IB網(wǎng)絡(luò)的參數(shù)配置以提升網(wǎng)絡(luò)性能。
  • 自動化部署與管理
    • 介紹大規(guī)模IB網(wǎng)絡(luò)的自動化部署工具和技術(shù),包括Ansible、Puppet等配置管理工具的使用。
    • 探討如何通過自動化工具實現(xiàn)集群的高效管理與運維,結(jié)合實際案例講解自動化管理的最佳實踐。

2.3硬集、軟集工作流程及注意事項

  • 硬集與軟集的概念與區(qū)別
    • 介紹硬集(硬件集群)與軟集(軟件集群)的基本概念及其應(yīng)用場景。
    • 結(jié)合實際案例分析在不同場景下選擇硬集或軟集的優(yōu)勢和挑戰(zhàn)。
  • 硬集與軟集的工作流程
    • 詳細(xì)講解硬集和軟集的配置、部署與管理流程。
    • 討論在集群交付過程中常見的注意事項,結(jié)合實際案例進行分析。

2.4交付驗收標(biāo)準(zhǔn)及評審注意事項

  • 集群交付驗收流程
    • 介紹智算集群交付的標(biāo)準(zhǔn)流程,包括功能驗收、性能測試及文檔交付。
    • 結(jié)合實際案例分析在集群交付過程中可能遇到的問題及應(yīng)對策略。
  • 評審標(biāo)準(zhǔn)與注意事項
    • 詳細(xì)講解在集群交付評審過程中應(yīng)關(guān)注的關(guān)鍵點,包括系統(tǒng)穩(wěn)定性、性能指標(biāo)達標(biāo)情況及文檔完整性等。
    • 結(jié)合案例分析如何在評審過程中發(fā)現(xiàn)潛在問題并及時解決。
第四天:基于英偉達環(huán)境的智算中心測試方案與標(biāo)準(zhǔn)

3.1智算集群整體測試方案

  • 軟硬件測試方案
    • 詳細(xì)講解智算集群的軟硬件測試方案,包括GPU性能測試、網(wǎng)絡(luò)帶寬測試、存儲性能測試等。
    • 結(jié)合案例分析如何制定合理的測試方案,確保測試結(jié)果的準(zhǔn)確性和可靠性。
  • 模型部署與運行操作實踐
    • 介紹在智算集群中部署大模型的常見問題和解決方案。
    • 結(jié)合案例進行單機多卡、多機多卡的模型部署與運行實踐操作演示,分析常見問題及解決方案。

3.2智算集群交付測試標(biāo)準(zhǔn)

  • 基線功能性能測試
    • 介紹智算集群的基線功能和性能測試標(biāo)準(zhǔn),包括計算性能、網(wǎng)絡(luò)性能、存儲性能的測試方法和評估標(biāo)準(zhǔn)。
    • 結(jié)合實際案例分析在基線測試過程中可能遇到的問題及其解決方案。
  • 模型測試全流程實操
    • 詳細(xì)講解智算集群的模型測試流程,包括模型加載、訓(xùn)練、推理等環(huán)節(jié)的測試標(biāo)準(zhǔn)和操作步驟。
    • 結(jié)合實際案例進行單機測試和集群測試的實操演練,分析測試中常見的瓶頸及優(yōu)化方法。
  • 穩(wěn)定性和MFU測試
    • 介紹智算集群的穩(wěn)定性測試方法,涵蓋長時間負(fù)載測試、故障注入測試等。
    • 結(jié)合案例講解MFU(MeanFailureUnits)測試的意義和操作方法,分析如何通過MFU測試提高系統(tǒng)的可靠性。
第五天:英偉達NCCL集合通信優(yōu)化方案

4.1NCCL背景與理論知識

  • NCCL概述
    • 介紹NvidiaCollectiveCommunicationsLibrary(NCCL)的基本原理和應(yīng)用場景。
    • 詳細(xì)講解NCCL在分布式計算中的作用,分析其在不同通信模式下的性能表現(xiàn)。
  • 標(biāo)準(zhǔn)通信原語實現(xiàn)
    • 講解NCCL中的標(biāo)準(zhǔn)通信原語(如AllReduce、Broadcast、Reduce、AllGather等)的實現(xiàn)原理。
    • 結(jié)合實際案例分析在不同場景下選擇合適的通信原語進行優(yōu)化的策略。

4.2NCCL環(huán)境變量含義與優(yōu)化方案

  • NCCL環(huán)境變量解析
    • 詳細(xì)介紹NCCL的主要環(huán)境變量,如NCCL_ALGO、NCCL_PROTO、NCCL_NTHREADS等,并分析其對性能的影響。
    • 結(jié)合實際案例講解如何通過調(diào)整環(huán)境變量優(yōu)化NCCL的通信性能。
  • NCCL優(yōu)化方案
    • 討論在不同硬件配置和網(wǎng)絡(luò)架構(gòu)下的NCCL優(yōu)化策略,涵蓋帶寬優(yōu)化、延遲優(yōu)化等方面。
    • 結(jié)合案例進行NCCL性能調(diào)優(yōu)的實操演練,分析優(yōu)化前后的性能提升效果。

4.3NCCLPlugin概念與實現(xiàn)

  • NCCLPlugin概述
    • 介紹NCCLPlugin的概念及其在提升通信性能中的作用。
    • 詳細(xì)講解NCCLPlugin的標(biāo)準(zhǔn)實現(xiàn)方案(如SHARP),分析其在實際應(yīng)用中的性能表現(xiàn)。
  • NCCLPlugin實操演練
    • 結(jié)合實際案例進行NCCLPlugin的配置與調(diào)試操作,分析常見問題及其解決方案。
    • 討論如何通過自定義NCCLPlugin實現(xiàn)特定場景下的性能優(yōu)化。
第六天:英偉達分布式訓(xùn)練與微調(diào)進階

5.1主流深度學(xué)習(xí)框架與分布式訓(xùn)練框架能力介紹

  • 深度學(xué)習(xí)框架概述
    • 介紹當(dāng)前主流深度學(xué)習(xí)框架(如Pytorch、TensorFlow)的基本特點及其在分布式訓(xùn)練中的應(yīng)用。
    • 分析不同框架在分布式訓(xùn)練中的性能表現(xiàn),結(jié)合實際案例進行對比。
  • 分布式訓(xùn)練框架介紹
    • 詳細(xì)講解Megatron-LM、NeMo、DeepSpeed等分布式訓(xùn)練框架的功能特點及應(yīng)用場景。
    • 結(jié)合實際案例分析在大規(guī)模分布式訓(xùn)練中的框架選擇策略及其性能優(yōu)化方法。

5.2分布式并行策略與調(diào)優(yōu)技術(shù)

  • 數(shù)據(jù)并行與模型并行
    • 介紹數(shù)據(jù)并行、模型并行的基本原理和應(yīng)用場景。
    • 結(jié)合實際案例分析在不同場景下選擇合適的并行策略進行性能優(yōu)化的最佳實踐。
  • 調(diào)優(yōu)技術(shù)與實操演練
    • 詳細(xì)講解分布式訓(xùn)練中的常見調(diào)優(yōu)技術(shù),如梯度裁剪、混合精度訓(xùn)練、學(xué)習(xí)率調(diào)節(jié)等。
    • 結(jié)合實際案例進行分布式訓(xùn)練的調(diào)優(yōu)實操演練,分析調(diào)優(yōu)前后的性能變化。
第七天:英偉達融合算子優(yōu)化技術(shù)與實戰(zhàn)

6.1英偉達CUDA與融合算子技術(shù)介紹

  • CUDA基礎(chǔ)知識
    • 介紹CUDA編程的基本概念和核心技術(shù),分析其在高性能計算中的應(yīng)用。
    • 詳細(xì)講解CUDA中的關(guān)鍵概念,如線程塊、網(wǎng)格、共享內(nèi)存等,結(jié)合實際案例進行分析。
  • 融合算子與核心算子技術(shù)
    • 介紹融合算子技術(shù)的原理及其在提高計算效率中的作用。
    • 結(jié)合實際案例分析在不同應(yīng)用場景下如何通過融合算子技術(shù)實現(xiàn)性能優(yōu)化。

6.2英偉達Profiling工具與案例分析

  • Profiling工具介紹
    • 介紹Nvidia的Profiling工具(如NsightCompute、NsightSystems)的功能特點及應(yīng)用場景。
    • 詳細(xì)講解如何通過Profiling工具分析CUDA程序的性能瓶頸,結(jié)合實際案例進行演示。
  • 案例分析與性能調(diào)優(yōu)
    • 結(jié)合實際案例進行CUDA程序的性能分析與調(diào)優(yōu),詳細(xì)講解在Profiling過程中常見的問題及其解決方案。

6.3融合算子優(yōu)化技術(shù)實戰(zhàn)

  • 覆蓋場景與算子庫介紹
    • 介紹主流預(yù)訓(xùn)練模型、推理模型中常用的融合算子庫,如cuDNN、TensorRT等。
    • 結(jié)合實際案例分析在不同應(yīng)用場景下的融合算子優(yōu)化技術(shù),探討如何通過自定義算子實現(xiàn)特定場景下的性能提升。
  • 自定義融合算子實操演練
    • 詳細(xì)講解如何在Nvidia環(huán)境下開發(fā)自定義融合算子,涵蓋開發(fā)流程、調(diào)試方法及性能優(yōu)化策略。
    • 結(jié)合實際案例進行自定義融合算子的實操演練,分析自定義算子對整體性能的提升效果。

講師簡歷介紹

張老師 大模型算法/AIInfra開發(fā)專家

北京郵電大學(xué),網(wǎng)絡(luò)與交換國家重點實驗室,計算機科學(xué)與技術(shù)碩士。某互聯(lián)網(wǎng)大廠高級工程師,深度學(xué)習(xí)框架開發(fā)與性能調(diào)優(yōu)專家horovod,spark,iceberg,hudi等系列源碼貢獻者,“Tim在路上”公眾號主理人。

專業(yè)能力

熟悉深度學(xué)習(xí)框架,模型性能調(diào)優(yōu),有過深度學(xué)習(xí)框架開發(fā)調(diào)優(yōu)經(jīng)驗。

熟悉GPU,NPU,CUDA,CANN,Nccl,IB等底層原理與工程實踐。

熟悉數(shù)據(jù)湖/數(shù)據(jù)引擎的開發(fā)優(yōu)化,例如針對SparkSQL源碼級優(yōu)化開發(fā)。

張老師 AI與高性能計算領(lǐng)域資深講師

復(fù)旦大學(xué)碩士,研究領(lǐng)域:高性能計算、深度學(xué)習(xí)、人工智能、GPU編程

職業(yè)履歷

上海拓途信息技術(shù)有限公司技術(shù)高級工程師2010年-2015年

-為華為代理商提供技術(shù)支持,負(fù)責(zé)包括網(wǎng)絡(luò)設(shè)備、存儲系統(tǒng)及相關(guān)軟硬件集成的實施和運維。

-參與多個項目的技術(shù)方案設(shè)計與實施,確保了客戶在網(wǎng)絡(luò)性能和系統(tǒng)穩(wěn)定性方面的滿意度。

-在項目中深入理解客戶需求,提供定制化的技術(shù)解決方案,有效提高了客戶的系統(tǒng)效率。

萬物新生集團技術(shù)副總裁2015年-2022年

-深入研究并應(yīng)用英偉達的軟硬件技術(shù),帶領(lǐng)團隊解決了多個復(fù)雜的客戶需求。

-負(fù)責(zé)智算集群的規(guī)劃和部署,顯著提升了集團在AI訓(xùn)練、推理和數(shù)據(jù)處理方面的能力。

-主導(dǎo)了英偉達相關(guān)技術(shù)的推廣與應(yīng)用,促進了企業(yè)內(nèi)部對高性能計算和AI技術(shù)的接受和應(yīng)用。

上海迪賽申科技有限公司創(chuàng)始人兼CEO2022年-至今

-自主創(chuàng)業(yè),成立了上海迪賽申科技有限公司,專注于基于英偉達GPU的智算集群建設(shè)。

-負(fù)責(zé)公司業(yè)務(wù)的全面管理和技術(shù)方向的把控,尤其在智算集群建設(shè)、NV算力存儲規(guī)劃及大規(guī)模IB網(wǎng)絡(luò)自動化部署領(lǐng)域取得顯著成果。

-公司成功交付多個基于英偉達技術(shù)的智算集群項目,為客戶提供了高效可靠的計算和存儲解決方案。

專業(yè)能力

-英偉達GPU技術(shù):精通NVIDIAGPU的架構(gòu)與應(yīng)用,包括A100、H100等核心產(chǎn)品,能夠為AI訓(xùn)練、推理及高性能計算提供優(yōu)化的解決方案。

-智算集群規(guī)劃與實施:豐富的智算集群規(guī)劃與實施經(jīng)驗,尤其在大規(guī)模集群建設(shè)、網(wǎng)絡(luò)架構(gòu)設(shè)計及性能優(yōu)化方面具備獨到見解。

-NV算力存儲解決方案:深刻理解并能靈活運用NV算力存儲技術(shù),確保高性能計算環(huán)境中數(shù)據(jù)存儲的效率和可靠性。

-大規(guī)模IB網(wǎng)絡(luò)自動化:在InfiniBand(IB)網(wǎng)絡(luò)架構(gòu)及其自動化管理方面具備深厚的專業(yè)知識,能夠構(gòu)建和管理復(fù)雜的網(wǎng)絡(luò)系統(tǒng)。

-項目管理與交付:具備豐富的項目管理經(jīng)驗,能夠有效確保項目按時按質(zhì)交付,并在項目評審中獲得客戶的高度認(rèn)可。

項目經(jīng)驗

項目一:基于英偉達GPU的高校AI訓(xùn)練集群建設(shè)

-項目背景:某高校希望建設(shè)一個用于AI訓(xùn)練和科學(xué)研究的高性能計算平臺,要求系統(tǒng)具備高擴展性、低延遲和高吞吐量。

-解決方案:采用NVIDIAA100GPU,配置32個DGXA100系統(tǒng),并通過MellanoxInfiniBand網(wǎng)絡(luò)實現(xiàn)節(jié)點間的高效通信。使用NetAppAFFA800存儲系統(tǒng),結(jié)合NVIDIAGPUDirectStorage優(yōu)化數(shù)據(jù)傳輸路徑,顯著提升了數(shù)據(jù)讀寫速度。

-**項目成果**:系統(tǒng)成功交付并通過驗收,運行穩(wěn)定,能夠高效處理復(fù)雜的AI訓(xùn)練任務(wù),極大提升了高??蒲心芰??;鶞?zhǔn)測試結(jié)果顯示,集群在深度學(xué)習(xí)模型訓(xùn)練任務(wù)中的效率提升了50%以上。

項目二:企業(yè)級AI推理與大數(shù)據(jù)分析平臺

-項目背景:某大型企業(yè)需要一個支持實時推理和大數(shù)據(jù)分析的計算平臺,要求系統(tǒng)具備高可用性、高擴展性,并能夠處理海量數(shù)據(jù)。

-解決方案:采用NVIDIAH100GPU,配置64個DGXH100系統(tǒng),并結(jié)合PureStorageFlashBlade存儲系統(tǒng),提供快速的數(shù)據(jù)存取。使用NVIDIAMagnumIO優(yōu)化存儲和計算間的數(shù)據(jù)傳輸效率,部署NVIDIATritonInferenceServer以實現(xiàn)高效的多模型推理。

-項目成果:項目按時交付并通過驗收,系統(tǒng)在多任務(wù)并發(fā)處理下保持了高效性能,并在推理速度和大數(shù)據(jù)分析速度方面達到了客戶預(yù)期。該系統(tǒng)使企業(yè)的數(shù)據(jù)處理效率提高了40%,有效支持了業(yè)務(wù)決策的實時性。

項目三:國家級超算與AI融合計算中心

-項目背景:某國家級科研機構(gòu)計劃建設(shè)一個融合HPC和AI的超級計算中心,以支持前沿科學(xué)研究和大規(guī)模AI模型的訓(xùn)練。

-解決方案:采用NVIDIAA100GPU,部署了512個DGXSuperPOD系統(tǒng),使用WekaIO超高性能存儲系統(tǒng)確保數(shù)據(jù)吞吐量。通過NVIDIAQuantum-2InfiniBand交換機實現(xiàn)超高帶寬、低延遲的網(wǎng)絡(luò)連接,結(jié)合BrightClusterManager進行集群管理與自動化部署。

-項目成果:項目成功交付,系統(tǒng)在綜合性能測試中表現(xiàn)優(yōu)異,HPC和AI任務(wù)的運行效率顯著提高。系統(tǒng)通過了嚴(yán)格的性能基準(zhǔn)測試,成為國家級科研項目的核心計算平臺,大幅提升了該機構(gòu)的科研效率。

職業(yè)成就與榮譽

-NVIDIA技術(shù)認(rèn)證專家:在GPU計算、AI訓(xùn)練與推理、數(shù)據(jù)中心優(yōu)化等領(lǐng)域獲得NVIDIA認(rèn)證。

-創(chuàng)業(yè)成就:成功創(chuàng)立并運營上海迪賽申科技有限公司,在業(yè)界樹立了良好的技術(shù)和服務(wù)口碑。

-項目管理獎項:多次獲得客戶和合作伙伴的項目管理和技術(shù)貢獻獎項,項目交付質(zhì)量和客戶滿意度在業(yè)內(nèi)享有盛譽。

陶老師 高性能計算專家

正高,大學(xué)客座教授,中國人工智能學(xué)會可拓學(xué)專委會理事,國家知識產(chǎn)權(quán)局專家,省學(xué)科帶頭人,市領(lǐng)軍和拔尖人才,全球五百強畢馬威特聘顧問。長期致力于技術(shù)創(chuàng)新領(lǐng)域,在全國7個省市做技術(shù)培訓(xùn)。課程內(nèi)容涵蓋從基礎(chǔ)理論到實際應(yīng)用,幫助學(xué)員掌握前沿技術(shù),提升數(shù)據(jù)中心及高性能計算環(huán)境的運維能力。專注于技術(shù)創(chuàng)新領(lǐng)域。全國累計培訓(xùn)企業(yè)和單位突破100余場,培訓(xùn)學(xué)員人數(shù)5000人次。有著幾百余天的授課經(jīng)驗。與騰訊項目長期簽約。主持3個課題并獲一等獎,獲國家授權(quán)專利1項。在核心期刊、省級期刊公開發(fā)表高質(zhì)量論文12篇。評標(biāo)專家。智庫研究員。項目管理技術(shù)雜志專家評委,熟悉運營商D-ICT項目管理相關(guān)工作。參與制定行業(yè)標(biāo)準(zhǔn)。長期致力于技術(shù)培訓(xùn)授課,致力于NV基礎(chǔ)設(shè)施關(guān)鍵技術(shù),致力于基于英偉達GPU建設(shè)的智算集群建設(shè),擁有16年項目和項目群、項目組合、風(fēng)險管理等方面工作實戰(zhàn)經(jīng)驗,擅長產(chǎn)品設(shè)計、系統(tǒng)集成、通信工程、生產(chǎn)制造、金融投資、工程投資、政府領(lǐng)域的企業(yè)管理培訓(xùn)與教練輔導(dǎo)技術(shù)。

專業(yè)能力

熟悉云計算、移動互聯(lián)網(wǎng)和大數(shù)據(jù)等行業(yè)熱點發(fā)技術(shù)

在核心期刊上發(fā)表12篇高質(zhì)量專業(yè)技術(shù)論文

主持3個課題并獲得市三等獎

申報1項國家專利

精通LTE技術(shù)原理和網(wǎng)絡(luò)規(guī)劃優(yōu)化,精通LTE網(wǎng)絡(luò)維護和優(yōu)化工作,負(fù)責(zé)開發(fā)LTE終端網(wǎng)絡(luò)測試軟件,具有豐富的LTE項目實施經(jīng)驗。熟悉通信工程施工的的各個環(huán)節(jié)。

主講課程內(nèi)容

NV基礎(chǔ)設(shè)施關(guān)鍵技術(shù)

基于英偉達GPU建設(shè)的智算集群建設(shè)含設(shè)備選型

基于英偉達環(huán)境的智算中心測試方案與標(biāo)準(zhǔn)

英偉達NCCL集合通信優(yōu)化方案

英偉達分布式訓(xùn)練與微調(diào)進階

英偉達融合算子優(yōu)化技術(shù)與實戰(zhàn)

基于華為昇騰環(huán)境的智算集群建設(shè)交付含設(shè)備選型

基于昇騰環(huán)境的智算中心測試方案與標(biāo)準(zhǔn)

昇騰算子開發(fā)相關(guān)

華為HCCL集合通信相關(guān)

昇騰智算集群網(wǎng)絡(luò)設(shè)備相關(guān)

項目交付管理

DICT項目全流程管理

DICT關(guān)鍵技術(shù)與行業(yè)應(yīng)用

通信行業(yè)分析與投資機遇

行業(yè)信息化落地方案

5G技術(shù)基礎(chǔ)知識與組網(wǎng)

5G網(wǎng)絡(luò)商業(yè)模式發(fā)展與業(yè)務(wù)展望

新時代下運營商經(jīng)營策略

智慧城市和智能小區(qū)行業(yè)發(fā)展

無線通信基本原理

移動通信網(wǎng)絡(luò)規(guī)劃

基站站點的勘察設(shè)計和施工規(guī)范

LTE技術(shù)基本原理

LTE網(wǎng)絡(luò)規(guī)劃和建設(shè)

LTE網(wǎng)絡(luò)維護

LTE網(wǎng)絡(luò)優(yōu)化

LTE信令協(xié)議和參數(shù)

VOLTE和網(wǎng)絡(luò)間互操作

LTE業(yè)務(wù)與移動互聯(lián)網(wǎng)業(yè)務(wù)

通信企業(yè)技術(shù)類內(nèi)訓(xùn)師培訓(xùn)

孫老師?云原生及智能算力專家

熟悉政府行業(yè)項目運作機制,關(guān)注政策并具有產(chǎn)業(yè)趨勢分析能力,結(jié)合國標(biāo)和行標(biāo)從產(chǎn)業(yè)全局高度看算力技術(shù)和智算中心的發(fā)展,同時熟悉政府和央國企行文方式,有較強的規(guī)劃材料、申報材料編寫和講解能力。本人有多年從事技術(shù)管理及咨詢實踐的工作經(jīng)驗,熟悉政府、央國企數(shù)字化轉(zhuǎn)型發(fā)展要求,精通云計算、數(shù)字化轉(zhuǎn)型、智算中心、算力技術(shù)相關(guān)領(lǐng)域技術(shù)特點和發(fā)展趨勢,對工作充滿熱情,熱愛思考和學(xué)習(xí),在工作繁忙中還筆耕不輟,寫了多本專業(yè)書籍和數(shù)字化轉(zhuǎn)型方面的書籍,抗壓心理素質(zhì)好。

著作和獎項

《云原生基礎(chǔ)架構(gòu)》譯者2018年出版

《企業(yè)私有云建設(shè)指南》作者2019年出版

《油氣行業(yè)數(shù)字化轉(zhuǎn)型》編者2020年出版

《數(shù)字化管理師能力評價與培養(yǎng)》作者2024年10月即將出版

榮獲阿里云MVP、騰訊云TVP、華為云MVP

工作履歷

1、中科天機技術(shù)有限公司CTO兼技術(shù)總監(jiān)(2024年4月至今)

負(fù)責(zé)湖北安陸智算中心技術(shù)平臺的規(guī)劃、建設(shè)和運營技術(shù)支持,包括整體智算的組網(wǎng)、集群的設(shè)計及部署、智算存儲的設(shè)計及部署,并對智算平臺整體技術(shù)把關(guān),對疑難問題進行排查和處理。

負(fù)責(zé)北京石景山智算平臺的規(guī)劃、建設(shè)和運營技術(shù)支持,包括整體智算中心的組網(wǎng)、集群的設(shè)計及部署、分布式存儲的設(shè)計及部署,并對智算平臺整體的方案匯報和技術(shù)把關(guān),對前期點亮的200P算力進行部署和調(diào)優(yōu)。

負(fù)責(zé)金融業(yè)智算行業(yè)解決方案的調(diào)研編寫和規(guī)劃、技術(shù)支持,包括智算集群的組網(wǎng)、集群的設(shè)計及部署、分布式存儲的設(shè)計及部署,并對行業(yè)整體的方案匯報和技術(shù)把關(guān)。對接了某些銀行的智能技術(shù)部并進行了技術(shù)和方案上的合作共建。

2、北京鴻雪信息科技有限公司CTO兼首席咨詢師(2021年10月至2024年3月)

參與多項國家標(biāo)準(zhǔn)、團體標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)的研討和編纂,聯(lián)合信通院專家、參編企業(yè)專家共同召開標(biāo)準(zhǔn)編纂項目啟動會和研討會,與院所、參編企業(yè)等專家共同討論標(biāo)準(zhǔn)名稱、標(biāo)準(zhǔn)框架、標(biāo)準(zhǔn)指標(biāo)等內(nèi)容范圍,結(jié)合各項標(biāo)準(zhǔn)展開咨詢和評估測試。

參加信通院多項智算中心算力標(biāo)準(zhǔn)研討,對接信通院和北京通信管理局拉通北京算力互聯(lián)互通平臺的驗證和測試。申報算力浦江行動計劃,對接信通院華東分院和上海通信管理局,拉通算力浦江相關(guān)算力標(biāo)準(zhǔn)的建設(shè)和研討,幫助公司申請到算力浦江的專委會成員單位。

主導(dǎo)并負(fù)責(zé)數(shù)字化轉(zhuǎn)型成熟度平臺IT能力咨詢評估---中國電信集團主導(dǎo)并負(fù)責(zé)數(shù)字化轉(zhuǎn)型成熟度平臺IT能力咨詢評估-云智平臺化-中移信息主導(dǎo)并負(fù)責(zé)數(shù)字化轉(zhuǎn)型成熟度業(yè)務(wù)IT能力咨詢評估-智慧財務(wù)-廣東移動、中海物業(yè)主導(dǎo)并負(fù)責(zé)數(shù)字化轉(zhuǎn)型成熟度業(yè)務(wù)IT能力咨詢評估-業(yè)務(wù)中臺評估-中移信息主導(dǎo)并負(fù)責(zé)數(shù)字化轉(zhuǎn)型成熟度業(yè)務(wù)IT能力咨詢評估-智慧采購-中移信息主導(dǎo)并負(fù)責(zé)數(shù)字化轉(zhuǎn)型成熟度業(yè)務(wù)IT能力咨詢評估-智慧管理-中移信息主導(dǎo)并負(fù)責(zé)數(shù)字化轉(zhuǎn)型成熟度業(yè)務(wù)IT能力咨詢評估-客戶服務(wù)體驗-云南移動主導(dǎo)并負(fù)責(zé)云原生技術(shù)架構(gòu)成熟度能力咨詢評估-中移蘇研主導(dǎo)并負(fù)責(zé)電信核心應(yīng)用系統(tǒng)現(xiàn)代化建設(shè)水平咨詢評估-江蘇移動

工作業(yè)績:完成數(shù)字化轉(zhuǎn)型成熟度、智慧財務(wù)、業(yè)務(wù)中臺、智慧采購、智慧管理、客戶服務(wù)體驗、云原生技術(shù)架構(gòu)、應(yīng)用現(xiàn)代化咨詢評估,深入客戶現(xiàn)場調(diào)研,形成了數(shù)字化轉(zhuǎn)型咨詢和評估方案,結(jié)合客戶的問題針對提出整改提升的具體能力提升建議和解決方案,幫助客戶持續(xù)提升數(shù)字化轉(zhuǎn)型能力,并取得良好數(shù)字化轉(zhuǎn)型實踐效果。結(jié)合咨詢實踐,反哺到標(biāo)準(zhǔn)和指標(biāo)優(yōu)化,進一步豐富和完善了標(biāo)準(zhǔn),為標(biāo)準(zhǔn)的落地和推廣應(yīng)用奠定了堅實的基礎(chǔ)。同時在工作中不斷完善和豐富了面向行業(yè)咨詢的經(jīng)驗,為拓展不同行業(yè)客戶積累了豐富的經(jīng)驗和能力。

3、昆侖數(shù)智科技數(shù)字化能力中心技術(shù)總監(jiān)兼數(shù)字化咨詢師

參與中油瑞飛數(shù)字化轉(zhuǎn)型的頂層規(guī)劃與設(shè)計

負(fù)責(zé)咨詢國家管網(wǎng)西南管道數(shù)字化轉(zhuǎn)型的頂層規(guī)劃與設(shè)計、智慧管網(wǎng)的規(guī)劃

負(fù)責(zé)咨詢長慶油田的數(shù)字化轉(zhuǎn)型規(guī)劃與項目設(shè)計

負(fù)責(zé)咨詢大慶油田采油九廠的數(shù)字化轉(zhuǎn)型與項目設(shè)計

參與昆侖數(shù)智數(shù)字化平臺的整體規(guī)劃與設(shè)計

參與昆侖數(shù)智數(shù)據(jù)中臺的整體規(guī)劃與設(shè)計

負(fù)責(zé)并梳理昆侖數(shù)智數(shù)字化產(chǎn)品與解決方案

工作業(yè)績:

完成中油瑞飛數(shù)字化轉(zhuǎn)型的頂層規(guī)劃與設(shè)計,深入業(yè)務(wù)板塊調(diào)研,形成了18個數(shù)字

化場景的項目卡片,持續(xù)推進公司運營管理和業(yè)務(wù)的數(shù)字化轉(zhuǎn)型,初步取得良好數(shù)字化轉(zhuǎn)型效果。在集團內(nèi)部,參與長慶油田、大慶油田及西南管道的數(shù)字化頂層規(guī)劃與設(shè)計,積累了豐富的咨詢經(jīng)驗,并在轉(zhuǎn)型中不斷思考和沉淀,形成了自己的數(shù)字化轉(zhuǎn)型方法論,并和信通院合作完成了數(shù)字化成熟度評估模型和指標(biāo)體系,促進了數(shù)字化轉(zhuǎn)型,為集團整體的數(shù)字化轉(zhuǎn)型打下了基礎(chǔ)。2020年9月,與信通院合作發(fā)布油氣行業(yè)數(shù)字化白皮書,編輯并出版第一本《油氣行業(yè)數(shù)字化轉(zhuǎn)型》書籍,在能源業(yè)界有一定影響。

云計算事業(yè)部系統(tǒng)架構(gòu)師2014年5月至2019年4月

參與中石油F12云計算平臺的IAAS規(guī)劃部署和測試及上線

參與中石油F9災(zāi)難恢復(fù)系統(tǒng)一二期的規(guī)劃設(shè)計及部署實施上線

參與中石油F12云計算平臺的PAAS規(guī)劃設(shè)計與部署上線

2015年負(fù)責(zé)中石油和INTEL軟件定義存儲的4家廠商產(chǎn)品的聯(lián)合測試和評估2016負(fù)責(zé)測試評估阿里企業(yè)專有云1130版,阿里專有云平臺技術(shù)評估負(fù)責(zé)人2016負(fù)責(zé)測試和評估華為的FusionSphere云操作系統(tǒng)基礎(chǔ)管理軟件

2017參與測試信息安全F14項目海量日志的大數(shù)據(jù)采集和評估系統(tǒng)

2018參與云統(tǒng)一運維體系建設(shè)和實施規(guī)劃

2019參與中石油F12云計算平臺2.0的規(guī)劃和設(shè)計熟悉服務(wù)器、存儲、網(wǎng)絡(luò)等硬件產(chǎn)品和功能特性,對企業(yè)云計算、高性能計算、軟件定義數(shù)據(jù)中心等解決方案比較熟悉;

熟悉kubernetes和容器技術(shù)及架構(gòu),部署及運維

4、北京同方鼎欣技術(shù)有限公司2012年11月至2014年4月

IT技術(shù)一部高級運維兼移動項目負(fù)責(zé)人

負(fù)責(zé)北京移動KM\MOA\統(tǒng)一知識社區(qū)項目的運維和管理

負(fù)責(zé)生產(chǎn)系統(tǒng)的Unix\linux優(yōu)化配置、運維支撐與安全

負(fù)責(zé)智算中心數(shù)據(jù)遷移、災(zāi)備項目的規(guī)劃、方案設(shè)計

參與中國移動廣州南方基地私有云知識社區(qū)項目的規(guī)劃設(shè)計和集成部署

熟悉IBM的WEBSPHERE/IHS/MQ軟件

熟悉ORACLE,熟悉LINUX/SHELL/DB2/MYSQL/MONGODB的部署、配置與優(yōu)化。

過往相關(guān)案例

訓(xùn)練營名稱

培訓(xùn)周期

培訓(xùn)內(nèi)容

服務(wù)客戶

Nvidia全系技術(shù)棧培訓(xùn)-技術(shù)架構(gòu)、智算平臺、算力中心建設(shè)

14天

詳盡解析英偉達技術(shù)體系,包括DGX、HGX、GPU技術(shù)及IB網(wǎng)絡(luò)架構(gòu),及其在智算平臺中的應(yīng)用。不論是面向AI開發(fā)框架的深入了解,還是大模型的端到端調(diào)優(yōu),線上及線下雙模式培訓(xùn)都將提供豐富的實操經(jīng)驗。讓企業(yè)在英偉達系統(tǒng)中,提升大模型性能,優(yōu)化智算中心的設(shè)計與運維,精通存儲和網(wǎng)絡(luò)基礎(chǔ)設(shè)施的構(gòu)建。

某智算集群建設(shè)廠商

從訓(xùn)練到推理,LLM大模型技術(shù)培訓(xùn)

6天

內(nèi)容全面揭示大模型技術(shù)的核心原理與應(yīng)用。深入探討大模型從理論到實踐的每一個環(huán)節(jié),包括大模型的理論基礎(chǔ)、關(guān)鍵技術(shù)如分布式并行計算、訓(xùn)練加速技術(shù),以及推理優(yōu)化技術(shù)。

中國石油數(shù)據(jù)中心

RAG&CoT深度技術(shù)課程

2天

《RAG&CoT深度技術(shù)課程》是為某IT軟件上市公司的AI系統(tǒng)開發(fā)團隊定制研發(fā)的高級培訓(xùn)課程,旨在深入講解大語言模型(LLM)領(lǐng)域的兩大前沿技術(shù):RAG(Retrieval-AugmentedGeneration)和思維鏈(ChainofThought,CoT)。本課程通過理論與實踐相結(jié)合的方式,詳細(xì)介紹RAG和CoT技術(shù)的基本原理、應(yīng)用場景、技術(shù)實現(xiàn)方法以及最新的研究進展,幫助學(xué)員全面掌握這些技術(shù)的核心要點。

新致軟件

LLM大模型技術(shù)內(nèi)訓(xùn)

4天

本次培訓(xùn)項目是為華南某大型商業(yè)銀行研發(fā)中心的產(chǎn)品經(jīng)理、研發(fā)工程師、算法工程師定制開發(fā)的全面的大模型知識及其在金融行業(yè)中的應(yīng)用培訓(xùn)和課題研討。通過本次課程,學(xué)員深入了解了大語言模型(LLM)的基本原理、應(yīng)用場景、案例分析以及實際操作技巧,從而在需求溝通和產(chǎn)品設(shè)計中能夠更好地運用大模型技術(shù)。

廣發(fā)銀行

高性能計算環(huán)境下的算力集群規(guī)劃與優(yōu)化

12天

本課程旨在為數(shù)據(jù)中心的運維工程師、IT工程師提供一套全面且深入的培訓(xùn),涵蓋從算力集群的規(guī)劃與設(shè)計、POC環(huán)境的搭建,到GPU、CUDA、算力模型、應(yīng)用調(diào)優(yōu)、應(yīng)用性能監(jiān)測、算力調(diào)度管理、網(wǎng)絡(luò)調(diào)優(yōu)和安全保障等多個關(guān)鍵領(lǐng)域。整個課程注重實操,旨在提升學(xué)員的動手能力,使其能夠在實際工作中高效地管理和優(yōu)化高性能計算環(huán)境。

某智算集群建設(shè)廠商

http://aloenet.com.cn/news/36359.html

相關(guān)文章:

  • 網(wǎng)頁制作工具常見的有哪些太原百度快速優(yōu)化
  • 用爬蟲做網(wǎng)站如何查看一個網(wǎng)站的訪問量
  • 網(wǎng)站開發(fā)技術(shù)的現(xiàn)狀及發(fā)展趨勢百度快照怎么刪除
  • 沈陽外貿(mào)網(wǎng)站建設(shè)寧波seo免費優(yōu)化軟件
  • 做網(wǎng)站和程序員哪個好點電商運營培訓(xùn)班多少錢
  • 做網(wǎng)站需要獨立顯卡嗎成都網(wǎng)多多
  • 手機上如何做網(wǎng)站湖南靠譜seo優(yōu)化
  • 建筑招聘網(wǎng)站哪個好網(wǎng)站建設(shè)排名優(yōu)化
  • 網(wǎng)站建設(shè)待遇怎樣長尾關(guān)鍵詞挖掘熊貓
  • 手機網(wǎng)站模板免費電子商務(wù)網(wǎng)站建設(shè)多少錢
  • 住房和城鄉(xiāng)建設(shè)部網(wǎng)站證書查詢百度服務(wù)商
  • 上海 有哪些做網(wǎng)站的公司好想做游戲推廣怎么找游戲公司
  • 免費一級域名網(wǎng)站西安百度框架戶
  • 職業(yè)生涯規(guī)劃大賽的意義短視頻seo系統(tǒng)
  • 給別人建網(wǎng)站工作行嗎廣告開戶
  • 網(wǎng)站建設(shè)維護及使用管理辦法深圳seo優(yōu)化公司哪家好
  • 南陽政府做網(wǎng)站推廣嗎網(wǎng)站推廣策劃報告
  • b2c網(wǎng)站建設(shè) 模板搜索引擎關(guān)鍵詞優(yōu)化方案
  • 發(fā)布培訓(xùn)的免費網(wǎng)站模板產(chǎn)品網(wǎng)絡(luò)推廣的方法
  • 做網(wǎng)站被騙了怎么辦搭建網(wǎng)站工具
  • 蕪湖市建設(shè)工程質(zhì)量監(jiān)督站網(wǎng)站百度推廣的方式有哪些
  • 個體戶 做網(wǎng)站個人網(wǎng)頁生成器
  • 濰坊做網(wǎng)站建設(shè)站長seo工具
  • 圖片展示 網(wǎng)站線上平臺推廣方案
  • 中國建設(shè)網(wǎng)站用戶名上海專業(yè)的seo公司
  • 無錫高端網(wǎng)站建設(shè)咨詢磁力王
  • 網(wǎng)頁設(shè)計網(wǎng)站教程打廣告
  • 國內(nèi)最好的軟件網(wǎng)站建設(shè)關(guān)鍵詞優(yōu)化話術(shù)
  • 直銷網(wǎng)站系統(tǒng)制作價格小說引流推廣
  • 正規(guī)的微信推廣平臺網(wǎng)站結(jié)構(gòu)優(yōu)化的內(nèi)容和方法