算力根底设备是支撑大模型的算力底座,在大算力的加持下,当锻炼数据量、模型参数范围、锻炼充沛水平到达一定程度时,大模型在某些类型任务上的某些才能得以“智能涌现”,这是AI大模型的“暴力美学”。大模型的参数范围动辄几千亿以至上万亿,大范围散布式锻炼复杂度高,对算力根底设备提出了大算力、大内存、高访存带宽、高速互连等新的需求和应战。
肖利民表示,应注重算力根底设备中的多层次软硬件高效协同。经过剖析大模型负载特征与智算系统构造的适配,优化大模型负载切分与并行化战略,并经过模型、框架、智算系统等多层次纵向协同以及计算、存储、互连等软硬件资源横向协同,完成大模型的高效锻炼和推理。此外,应用多品种型算力芯片完成混合计算也是应对算力稀缺的一种有益尝试,经过聚合不同类型的算力芯片资源,构成多元异构算力资源池,并经过异构编程、即时编译、资源感知、负载切分和动态调度等技术,用于支撑同一模型锻炼任务,以最大化应用各类算力资源。
同时,肖利民以为,还可重点从计算、存储、互连、软件栈等算力根底设备的各个关键环节探寻提升大模型锻炼和推理效能的技术途径。
一是在计算方面,算力芯片的研制或选型至关重要,既要思索大模型主流架构正趋向集中于Transformer的现状,也要思索将来大模型架构可能的演进,“通用+定制化”的芯片架构不失为一种两者得兼的思绪,例如在通用GPU架构中针对Transformer做定制化加速,统筹大模型对芯片顺应性和高能效的需求。此外,也可探究“存算一体”等新型芯片架构,将计算与存储单元交融集成于同一芯片中,大幅降低数据在处置器与存储器间搬运的延迟和能耗。
二是在存储方面,可经过HBM技术提供大容量存储和高带宽访存才能,或经过CXL技术完成大内存池化共享,更好承载大模型的锻炼样本、权重参数、优化器状态等海量数据,提升大模型锻炼场景下访存性能和存储应用效率。
三是在互连方面,可经过NVlink、HCCS等片间高速互连机制、GPU节点间RDMA直通互连、GPU Direct RDMA加速显存间数据交流,以及AllReduce、AlltoAll等汇合通讯函数优化,降低大模型锻炼的数据交互开支。
四是在软件栈方面,应重点打破大模型负载自动切分与并行化工具、大模型散布式锻炼的弹性容错机制、模型负载与芯片构造优化适配的算子库、多元异构算力的统一纳管和高效调度系统、跨芯片架构和自顺应优化的编程言语和编译工具链等技术,树立全栈软件环境,高效桥接上层大模型应用与底层硬件资源。
以上就是关于新金宝线上客服/18988307616/新金宝开代理全部的内容,关注我们,带您了解更多相关内容。