大模型时代的基础架构:大模型算力中心建设指南
作者: 方天戟 著11.98万字44人 正在读
已完结现代当代当代文学
目录 (112章)
倒序
正文
1.1我们在谈论AI时,到底在谈论什么1.2机器学习算法初窥1.3一元线性回归算法剖析1.4机器学习算法对计算机硬件的特殊需求1.4.1机器学习算法的核心运算特征1.4.2使用CPU实现机器学习算法和并行加速1.4.3机器学习算法的主力引擎——GPU1.4.4机器学习算法的新引擎——TPU和NPU1.5本章小结2.1GPU并行运算库2.3分布式AI训练2.4本章小结第3章GPU硬件架构剖析3.1GPU的总体设计3.2NvidiaGH100芯片架构剖析3.3其他Hopper架构的GPU3.4本章小结第4章GPU服务器的设计与实现4.1初识NvidiaDGX4.2NvidiaDGXA100的总体设计4.3NvidiaDGXA100CPU与内存子系统的设计4.4NvidiaDGXA100PCI-E子系统的设计4.5NvidiaDGXA100NVLink子系统的设计4.6其他辅助子系统的设计4.7本章小结第5章机器学习所依托的I/O框架体系5.1MagnumIO的需求来源5.2MagnumIO的核心组件5.3服务器内部的GPU互通5.4跨服务器节点的GPU通信5.5RDMA的两种实现5.6GPU对存储的访问5.7MagnumIO所依赖的其他支撑技术5.7.1DPDK(DataPlaneDevelopmentKit,数据平面开发套件)5.7.2DPU(DataProcessingUnit,数据处理器)5.7.3MPITagMatching5.8本章小结第6章GPU集群的网络设计与实现6.1GPU集群中RoCE计算网络的设计与实现6.2GPU集群中存储与业务网络的设计与实现6.3GPU集群中带外管理监控网络的设计与实现6.4GPU集群中网络边界的设计与实现6.5本章小结第7章GPU板卡级算力调度技术7.1基于虚拟化技术的GPU调度7.2基于容器技术的GPU调度7.3本章小结第8章GPU虚拟化调度方案8.1Nvidia的GPU虚拟化调度方案8.1.1APIRemoting与vCUDA8.1.2GRIDvGPU8.1.3NvidiaMIG8.2其他硬件厂商的GPU虚拟化调度方案8.2.1AMD的SRIOV方案8.2.2Intel的GVT-G方案8.3云厂商与开源社区基于容器的GPU虚拟化调度方案8.3.1TKEvCUDA+GPUManager8.3.2阿里云的cGPU8.3.3腾讯云的qGPU8.4本章小结第9章GPU集群的网络虚拟化设计与实现9.1基于SDN的VPC技术:网络虚拟化技术的基石9.2云负载均衡:机器学习网络的中流砥柱9.3专线接入、对等连接与VPC网关9.4SDNNFV网关的实现与部署9.4.1基于virtio-net/vhost的虚拟机部署NFV9.4.2基于SRIOV的虚拟机部署NFV9.4.3使用DPDK技术对NFV加速9.5本章小结第10章GPU集群的存储设计与实现10.1.1块存储的业务需求10.1.2集中式块存储与分布式块存储10.1.3分布式块存储的故障恢复10.1.4分布式块存储的性能优化10.1.5分布式块存储的快照与回滚10.2海量非结构化数据存储——分布式对象存储10.2.1入门级对象存储的首选:Ceph10.2.2开源海量对象存储:Swift10.2.3商业化对象存储:大型公有云对象存储私有化10.2.4未来之星:MinIO10.3AI训练素材存储——分布式并发高性能存储10.3.1开源大数据存储鼻祖:HDFS10.3.2业界对HDFS的改进10.3.3长青松柏:Lustre10.4本章小结第11章机器学习应用开发与运行平台的设计与实现11.1微服务平台11.1.1Kubernetes:微服务基础能力平台11.1.2SpringCloud:Java系专属微服务平台11.1.3Istio:不挑开发语言,只挑部署架构11.1.4商业化微服务平台:兼顾各类需求的选择11.2中间件服务11.2.1消息中间件11.2.2缓存中间件11.2.3数据库(数据中间件)11.3应用日志服务11.4本章小结第12章基于云平台的GPU集群的管理与运营12.1云运维平台12.1.1硬件基础设施管理12.1.2系统监控与告警平台12.1.3CMDB12.2云运营平台12.3云审计平台12.4本章小结第13章服务机器学习的GPU计算平台落地案例13.1需求来源:自动驾驶模型训练13.2总体设计——基于云原生的高性能计算13.3计算需求分析与设计实现13.4存储需求分析与设计实现13.5网络需求分析与设计实现13.6本章小结
精选推荐
领导力法则
[中国纺织出版社]
陆禹萌
已完结当代文学
销售心理学
[中国纺织出版社]
兰华
已完结当代文学
销售就是玩转情商
[中国纺织出版社]
王威
已完结当代文学
销售员情商实战训练
成功的销售需要高智商,更需要高情商。一个销售员的销售业绩,往往与他的情商成正比。本书从十个方面详细讲述了有效运用情商,提高销售业绩的方法和技巧。通过实际销售案例和销售心理学理论指导,以及实战点拨和情商拓展训练,帮助读者全方位、快速提高情商。故事性、多版块、碎片化的内容设置,有效降低读者阅读疲劳,提高阅读兴趣,不论是奔波在路上的销售小白,还是带领团队奋勇向前的销售经理,都能从中找到适合自己的销售软技巧。
刘军
已完结当代文学
让未来的你,感谢现在勇敢的自己
[中国纺织出版社]
王介威
已完结当代文学
行为心理学:华生的实用心理学课
[中国纺织出版社]
(美)约翰·华生著.倪彩
已完结当代文学
行为心理学入门(完全图解版)
行为心理学入门(完全图解版)是以作者多来年的心理辅导和咨询数据为素材,对现实生活中的行为心理学应用进行了形象、深入、全面的论述和解读。本书与日本心理学图解书形式相同,浅显易读,有趣又益。
武莉
已完结当代文学
自卑与超越
《自卑与(全译插图典藏版)》是个体心理学研究领域的著作,也是人本主义心理学先驱阿尔弗雷德·阿德勒的很好著作。阿德勒的学说以“自卑感”与“创造性自我”为中心,并强调“社会意识”。全书立足个人心理学的观点,从教育、家庭、婚姻、伦理、社交等多个领域,以大量的实例为论述基础,阐明了人生意义的真谛,帮助人们克服自卑、不断超自己,正确对待职业,正确理解社会与性。本书直接促进了亲子教育、人格培养、婚姻与爱情、职业生涯、家庭建设、人际关系等诸多领域的长足发展,成为人们了解心理学的经典读物。
(奥)阿尔弗雷德·阿德勒
已完结当代文学
自制力:道理我都懂,为什么就是过不好人生
[中国纺织出版社]
邱开杰
已完结当代文学