大模型是近年来引人注目的热点之一。大模型蓬勃发展的基础,是针对其需求设计的算力及基础架构。本书针对如何为大模型构建基础架构进行深入讲解,并基于TOGAF方法论,剖析业界知名案例的设计方案。
《大模型时代的基础架构:大模型算力中心建设指南》总计13章。第1章讲解AI与大模型时代对基础架构的需求;第2章讲解软件程序与专用硬件的结合,涉及GPU并行运算库、机器学习程序的开发框架和分布式AI训练;第3章剖析GPU的硬件架构,涉及GPU的总体设计、Nvidia GH100芯片架构和拥有其他Hopper架构的GPU;第4章讲解GPU服务器的设计与实现;第5章讲解机器学习所依托的I/O框架体系;第6章讲解GPU集群的网络设计与实现;第7章讲解GPU板卡算力调度技术;第8章讲解GPU虚拟化调度方案;第9章讲解GPU集群的网络虚拟化设计与实现;第10章讲解GPU集群的存储设计与实现;第11章讲解如何基于云原生技术为机器学习应用设计与实现更好的开发和运行平台;第12章讲解基于云平台的GPU集群的管理与运营,涉及云运维平台、云运营平台和云审计平台;第13章基于一个服务机器学习的GPU计算平台落地案例,展示如何针对机器学习应用进行需求分析、设计与实现。
无论是高等院校计算机与人工智能等相关专业的本科生或研究生,还是对并行计算技术、云计算技术、高性能存储及高性能网络技术感兴趣的研究人员或工程技术人员,都可以参考和阅读本书。本次活动可邀请到作者参与助力 #没读懂# 、#聊一聊#的讨论,助力书籍读者收获更多,感兴趣的网友,欢迎来参与。
如何申请
(1)往下滑到“产品资料”栏,可进一步了解书籍内容,章节设置;
(2)>>点击我要申请,认真填写申请理由、阅读分享计划等,即有机会免费获取书籍。本期活动有1个名额可使用测评券,先用先得。
活动日程
申请时间:7月2日至7月18日
遴选公布:7月22日前,公布全部入围名单
阅读时间:7月29日-9月30日
颁奖时间:活动结束后两周内
阅读要求
(1)收到书籍后,请在EEWorld 测评中心专版自拟标题发表阅读心得,活动期间内,完成您提交的阅读分享计划,至少分享3篇具有实质性内容的心得,进度为至少每15天提交一篇,要求100%原创首发,抄袭会被封杀哦。心得可包含:书籍内容的评价、理解、尝试书中实验过程等;
(2)发起#没读懂#、#聊一聊#讨论(可定期邀请作者助力参与):每个网友在阅读过程中,可根据自己的阅读理解的情况,发起#没读懂#或者#聊一聊#+自拟主题的讨论帖,每个有实质讨论的帖子,视讨论内容和热度情况,可酌情加2~10分,此部分分值,最多可加到20分。
活动评奖
评委将对阅读心得质量、阅读计划完成度、互动章节完成度、分享及时性四方面进行评分。综合分=60%阅读心得质量+10%阅读计划完成度+10%及时性+(#没读懂#、#聊一聊#讨论)得分
综合分 | 奖励 |
综合分>=90分 | 保留阅读书籍+20威望+20芯积分 |
综合分>=75分 | 保留阅读书籍+10威望+10芯积分 |
综合分<75分 | 寄回阅读书籍 |
目录
第1章 AI与大模型时代对基础架构的需求…… 001
1.1 我们在谈论AI时,到底在谈论什么… 002
1.2 机器学习算法初窥… ………………… 004
1.3 一元线性回归算法剖析… …………… 005
1.4 机器学习算法对计算机硬件的特殊需求… ………………… 007
1.4.1 机器学习算法的核心运算特征 …………………… 007
1.4.2 使用CPU实现机器学习算法和并行加速 ………… 009
1.4.3 机器学习算法的主力引擎——GPU ……………… 011
1.4.4 机器学习算法的新引擎——TPU和NPU ………… 014
1.5 本章小结… …… 018
第2章 软件程序与专用硬件的结合…………… 019
2.1 GPU并行运算库 020
2.2 机器学习程序的开发框架… ………… 024
2.3 分布式AI训练… 026
2.4 本章小结… …… 028
第3章 GPU硬件架构剖析… ………………… 030
3.1 GPU的总体设计 031
3.2 Nvidia GH100芯片架构剖析… …… 033
3.3 其他Hopper架构的GPU… ………… 039
3.4 本章小结… …… 039
第4章 GPU服务器的设计与实现… ………… 040
4.1 初识Nvidia DGX… ………………… 043
4.2 Nvidia DGX A100的总体设计……… 044
4.3 Nvidia DGX A100 CPU与内存子系统的设计… ………… 046
4.4 Nvidia DGX A100 PCI-E子系统的设计… ……………… 048
4.5 Nvidia DGX A100 NVLink子系统的设计………………… 051
4.6 其他辅助子系统的设计… …………… 053
4.7 本章小结… …… 054
第5章 机器学习所依托的I/O框架体系… …… 055
5.1 Magnum IO的需求来源… ………… 057
5.2 Magnum IO的核心组件… ………… 058
5.3 服务器内部的GPU互通……………… 059
5.4 跨服务器节点的GPU通信…………… 064
5.5 RDMA的两种实现…………………… 066
5.6 GPU对存储的访问…………………… 068
5.7 Magnum IO所依赖的其他支撑技术… …………………… 070
5.7.1 DPDK( Data Plane Development Kit,数据平面开发套件) ………… 070
5.7.2 DPU(Data Processing Unit,数据处理器) …… 071
5.7.3 MPI Tag Matching ………… 071
5.8 本章小结… …… 071
第6章 GPU集群的网络设计与实现… ……… 073
6.1 GPU集群中RoCE计算网络的设计与实现………………… 075
6.2 GPU集群中存储与业务网络的设计与实现………………… 078
6.3 GPU集群中带外管理监控网络的设计与实现……………… 083
6.4 GPU集群中网络边界的设计与实现… 084
6.5 本章小结… …… 086
第7章 GPU板卡级算力调度技术… ………… 088
7.1 基于虚拟化技术的GPU调度………… 089
7.2 基于容器技术的GPU调度…………… 095
7.3 本章小结… …… 100
第8章 GPU虚拟化调度方案… ……………… 101
8.1 Nvidia的GPU虚拟化调度方案……… 103
8.1.1 API Remoting与vCUDA …… 104
8.1.2 GRID vGPU ………………… 105
8.1.3 Nvidia MIG ………………… 106
8.2 其他硬件厂商的GPU虚拟化调度方案 108
8.2.1 AMD的SRIOV方案………… 108
8.2.2 Intel的GVT-G方案 ………… 109
8.3 云厂商与开源社区基于容器的GPU虚拟化调度方案……… 109
8.3.1 TKE vCUDA+GPU Manager 110
8.3.2 阿里云的cGPU……………… 112
8.3.3 腾讯云的qGPU …………… 113
8.4 本章小结… …… 114
第9章 GPU集群的网络虚拟化设计与实现… 115
9.1 基于SDN的VPC技术:网络虚拟化技术的基石… ……… 116
9.2 云负载均衡:机器学习网络的中流砥柱… ………………… 120
9.3 专线接入、对等连接与VPC网关…… 126
9.4 SDN NFV网关的实现与部署… …… 130
9.4.1 基于virtio-net/vhost的虚拟机部署NFV …………… 130
9.4.2 基于SRIOV的虚拟机部署NFV …………………… 132
9.4.3 使用DPDK技术对NFV加速 133
9.5 本章小结… …… 135
第10章 GPU集群的存储设计与实现………… 137
10.1 程序与系统存储——分布式块存储… …………………… 138
10.1.1 块存储的业务需求 ……… 138
10.1.2 集中式块存储与分布式块存储 ………………… 139
10.1.3 分布式块存储的故障恢复 142
10.1.4 分布式块存储的性能优化 145
10.1.5 分布式块存储的快照与回滚 …………………… 146
10.2 海量非结构化数据存储——分布式对象存储… ………… 148
10.2.1 入门级对象存储的首选:Ceph ………………… 149
10.2.2 开源海量对象存储:Swift 152
10.2.3 商业化对象存储:大型公有云对象存储私有化 154
10.2.4 未来之星:Minio ………… 156
10.3 AI训练素材存储——分布式并发高性能存储… ………… 157
10.3.1 开源大数据存储鼻祖:HDFS …………………… 159
10.3.2 业界对HDFS的改进 ……… 161
10.3.3 长青松柏:Lustre ………… 163
10.4 本章小结… … 166
第11章 机器学习应用开发与运行平台的设计与实现… …………… 167
11.1 微服务平台… 168
11.1.1 Kubernetes:微服务基础能力平台 ……………… 169
11.1.2 Spring Cloud:Java系专属微服务平台 ………… 173
11.1.3 Istio:不挑开发语言,只挑部署架构 …………… 176
11.1.4 商业化微服务平台:兼顾各类需求的选择……… 183
11.2 中间件服务… 189
11.2.1 消息中间件………………… 190
11.2.2 缓存中间件………………… 195
11.2.3 数据库(数据中间件)…… 197
11.3 应用日志服务… …………………… 201
11.4 本章小结… … 203
第12章 基于云平台的GPU集群的管理与运营 205
12.1 云运维平台… 206
12.1.1 硬件基础设施管理 ……… 206
12.1.2 系统监控与告警平台 …… 208
12.1.3 CMDB 210
12.2 云运营平台… 211
12.3 云审计平台… 212
12.4 本章小结… … 213
第13章 服务机器学习的GPU计算平台落地案例…………………… 214
13.1 需求来源:自动驾驶模型训练… … 215
13.2 总体设计——基于云原生的高性能计算… ……………… 218
13.3 计算需求分析与设计实现… ……… 218
13.4 存储需求分析与设计实现… ……… 219
13.5 网络需求分析与设计实现… ……… 220
13.6 本章小结… … 222
后记 223
前言
从2022年年底开始,以ChatGPT为代表的生成式人工智能(AIGC)技术,便成为全球广泛关注的热点。
AIGC技术的落地,离不开大模型。大模型指包含的参数量达到十亿级别,需要采用多任务、分布式机器学习训练系统的深度神经网络模型。以GPT-3为例,其参数量达到了1 750亿之巨。
以大模型与AIGC为代表的AI(人工智能)技术,对提供算力的基础架构的构建,也提出了更高的要求。由于训练大模型往往需要昂贵的算力设备,所以如何构建稳定、高效、易扩展的基础架构,让昂贵的算力设备尽量发挥至高效能,也成为架构师们探索的重要方向。
本书首先从AI算法的特点开始,分析了AI相关应用的架构及对应的硬件特性,然后对如何构建、扩展、运行支撑AI应用的硬件平台,以及如何调度AI算力并构建支撑应用的存储、网络、中间件、运维、运营平台进行了讨论。期望读者在阅读本书以后,能思考和理解以下问题。
AI算法主要有哪些,它们的共同特点是什么?
如何便捷地开发AI算法程序?
如何部署和调度AI算法程序?
AI算法程序需要哪些硬件特性的支持,又是如何调用这些硬件的?
分布式AI计算依赖哪些硬件特性?
如何调度AI算力,使之服务于不同用户的不同应用,并尽可能发挥硬件的计算能力?
怎样构建能够无限横向扩展的AI算力平台,并为AI算力集群构建不同业务需要的通信网络?
如何高效、可靠地存取AI算法程序所需的海量数据及训练成果?
如何为AI算法程序提供中间件、数据库和微服务框架等支撑组件,避免程序员重复“造轮子”,提升开发、部署效率?
如何运维、运营AI算力平台,让平台资源得到充分利用,让成本中心转型为利润中心?
下面,让我们翻开本书,找到这些问题的答案,成为大模型时代合格的云计算架构师。
推荐序一
蒙作者不弃,邀我为其大作写推荐序。我虽然也算是电子信息行业的从业者,但既非行业大咖,又非专业技术大佬,更不从事大模型建设这么具体、高深的工作,哪有资格写推荐序呢?大感为难。
但在认真读了本书之后,我深有感触,愿意从资深读者的角度,分享一点儿心得,向大家推荐本书。
读本书,可以从知识、方法、审美这三个不同的角度入手。而这三个角度,正如万花筒上的三块玻璃,组合起来轻轻一转,就会呈现花团锦簇的大千世界。
首先,说说知识。
我们最广大的读者,多半只是人工智能的使用者,没有机会建造大模型。但那就可以偷懒,把它当作一个黑箱,闭着眼睛接受它输出的结果吗?当然不可以。
如今的社会是一个技术性的社会。如果对其主要的技术工具知其然而不知其所以然,就会在它的各种升级换代场景中疲于奔命,却不知自己为啥总是被动应对,不赶趟。
只有主动去理解这些技术工具所涉及的根本逻辑和特点,才有可能主动预见其发展和应用场景,提前做好准备。
也就是说,与其偷懒而天天被人工智能的各个新版本“拖着走”,不如花点儿时间好好读读本书,理解大模型的逻辑,也许还有机会“领着”人工智能“走”呢!
虽说知识就是力量,但也还得先下手为强,不是吗?
以上是从个人的角度讲,我们需要好好读读本书,获取相关知识。
从人工智能发展的角度讲,我们也需要更多地理解人工智能的基础知识和基本逻辑。
纵观人类的发展史,科学和技术但凡被转化为产业,造福大众,就必然需要去神秘化、通俗化:理解的人越多,使用的人越多,发展就越快,越普及。把一项技术说得高深无比,让大众望而生畏,最终只会让它成为象牙塔中的玩物,因不接地气而消失。
所以,在本书中,作者耗费大量心血,把大模型的核心架构用通俗易懂的方式讲给普罗大众,就是为了让更多的并不从事大模型建设工作的人理解这些内容,从而让大模型建设工作得到更多人的支持,让其产业落地,开花结果。如果对该进程有帮助,那就是作者写本书的功德。
本书写得简单明了。但简单并不意味着不深刻,复杂也并不意味着高明。“简明”才是作者功力和理解深度的体现。
然后,说说方法。
我们绝大多数人并不会去做大模型,甚至并不在电子信息行业工作。那读一本关于大模型建设的专著有什么用呢?
学思路!点石成金!我们要的不是那块金子,而是那根手指!
本书好就好在重点突出,讲解思路清晰:在大模型建设工作中要实现哪些目标?会遇到哪些困难?要克服或绕过这些困难,应该采用什么方法?本书条分缕析、引人入胜,给人以山阴道中移步换景的感觉。
科普作品的理想读者,是其他专业的开拓者。互鉴互学,融合增长。放开眼光,看其他专业的高手做事,提升自己,是高手们百尺竿头更进一步的诀窍。所以,不做大模型的人也可以认真读一读本书,说不定会有意外之喜。
最后,说说审美。
本书写得确实好,这也许与其作者是软件高手有关。软件的著作权归属于其作者,所以码农们其实都是作者。而作者要写鸿篇巨著,那非得把架构做好不可。
我们作为没受过写作训练的普通读者,往往惊叹于书籍跌宕起伏的故事情节,却不去注意书籍内容结构的精美和巧妙。毕竟看书的人虽多,又有几个人会因此去学习如何构思一本好书呢?
但本书不一样,它几乎通篇都在介绍怎样做架构,并围绕一个高远的目标,讲了如何思考、如何构建、功能如何相互照应。看了本书,我们大概可以理解一些软件的结构之美。同时,本书自身的内容架构就很精美,可供我们欣赏和借鉴。
总之,无论我们是否在做大模型或在电子信息行业工作,本书都值得一读。也期待作者能够更上一层楼,写出更多、更好的著作。
中国电子企业协会副会长 宿东君
推荐序二
随着2006年AWS发布S3和EC2,云计算的商业大幕正式开启,IT世界进入云计算时代。2015年,AWS首次推出Amazon Machine Learning服务,这标志着机器学习和人工智能服务成为云计算领域的生力军。2022年11月,ChatGPT横空出世,因其卓越的能力,被称为有史以来向公众发布的最佳人工智能聊天机器人。ChatGPT在短时间内席卷全球,让“GPT”“大模型”这些词汇变得耳熟能详。ChatGPT的出现,不仅让AI领域翻开了新的篇章,还大大推动了云计算领域的发展。
ChatGPT优异能力的背后,大模型技术是关键。人们相信,以ChatGPT为代表的大模型技术开启的本轮科技浪潮,其重要性将超过以往任何一次AI技术突破。
国内产投研各方均已加快布局大模型。百度的文心一言、阿里巴巴的通义千问、华为的盘古、京东的言犀、腾讯的混元、商汤的日日新等大模型先后登场。据不完全统计,目前,我国已推出的通用大模型有一百多个,若算上各类行业大模型,更达数千个。于是,人们用“千模大战”来形容目前的产业态势。
大模型作为政府和企业推进人工智能产业发展的重要抓手,在识别、理解、决策、生成等AI任务的泛化性、通用性、迁移性方面都展现了显著优势和巨大潜力。IDC建议,大模型在推进产业智能化升级的过程中已展现巨大的潜力,企业应该尽早关注。
与此同时,行业专家普遍认为,公有云上的大模型服务对于大中型企业来说有几个短板,比如:大模型是“通才”,行业深度不够;可能存在数据安全隐患;企业内部数据更新速度快,公有大模型无法及时更新数据;无法实现成本可控。对于拥有敏感且高价值数据的大中型企业来说,大模型的行业化、企业化、垂直化、小型化、专有化变得尤为关键。
相信在不久的将来,有关大模型的基础架构将成为大中型企业云计算基础设施的一个关键组成部分。但是,对于企业来说,与以计算、存储、网络、数据库等中间件为代表的传统云计算服务相比,该基础架构的落地和使用面临诸多挑战,比如:大模型和软硬件不好选择;在大模型的基础设施建设和维护方面,技术门槛高、人才储备不足;等等。
本书的出现恰逢其时:目前,大中型企业正处于在其数据中心内建设大模型基础设施的关键阶段,本书可为其提供指导。
本书不但讲解了大模型相关的基础技术,比如AI基本概念、GPU硬件、软件、虚拟化等,还讲解了大模型基础设施的核心内容,包括GPU集群存储、网络、I/O、算力调度、网络虚拟化、管理和运营等,并结合实际案例,讲解了如何进行机器学习应用开发与运行平台设计,在此过程中把本书中的重点内容“串联”起来进行了讲解,以期读者建立整体的认知。
正如作者的名字一样,希望本书能成为助力国内大模型基础设施建设的“方天画戟”。也希望读者喜欢本书,能在阅读本书后有真正的收获。还希望国内的大模型发展得越来越好!
腾讯云TVP,“世民谈云计算”微信公众号作者 刘世民
2024年4月21日写于上海
推荐序三
方老师邀我为本书作序,实话实说我很惶恐,毕竟我的教学和研究领域与大模型领域并不完全契合。拿到本书后,拜读数次,觉得还是有些话要说,不当之处还请作者和读者海涵。
我从计算机专业的学生成长为勤耕不辍的教师,方老师从风华正茂的IT青年成长为计算机领域的资深专家,可以说,我们是相识、相知较深的朋友。方老师时常迸发的对技术发展趋势的真知灼见,总能让我感受到他对计算机前沿不懈探索的热忱。近年来,方老师在其微信公众号上连载的技术文章,让人对相关领域的技术发展趋势有了清晰的认知。可以说,他是一名很好的计算机领域的科普作者,是懂得如何用深入浅出的语言让读者领会深意、学通知识的。
在“博世互联世界2024”大会上,埃隆·马斯克远程接受了博世CEO斯特凡·哈同和董事长马库斯·海恩的采访,就人工智能议题发表看法。他认为,人工智能的快速扩张将导致电力供应紧张。我认为,这种令人担忧的情况恐怕会很快出现。大模型“适时”地出现在了人类科技的工具箱里,当我们沉浸在一个个表现优秀的神经网络模型中,看到一个个大模型、超大模型快速升级、迭代时,我们是否忽视了大模型算力本身的架构是如何搭建和运作的,乃至从绿色节能的角度是如何调节和调度的呢?不用犹豫,我们的确忽视了。
算力中心作为大模型基础架构,在其搭建过程中,除了大模型本身性能是否优异的问题,如何对与之关联的硬件进行部署、对硬件计算能力进行优化和提升,已经是绕不过去的突出问题。本书恰恰从这个角度给出了相应的解决方案,而且呈现的形式不是枯燥乏味的描述,而是能让读者在思考及会心一笑的状态下,了解大模型基础架构的整体形态和各子系统是如何运作的,以及是如何响应需求且充分利用平台资源的。这一亮点,在理论书籍盛行的计算机专业领域无异于一道甘泉。我真诚地希望读者能够发现本书,翻阅本书,喜爱本书。
本书的另一大亮点,可能会被人忽视,但我要提出来,那就是在本书中贯彻始终的计算机系统架构设计中的哲学方法论。我作为一名高校教师,任教数年来,深感学生,尤其是计算机专业的学生,对所学专业的认知往往停留在编程层面,不能成体系地掌握专业领域的知识结构,更遑论计算机系统架构设计中的哲学方法论。而这些哲学层面的理论缺失,往往导致学生在未来的工作领域,很难用系统工程的眼光去看待工程项目的实施,对其中蕴含的科学方法论更是无从谈起。因此,本书提及的这些哲学方法论,是对专业人员提升思维层次且强化系统认知的很好补益。
在写本序时,我一直在听歌曲Positive Outlook。在探索人工智能的道路上,我们能被智者指点迷津,从而继续奔赴星辰大海,是幸福的。本书对计算机专业领域的学生及技术工作者学习和了解大模型相关知识有很大的帮助。希望本书能收获更多的读者,也希望方老师在后续的工作中结合自己的心得,为我们写出更多、更好的著作。
江苏科技大学计算机学院 王琦
赞助厂商
电子工业出版社成立于1982年10月,工业和信息化部直属的科技与教育出版社,享有“全国优秀出版社”、“讲信誉、重服务”的优秀出版社、“全国版权贸易先进单位”、首届中国出版政府奖“先进出版单位”、“全国百佳图书出版单位”、“中央国家机关文明单位”和“首都文明单位”等荣誉称号。
电子工业出版社始终秉承“为客户提供一流的知识产品及服务”的宗旨和“出精品、育品牌”的理念。形成了以图书、期刊、音像和电子出版为基本业务,以数字出版和信息内容服务、软件研发和信息化服务、教育培训与相关服务、产业促进与行业支撑服务等为增值业务的现代出版与知识服务业务结构。出版物内容涵盖了信息通信技术的各个分支以及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。
最新测评
热门测评心得
联系我们
微信号:helloeeworld
关注我们
电子工程世界 电子工程世界福利社