「C位观察」AIGC时代的高性能计算基础设施布局新机遇（上）

发布时间：2024-02-23 22:52编辑：admin 浏览次数：次

　　，它是CMC资本团队全新打造的与创业圈凯时KB88产品介绍、科技产业、学术界分享交流的频道。通过这个窗口，我们关注和记录在当下发生的诸如企业数字化、产业智能化凯时KB88产品介绍、业务自动化、无人驾驶与智能车凯时KB88产品介绍、新能源技术、元宇宙等一系列科技领域中的技术前沿、创业实践，以及行业趋势思考，内容形式包括业界对话、行业观察、投资观点等等。我们期望以开放的信息分享和坦诚的观点解构为特色，注重质量，持续输出。

　　本期「C位观察」由CMC资本投资经理杨航执笔，给大家带来AIGC领域主题研究的上篇：AIGC时代的高性能计算基础设施布局新机遇（上）。

　　ChatGPT 与 GPT-4 发布所带来的巨大冲击，燃起国内市场对 AIGC 赛道的空前关注凯时KB88产品介绍。各大互联网和AI企业争先推出自有大模型，在应用端抢占数据与份额。本文着重分析AIGC 的底层基础设施中的计算力部分和AI芯片关键技术架构，这也是 CMC 资本将重点布局的投资方向。

　　大模型时代下算力增速超越摩尔定律，对训练和推理场景芯片提出新要求，DSA（Domain Specific Architecture，专用领域处理器）可通过软硬件优化贴合算法模型以提升性能，同时具备一定通用性，较为值得关注

　　ChatGPT的发布标志着大模型进入高速发展期，大模型时代对算力的需求极高（e.g., GPT-3单次训练理论计算量为3.15*1023FLOP），算力需求的增长速度远远超越芯片摩尔定律。具体来看，摩尔定律可提供算力支持平均每两年提升2倍，而AI模型对算力需求平均每两年提升25倍，Transformer对算力需求则平均每两年提升275倍，算力的需求与供给出现显著错配凯时KB88产品介绍。基于此背景凯时KB88产品介绍，大模型时代的训练和推理场景分别对适配芯片性能提出新的要求。

　　针对大模型训练场景，英伟达在A100芯片后于2023年3月份，再发布可提供更多计算能力的H100。在具体技术实现上，英伟达针对AI计算加速添加Tensor Core凯时KB88产品介绍，为实现无缝、可扩展的多节点GPU集群推出了NVLink和NVSwitch高速互联方案，通过收购Mellanox补充如：InfiniBand数据互联凯时KB88产品介绍、RDMA存储等技术，实现在产品性能上全球领先，A100与H100也成为了业内主流的AI开发芯片。

　　受美国制裁影响，英伟达为中国市场创建了芯片降级版本——A800和H800，以满足美国制裁要求，版相较而言通信能力有较大幅度降低凯时KB88产品介绍。A800和H800虽为开发小型人工智能模型提供了有效替代方案，但却阻碍了更大AI模型的开发凯时KB88产品介绍，需要通过数百至数千个芯片的协调，或将3-4种性能较为落后的芯片（包括A800和H800）结合以模拟英伟达最强大处理器的性能。

　　在此背景之下，国内对芯片的自主可控性需求进一步提升。以史为鉴，美国对中国芯片及AI等高科技行业制裁苗头初现时，已涌现大量GPGPU企业，但受制于软件生态、先进制程工艺受限等因素，导致实际落地效果有限，无法满足预期。考虑到此前GPGPU发展的瓶颈，大模型时代下国内也开始广泛探索其他如：FPGA、DSA和ASIC的技术创新路线。FPGA可编程，但编程难度较大，功耗和性能水平一般；ASIC针对场景定制，缺乏可编程性与灵活性，难以满足下游的跨场景、迭代性需求；而DSA设计虽对模型进行了优化，但仍具有一定可编程性与通用性，介于FPGA和ASIC之间，同时性能、功耗等表现优异。

　　整体市场空间看，伴随大模型技术逐渐收敛，DSA机遇与风险并存，预计DSA初创企业竞争将加剧

　　具体而言，DSA设计思路的本质为在制程受限的背景下，贴合算法与模型，实现软件和硬件架构的优化，实现在特定场景下能追平乃至超越GPU的性能凯时KB88产品介绍。未来伴随AI模型的类型逐渐收敛，DSA整体市场空间将面临增长机遇—— 伴随AI场景和算法逐步成熟，场景对于芯片的通用性及灵活可编程能力要求降低；因此可保证性能、并具备一定可编程能力的DSA芯片有望实现大规模落地。其中，颠覆型DSA或可通过激进的设计，实现性能大幅度提升，同时与模型大厂/云服务厂商深度绑定，实现准确路径预判。数据显示，现阶段颠覆型DSA相较传统GPU与TPU性能可实现3-8x提升，反观TPU较GPU而言高出~25%。具体合作案例看，现阶段微软极其重视与Tensortorrent的合作，以丰富算力供给渠道。

　　但业内同时持有不一致声音，认为伴随模型收敛，DSA将难以与具备超高通用性与并行计算能力的GPGPU抗衡——1）应用具备高确定性后，在基本单元组件较为一致的情况下，专用架构只能改进数据通路，导致延续DSA逻辑持续优化性能受限；2）模型收敛至Transformer后，DSA架构所能实现的硬件优化皆可转化为CUDA代码优化，DSA失去碾压GPGPU的性能提升空间；3）GPGPU融合更多DSA元素（e.g., 英伟达的Tensor Core），形成软硬件全局完善的闭合逻辑链，通过异构集成拉平技术实力后，在生态上进一步全面碾压DSA。

　　值得注意的是，模型收敛同时也为DSA初创企业带来了前所未有的挑战，“开卷考试”背景下对兼容性要求降低，更注重对于收敛成熟模型高度绑定后，可实现的性能极致提升，预计不同技术路径的DSA芯片厂商竞争将大幅加剧凯时KB88产品介绍。

　　具体应用场景看凯时KB88产品介绍凯时KB88产品介绍，云端训练侧短期内DSA主要填补垂类中小模型训练空白需求，大模型训练依旧由GPGPU主导。云端推理看凯时KB88产品介绍，DSA具备市场、技术与竞争三重利好，多重技术路径迸发以提升算力利用率与访存效率，同时降低延时与功耗

　　如前文所提，DSA由于为针对特定模型和任务定制的芯片，整体性能和功耗表现优。但由于并非通用架构，短期看来较难适应大模型短期内迭代逻辑。虽在Transformer兴起后，传统CUDA核心算力支持能力表现出劣势，GPGPU通用架构芯片在计算效率上暂时落后于大模型发展速度，但受制于专用性，预计短期内DSA主要机会点依旧在垂类、发展较为成熟、对灵活度及迭代要求较低的中小模型。

　　结合当下的具体应用看，如百度凯时KB88产品介绍、阿里巴巴与腾讯等布局大模型的科技巨头企业云计算部门，均已采用H800产品开展AI训推，除采用英伟达高性能芯片外，同时自研部署于云端的训练与推理芯片产品凯时KB88产品介绍。

　　综合分析，不难看出在云端训练场景下，头部芯片厂商对于大模型云端训练所需的高算力、存储与互联技术有深厚的历史积累，初创企业短期内较难追赶凯时KB88产品介绍。而针对特定垂直领域的中小模型及基于预训练大模型微调的中小模型训练凯时KB88产品介绍凯时KB88产品介绍，对数据及参数量级要求更低，对初创企业现有的算力、存储与互联技术积累更友好凯时KB88产品介绍，或为初创企业云端训练的机会点所在。

　　云端推理场景下，虽然部分国内互联网云巨头同时开展自研（e.g., 百度昆仑芯），但与自身下游业务高度贴合绑定，难以满足市场化需求。而如A800与H800等市场主流方案，虽能提供超强算力支持，但价格高昂，并不适用推理侧更注重综合性价比的逻辑。为初创企业提供了充分的市场留白。结合市场前景与技术可行性看，推理场景规模具备爆发增长潜力，技术可行性高，为初创企业提供从市场、技术到竞争的三重利好。

　　值得注意的是，当前近乎所有的推理活动都在云端完成，但随着模型压缩技巧的成熟，或许能实现在笔记本甚至手机上推理。即便如此凯时KB88产品介绍凯时KB88产品介绍，端侧推理DSA由于如英伟达、苹果和特斯拉拥有端侧顶尖芯片与生态，端侧推理DSA初创企业将面临较大的竞争压力。如果看好模型压缩技术可带来的端侧推理，考虑到巨头目前在存内计算尚未有深厚的技术积累，存内计算初创企业或值得关注，但依旧有当前技术成熟度较低等问题。

　　具体技术路径看，在模型技术路线未完全收敛情况下，非保守型技术路线风险较高凯时KB88产品介绍凯时KB88产品介绍。对于初创企业而言，考虑DSA架构芯片设计厂商在软硬件生态上的高研发时间与成本投入，与技术迭代后沉没成本，对未来头部大模型厂商技术路线预判尤为关键。基于此，DSA不同技术路径的可行性和与未来模型技术路线的贴合度，可作为投资关键考量点凯时KB88产品介绍凯时KB88产品介绍凯时KB88产品介绍。

　　近存计算：与传统的冯诺依曼架构不同，近存计算通过缩短内存到计算单元的距离以实现更强的性能和能耗比凯时KB88产品介绍，同时叠加超高片上内存与高带宽、低延时的先进互联，以实现高度的可扩展性。通过降低芯片内外数据的频繁搬运活动，以实现功耗、访存延迟与成本的优化。

　　稀疏化：稀疏化技术是指在神经网络中通过对权重进行剪枝或者约束，使得神经网络中权重变得稀疏，即大部分权重为0，以减少神经网络参数量，从而减小模型大小、加速模型推理凯时KB88产品介绍。

　　AI引擎异构架构：通过集成主流AI引擎（如：可支持卷积等基础矩阵乘积与其他深度学习算法的引擎），实现并行运作，显著提升计算效率。

　　大模型时代下对算力的需求增长迅猛，对训练和推理场景适配的芯片要求也随之发生变化。国产GPGPU受制于技术沉淀、先进制程与软件生态，发展瓶颈凸显。在制程受限的背景下，DSA通过贴合算法模型实现软硬件架构的优化，实现在特定场景下可超越GPU的极致性能，同时具备一定通用性，为AI计算产品体系中值得重点关注的领域。

　　云端大模型训练场景看凯时KB88产品介绍，受制于有限的通用性，DSA较难满足大模型迭代需求，预计短期内DSA在大模型训练的机会有限，大模型训练将仍由GPGPU主导，但互联和存储上仍有一定市场机遇——模型训练需要大规模分布式计算凯时KB88产品介绍凯时KB88产品介绍，而大模型由于计算量和参数规模庞大，对可扩展性的要求极高，进一步加剧了对先进存储和互联技术的要求。在过去，分布式计算的发展受制于内存性能和互联性能提升与单卡算力性能提升间的错位，导致实际算力利用效率低下凯时KB88产品介绍。未来伴随内存和互联技术发展，芯片实际算力水平有望实现极致发挥。

　　云端大模型推理场景看，DSA具备市场、技术与竞争三重利好，为值得重点关注的领域凯时KB88产品介绍。市场侧推理场景规模具备爆发增长潜力；技术侧对现阶段国内初创企业技术积累更友好，不同技术路线迸发以提升算力利用率与访存效率，降低延时与功耗；竞争侧互联网云巨头自研产品难以满足市场化需求凯时KB88产品介绍凯时KB88产品介绍，A800与H800等主流方案缺乏性价比，为初创企业提供充分市场留白凯时KB88产品介绍。考虑现阶段模型技术路线未完全收敛，与DSA架构芯片设计厂商在软硬件生态上的高研发时间与成本投入，可重点考量DSA不同技术路径的可行性和与未来模型技术路线的贴合度。

上一篇：中国交通广播特急寻呼“熊猫侠”800cc热血找到了！

下一篇：AI大模型商业化落地成焦点微美全息（WIMIUS）激发AI高价值场景商

分享到

「C位观察」AIGC时代的高性能计算基础设施布局新机遇（上）