减少大模型训练中的能源浪费:Perseus 系统详解
Rail-only: A Low-Cost High-Performance Network for Training LLMs with Trillion Parameters
发表于
分类于
论文阅读
Rail-only:面向万亿参数 LLM 训练的低成本高性能网络架构
Reducing Activation Recomputation in Large Transformer Models
发表于
分类于
论文阅读
大规模 Transformer 激活重计算的系统级优化
Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM
发表于
分类于
论文阅读
Megatron-LM 三维并行实践解析
InstructCoder: Instruction Tuning Large Language Models for Code Editing
发表于
分类于
论文阅读
InstructCoder:面向代码编辑的指令微调实践解析
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
发表于
分类于
论文阅读
Megatron-LM:使用模型并行训练数十亿参数的语言模型
token 简介
发表于
分类于
其它
介绍token的基础知识
pytorch中的stream和event
发表于
分类于
分布式基础
PyTorch 中的 Stream / Event 与跨流同步:原理、用法与可运行示例
ubuntu常见shell命令
记录最常用的shell命令
lumos:Efficient Performance Modeling and Estimation for Large-scale LLM Training
lumos模拟器论文记录