标语:群体智能代理能针对任何Hugging Face(HF)/PyTorch模型对CUDA/Triton进行优化。
介绍:Forge 能从任何 PyTorch 或 HuggingFace 模型中生成优化后的 GPU 内核。32 个并行的“编码员 + 评判员”代理会相互竞争,以找出最快的 CUDA/Triton 实现方案。它比 torch.compile(mode='max - autotune')快达 5 倍,且准确率达 97.6%。你只需输入 HuggingFace 模型 ID,就能为每一层获取优化后的内核。它由经过优化的 NVIDIA Nemotron 3 Nano 30B 提供支持,处理速度可达每秒 25 万个词元。我们承诺:“若无法超越 torch.compile,全额退款”。
Product Hunt: 查看详情
产品网站: 立即访问
关键词:Forge CLI,Swarm agents,CUDA/Triton优化,HF/PyTorch模型,GPU内核生成,并行Coder+Judge代理,torch.compile对比,优化内核生成,NVIDIA Nemotron 3 Nano 30B
票数:🔺123
是否精选:是
发布时间:2026年01月06日 PM04:01 (北京时间)