ChasonJiang 0e868ada60 更改gpt并行推理时的mask策略为padding left,使batch_infer更接近于naive_infer
减少冗余操作并使用torch_sdpa,以提升推理速度
2025-03-04 16:27:18 +08:00
..
2024-08-23 17:47:27 +08:00
2024-01-16 17:14:18 +01:00
2024-01-16 17:14:18 +01:00
2024-01-16 17:14:18 +01:00
2024-08-02 15:48:02 +08:00
2024-01-16 17:14:18 +01:00
2024-01-16 17:14:18 +01:00
2024-01-16 17:14:18 +01:00