[llama.cpp] 新量化方法速度效果测试(持续更新,6月19日) #513
ymcui
announced in
Announcements
Replies: 3 comments 2 replies
-
2023/6/8 新增Metal(Apple Silicon GPU)对Q4_K系列量化方法的支持,速度已更新。 |
Beta Was this translation helpful? Give feedback.
0 replies
-
2023/6/9 新增Metal(Apple Silicon GPU)对Q2_K、Q6_K系列量化方法的支持,速度已更新。 |
Beta Was this translation helpful? Give feedback.
2 replies
-
PPL 代表什么? |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
llama.cpp添加了新版量化方法(2-6比特),该PR已合并至main branch。 原PR地址:ggerganov/llama.cpp#1684
新版量化方法包括:
更新日志(持续update)
2023/6/19 完善33B模型速度
2023/6/11 新增Metal(Apple Silicon GPU)对Q4_1系列量化方法的支持,速度已更新。
2023/6/9 新增Metal(Apple Silicon GPU)对Q2_K、Q6_K系列量化方法的支持,速度已更新。
2023/6/8 新增Metal(Apple Silicon GPU)对Q4_K系列量化方法的支持,速度已更新在下表。
速度测试:Alpaca-Plus-7B
(Q3_K)
(Q4_K)
(Q5_K)
-t 2
-t 4
-t 8
-ngl 1
速度测试:Alpaca-Plus-13B
(Q3_K)
(Q4_K)
(Q5_K)
-t 2
-t 4
-t 8
-ngl 1
速度测试:Alpaca-33B
(Q3_K)
-t 2
-t 4
-t 8
-ngl 1
结论与建议
特别地,对于苹果用户(M系列芯片):
其余的量化类型可自行测试,选择适合自己机器的最佳量化方法。
Beta Was this translation helpful? Give feedback.
All reactions