[llama.cpp] 新量化方法速度效果测试（持续更新，6月19日） #513

ymcui · 2023-06-06T00:56:36Z

ymcui
Jun 6, 2023
Maintainer

llama.cpp添加了新版量化方法（2-6比特），该PR已合并至main branch。原PR地址：ggerganov/llama.cpp#1684

新版量化方法包括：

Q2_K
Q3_K_S, Q3_K_M, Q3_K_L
Q4_K_S, Q4_K_M
Q5_K_S, Q5_K_M
Q6_K

更新日志（持续update）

2023/6/19 完善33B模型速度

2023/6/11 新增Metal（Apple Silicon GPU）对Q4_1系列量化方法的支持，速度已更新。

2023/6/9 新增Metal（Apple Silicon GPU）对Q2_K、Q6_K系列量化方法的支持，速度已更新。

2023/6/8 新增Metal（Apple Silicon GPU）对Q4_K系列量化方法的支持，速度已更新在下表。

速度测试：Alpaca-Plus-7B

	F16	Q2_K	Q3_K_S	Q3_K_M (Q3_K)	Q3_K_L	Q4_0	Q4_1	Q4_K_S	Q4_K_M (Q4_K)	Q5_0	Q5_1	Q5_K_S	Q5_K_M (Q5_K)	Q6_K	Q8_0
PPL	10.793	18.292	15.276	12.504	11.548	12.416	12.002	11.717	11.062	11.155	10.905	10.930	10.869	10.845	10.790
Size	13.77G	2.95G	3.04G	3.37G	3.69G	4.31G	5.17G	3.93G	4.18G	4.74G	5.17G	4.76G	4.89G	5.65G	7.75G
ms/tok @ `-t 2`	144					87	88			143	157				103
ms/tok @ `-t 4`	123					50	52			75	82				72
ms/tok @ `-t 8`	126	48	57	52	54	41	49	45	47	46	49	52	54	58	69
ms/tok @ `-ngl 1`	x	28	32	32	33	28	x	32	30	x	x	32	32	33	x

速度测试：Alpaca-Plus-13B

	F16	Q2_K	Q3_K_S	Q3_K_M (Q3_K)	Q3_K_L	Q4_0	Q4_1	Q4_K_S	Q4_K_M (Q4_K)	Q5_0	Q5_1	Q5_K_S	Q5_K_M (Q5_K)	Q6_K	Q8_0
PPL	9.147	15.455	11.488	10.229	9.5372	9.917	9.689	9.947	9.295	9.325	9.344	9.286	9.246	9.169	9.147
Size	26.4G	5.61G	5.77G	6.43G	7.04G	8.25G	9.9G	7.49G	7.99G	9.08G	9.9G	9.11G	9.37G	10.83G	14.85G
ms/tok @ `-t 2`						166	166			273	304				192
ms/tok @ `-t 4`						89	94			142	155				132
ms/tok @ `-t 8`		83	99	94	99	77	89	77	81	86	93	93	93	104	132
ms/tok @ `-ngl 1`	x	52	56	57	59	49	x	58	55	x	x	57	57	59	x

速度测试：Alpaca-33B

	F16	Q2_K	Q3_K_S	Q3_K_M (Q3_K)	Q4_0	Q4_1	Q4_K_S	Q4_K	Q5_0	Q5_1	Q5_K_S	Q6_K	Q8_0
PPL	10.692	13.040	11.363	11.365	10.999	11.085	11.007	10.840	10.717	10.747	10.802	10.713
Size	61.03G	12.74G	14.21G	14.65G	17.16G	19.07G	17.16G	18.43G	20.98G	24.58G	20.98G	25.03G	32.42G
ms/tok @ `-t 2`	-				482	481			702	919			-
ms/tok @ `-t 4`	-				251	249			355	487			-
ms/tok @ `-t 8`	-	174	238	242	170	185		194	224	306			-
ms/tok @ `-ngl 1`	-	127	130	128	120	x	x	181	x	x	x	x	x

结论与建议

Q2：PPL较高，不建议使用；可能对后续33B/65B模型有一定作用；
Q3：与Q4系列相比PPL还有一定距离，且速度方面也不占优势，也不是很推荐，除非是机器资源受限场景；
Q4：新版Q4_K_S在7B级别有一定优势，推荐；在13B级别没有显著优势；
Q5：新版Q5_K_S的PPL有一定优势，推理时间相比Q5_0有小幅上涨，值得一试；
Q6/Q8：新版Q6_K的PPL已经比较接近Q8_0和F16的结果，推理时间方面也有显著提速，建议使用。

特别地，对于苹果用户（M系列芯片）：

Metal带来显著加速，Q6_K速度和Q4_0速度相差无几，所以推荐使用Q6_K（后续出Q8_0支持之后还会再次比较）

其余的量化类型可自行测试，选择适合自己机器的最佳量化方法。

ymcui · 2023-06-08T12:31:02Z

ymcui
Jun 8, 2023
Maintainer Author

2023/6/8 新增Metal（Apple Silicon GPU）对Q4_K系列量化方法的支持，速度已更新。

0 replies

ymcui · 2023-06-09T00:09:51Z

ymcui
Jun 9, 2023
Maintainer Author

2023/6/9 新增Metal（Apple Silicon GPU）对Q2_K、Q6_K系列量化方法的支持，速度已更新。

2 replies

nemg2004 Jul 6, 2023

合并chinese-alpaca-lora-33b以后量化Q6_K会出错你遇到过吗

ymcui Jul 6, 2023
Maintainer Author

@nemg2004 https://github.com/ymcui/Chinese-LLaMA-Alpaca/wiki/llama.cpp量化部署#step-1-克隆和编译llamacpp 这里已经提示过了，需要改一处代码&重新编译。

chenqy4933 · 2023-07-25T03:30:45Z

chenqy4933
Jul 25, 2023

PPL 代表什么？

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[llama.cpp] 新量化方法速度效果测试（持续更新，6月19日） #513

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 3 comments 2 replies

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

[llama.cpp] 新量化方法速度效果测试（持续更新，6月19日） #513

ymcui Jun 6, 2023 Maintainer

更新日志（持续update）

速度测试：Alpaca-Plus-7B

速度测试：Alpaca-Plus-13B

速度测试：Alpaca-33B

结论与建议

Replies: 3 comments · 2 replies

ymcui Jun 8, 2023 Maintainer Author

ymcui Jun 9, 2023 Maintainer Author

nemg2004 Jul 6, 2023

ymcui Jul 6, 2023 Maintainer Author

chenqy4933 Jul 25, 2023

ymcui
Jun 6, 2023
Maintainer

Replies: 3 comments 2 replies

ymcui
Jun 8, 2023
Maintainer Author

ymcui
Jun 9, 2023
Maintainer Author

ymcui Jul 6, 2023
Maintainer Author

chenqy4933
Jul 25, 2023