PaddlePaddle · wawltor · Jul 29, 2024 · Jul 26, 2024
diff --git a/paddlenlp/experimental/transformers/fused_transformer_layers.py b/paddlenlp/experimental/transformers/fused_transformer_layers.py
@@ -550,11 +550,7 @@
             if config.trans_qkvw
             else [self.embed_dim, (self.num_heads + 2 * self.kv_num_heads) * self.head_dim]
         )
-        self.linear_weight_shape = (
-            [self.num_heads * self.head_dim, self.embed_dim]
-            if config.trans_qkvw
-            else [self.embed_dim, self.num_heads * self.head_dim]
-        )
+        self.linear_weight_shape = [self.num_heads * self.head_dim, self.embed_dim]
         self.ffn1_weight_shape = (
             [self.embed_dim, self.dim_feedforward * 2]
             if self.activation.endswith("glu")

diff --git a/paddlenlp/experimental/transformers/llama/modeling.py b/paddlenlp/experimental/transformers/llama/modeling.py
@@ -565,7 +565,7 @@
             use_neox_rotary_style=True,
             use_dynamic_cachekv_quant=config.use_cachekv_int8 == "dynamic",
             rank_id=config.tensor_parallel_rank,
-            trans_qkvw=(True if not paddle.is_compiled_with_rocm() else False),
+            trans_qkvw=(False if paddle.is_compiled_with_rocm() and self.quant_type == "a8w8" else True),
         )
 
         self.set_transformer_block(transformer_config)
@@ -752,7 +752,7 @@
                 unfused_state_dict["self_attn.v_proj.weight"] = state_dict[
                     "llama.layers.{}.self_attn.v_proj.weight".format(idx)
                 ]
-                if paddle.is_compiled_with_rocm():
+                if paddle.is_compiled_with_rocm() and self.quant_type == "a8w8":
                     concated_qkv_weight = np.concatenate(
                         [
                             unfused_state_dict["self_attn.q_proj.weight"],