microsoft
/

Phi-3.5-MoE-instruct

Text Generation

Model card Files Files and versions

Switch import mechanism for flash_attn

#51

by nvwilliamz - opened Nov 12, 2024

base: refs/heads/main

←

from: refs/pr/51

Discussion Files changed

Files changed (1) hide show

modeling_phimoe.py +4 -3

modeling_phimoe.py CHANGED Viewed

@@ -50,14 +50,15 @@ from transformers.utils.import_utils import is_torch_fx_available
 from .configuration_phimoe import PhiMoEConfig
 from einops import rearrange
-from flash_attn.layers.rotary import RotaryEmbedding as FlashRotaryEmbedding
-if is_flash_attn_2_available():
     from flash_attn import flash_attn_func, flash_attn_varlen_func
     from flash_attn.bert_padding import index_first_axis, pad_input, unpad_input  # noqa
     _flash_supports_window_size = "window_size" in list(inspect.signature(flash_attn_func).parameters)
 # This makes `_prepare_4d_causal_attention_mask` a leaf function in the FX graph.
 # It means that the function will not be traced through and simply appear as a node in the graph.

 from .configuration_phimoe import PhiMoEConfig
 from einops import rearrange
+try:
+    from flash_attn.layers.rotary import RotaryEmbedding as FlashRotaryEmbedding
     from flash_attn import flash_attn_func, flash_attn_varlen_func
     from flash_attn.bert_padding import index_first_axis, pad_input, unpad_input  # noqa
     _flash_supports_window_size = "window_size" in list(inspect.signature(flash_attn_func).parameters)
+except ImportError:
+    pass
 # This makes `_prepare_4d_causal_attention_mask` a leaf function in the FX graph.
 # It means that the function will not be traced through and simply appear as a node in the graph.