Ë
    œÐVh< ã                   ó–  — d Z ddlZddlZddlZddlmZ ddlmZ ddlm	Z	m
Z
 ddlmZmZmZ ddlZddlZddlmZ ddlmZ dd	lmZ dd
lmZ ddlmZ ddlmZ ddlmZmZm Z m!Z!m"Z"m#Z#m$Z$m%Z%m&Z&m'Z'm(Z(m)Z)m*Z* ddl+m,Z,m-Z-m.Z.m/Z/m0Z0m1Z1m2Z2m3Z3m4Z4 ddl5m6Z6m7Z7m8Z8m9Z9  ejt                  e;«      Z<ejz                  j|                  Z>ej~                  Z?dee@   dee@   dee@   fd„ZAdee@   dee@   fd„ZBe8d„ «       ZC	 dbdeDdejŠ                  dejŒ                  deeGe@      de*f
d„ZHdeGee%      fd„ZId„ ZJd eGe@   fd!„ZKeeGee      ee   f   ZLdeGe*   d"ejš                  jœ                  deLfd#„ZOdeGe*   d$e)deLfd%„ZPd&ZQd'ZRd(ZSd)ZTd*ZUd+ZVd,ZW e9d-eCeUeVz   eQz   eWz   eSz   eRz   ¬.«      ZXd/„ ZYej´                  d0fd1ej´                  d2fd3ej´                  d4fd5ej¶                  d0fd6ej¶                  d2fd7ej¶                  d4fd8ej¸                  d0fd6ej¸                  d2fd9ej¸                  d4fd8i	Z]ej´                  d0fd1ej´                  d2fd1ej´                  d4fd:ej¶                  d0fd;ej¶                  d2fd7ej¶                  d4fd3ej¸                  d0fd;ej¸                  d2fd7ej¸                  d4fd3i	Z^ej´                  d0fd<ej´                  d2fd<ej´                  d4fd=ej¶                  d0fd>ej¶                  d2fd>ej¶                  d4fd?ej¸                  d0fd>ej¸                  d2fd>ej¸                  d4fd@i	Z_ G dA„ dBe
«      Z`dCe`deae@e@e@e@f   fdD„ZbdCe`deae@e@e@e@f   fdE„Zcdeae@e@e@e@f   fdF„Zddeae@e@e@e@f   fdG„ZedH„ ZfdejÎ                  fdI„ZhddJlimjZj ddKlkmlZl dL„ ZmdM„ ZndN„ ZodO„ ZpdP„ ZqdQereDef   fdR„Zs e3ejz                  jè                  jê                  d¬S«      dT„ «       ZudU„ Zv e9dVevdWeQz   eRz   eTz   ¬.«      ZwdXejš                  jð                  fdY„Zy edZ¬[«       G d\„ d]«      «       Zzd^eLd_e@dezfd`„Z{ e3ejz                  jè                  jø                  d¬S«      da„ «       Z|y)cz2Triton Implementation of the flex_attention Kernelé    N)ÚSequence)Ú	dataclass)ÚautoÚEnum)ÚAnyÚOptionalÚUnion)ÚV)Ú
OrderedSet©Útree_map)Úint_oo)ÚValueRangesé   )Úconfig)ÚBufferÚComputedBufferÚExternKernelÚFixedLayoutÚFlexibleLayoutÚget_fill_orderÚInputBufferÚIRNodeÚMutationLayoutSHOULDREMOVEÚScatterÚ
StorageBoxÚSubgraphÚ	TensorBox)	Ú_fullÚcheck_and_broadcast_indicesÚemptyÚempty_stridedÚexpandÚindex_output_size_and_inner_fnÚ	loweringsÚregister_loweringÚto_dtype)Úautotune_select_algorithmÚrealize_inputsÚSymbolicGridFnÚTritonTemplateÚsizesÚ
fill_orderÚreturnc                 óŒ   — t        | «      t        |«      k(  sJ d«       ‚dgt        | «      z  }d}|D ]  }|||<   || |   z  }Œ |S )zTFrom a list of sizes and a fill order, construct the strides of the permuted tensor.z7Length of sizes must match the length of the fill orderr   é   )Úlen)r,   r-   ÚstridesÚcurrent_strideÚdims        úU/home/dcms/DCMS/lib/python3.12/site-packages/torch/_inductor/kernel/flex_attention.pyÚconstruct_stridesr6   =   sl   € ô ˆu‹:œ˜Z›Ò(ð ØAóÐ(ð ˆc”C˜“JÑ€Gð €Nð ò %ˆØ%ˆ‰Ø˜% ™*Ñ$‰ð%ð €Nó    ÚsizeÚorig_stridesc                 óv   — t        |t        j                  j                  j                  «      }t        | |«      S )a¶  This is a mirror of the same function in aten/src/ATen/ExpandUtils.cpp

    Args:
        size: The size of the output tensor
        orig_strides: The strides of the input tensor
    Returns:
        List[int]: Dense non-overlapping strides that preserve the input tensor's layout permutation.
        The returned strides follow the same stride propagation rules as TensorIterator. This matches
        The behavior of empty_like()
    )r   r
   ÚgraphÚsizevarsÚ	shape_envr6   )r8   r9   r-   s      r5   Úinfer_dense_stridesr>   S   s-   € ô   ¬a¯g©g×.>Ñ.>×.HÑ.HÓI€JÜ˜T :Ó.Ð.r7   c                ó&   —  |||d   «      | |z  dfS )z÷How is this kernel parallelized?
    We create a grid of (batch_size * num_heads, ceil_div(n_queries, query_block_size), 1)
    Each block is responsible for iterating over blocks of keys and values calculating
    the final attention output.
    ÚBLOCK_Mr0   © )Ú
batch_sizeÚq_headsÚnum_queriesÚd_modelÚmetaÚcdivs         r5   Úflex_attention_gridrH   b   s!   € ñ ˜d 9™oÓ.°
¸WÑ0DÀaÐHÐHr7   ÚnameÚdtypeÚdevicec                 ó”   — t        | t        |||r|ng |rt        j                  |«      ng «      ¬«      }t	        j
                  |«      S )zBCreates a placeholder input buffers for producing subgraph_output.)rI   Úlayout)r   r   r   Úcontiguous_stridesr   Úcreate)rI   rJ   rK   r8   Úinput_buffers        r5   Úcreate_placeholderrQ   l   sK   € ô ØÜØØÙ‰D˜bÙ7;ŒN×-Ñ-¨dÔ3Àó	
ô€Lô ×Ñ˜LÓ)Ð)r7   Úargsc                 ó   — t        d„ | «      S )zIAccepts a list of optional IRNodes and returns a list of realized IRNodesc                 óT   — | %t        | t        j                  «      st        | «      S | S ©N)Ú
isinstanceÚsympyÚSymbolr)   )Úxs    r5   ú<lambda>zmaybe_realize.<locals>.<lambda>‚   s-   € àˆ}¤Z°´5·<±<Ô%@ô ˜1Óð ð ð r7   r   ©rR   s    r5   Úmaybe_realizer\      s   € äñ	
ð
 	óð r7   c                  ó¤   — t        j                  «       dk(  s8t         j                  j                  st         j                  j                  «       ryy)NÚhighestz'ieee'z'tf32')ÚtorchÚget_float32_matmul_precisionÚversionÚhipÚmtiaÚis_availablerA   r7   r5   Úget_float32_precisionre   ‹   s6   € ä×*Ñ*Ó,°	Ò9Ü=‰=×ÒÜ:‰:×"Ñ"Ô$ààr7   Úshapec           
      ó8  — t        d|j                  «       t        j                  | «      }t	        |t
        «      sJ ‚|j                  «        |j                  «       }t        ||j                  «       «      }|D cg c]  }||j                  «       nd ‘Œ }}t        ||j                  «       «      \  }}t        ||d      j                  «       «      }t        t        |«      «      D cg c]  }||   ‘Œ	 }	}t        ||||||	d d¬«      \  }
}t!        ||
«      }|j                  «       }|€J ‚t#        ||j                  «       |j                  «       |
|d¬«      }t%        |j&                  j&                  j(                  t+        |«      |¬«      }|S c c}w c c}w )Nr   T)ÚcheckÚ
atomic_add)rK   rJ   Úinner_fnÚrangesÚoutput_indexerÚscatter_mode©rI   rM   Údata)r   Ú
get_devicer_   Úfloat32rV   r   ÚrealizeÚget_sizer'   Ú	get_dtypeÚmake_loaderr    ÚlistÚranger1   r$   r#   r   r   ro   rI   r   )rf   ÚindicesÚvaluesÚgradÚx_sizeÚiÚindices_loadersÚtensor_indicesÚtensor_sizeÚindexed_sizeÚexpected_vals_sizerj   rK   ÚscatterÚbuffers                  r5   Úzeros_and_scatter_loweringr„   –   sƒ  € äF×%Ñ%Ó'¬¯©¸Ó>€DÜdœIÔ&Ð&Ð&Ø‡LL„NØ]‰]‹_€FÜf˜dŸn™nÓ.Ó/€FØKRÖSÀa¨!¨-q—}‘}”¸TÑAÐS€OÐSÜ9¸'À4Ç?Á?ÓCTÓUÑ€Gˆ^äw˜~¨aÑ0Ñ1×:Ñ:Ó<Ó=€KÜ',¬S°«\Ó':Ö; !F˜1“IÐ;€LÐ;ä#AØØØØØØØØô	$Ñ Ð˜ô FÐ.Ó/€FØ_‰_Ó€FØÐÐÐÜØØn‰nÓØ×#Ñ#Ó%Ø!ØØ!ô€Gô ØY‰Y^‰^× Ñ Ü)¨$Ó/Øô€Fð
 €MùòE Tùò <s   Á;FÃ*FÚgraph_modulec                 ób  — ddl m}  ||t        j                  t	        t
        j                  j                  j                  j                  g«      t
        j                  j                  j                  j                  t        i¬«      }t        j                  |«      5   |j                  | Ž  ddd«       t        |j                  «      dkD  r0|j                  D ]!  }t        j                  j                  |«       Œ# dt         t"           fd„}t%        ||j&                  «      S # 1 sw Y   ŒxxY w)af  This function's goal is to take in the required args and produce the subgraph buffer
    The subgraph buffer is a ComputedBuffer that will be inlined into the triton template

    Args:
        args: The args that are passed into the subgraph. Contains both fixed and lifted inputs.
        subgraph: The Subgraph ir for which to produce the output node
    r   )ÚPointwiseSubgraphLowering)Úroot_graph_loweringÚallowed_mutationsÚadditional_loweringsNr   r.   c           	      ó¸  — | €y t        | t        «      r| S t        | t        «      sJ dt        | «      f«       ‚t        | j                  t
        «      sJ dt        | «      f«       ‚t        d t        | j                  j                  «       | j                  j                  «       | j                  j                  «       ¬«      | j                  j                  ¬«      }|S )NzLThe output node for flex attention's subgraph must be a TensorBox, but got: zOThe output node for the flex attention subgraph must be a StorageBox, but got: )rK   rJ   r8   rn   )
rV   r   r   Útypero   r   r   rp   rt   rs   )Úoutput_bufferÚsubgraph_buffers     r5   Úconvert_output_node_to_bufferzCbuild_subgraph_module_buffer.<locals>.convert_output_node_to_bufferâ   s×   € ØÐ ØÜm¤^Ô4à Ð Ü˜-¬Ô3ð 	
ØZÜÓð6
ó 	
Ð3ô ˜-×,Ñ,¬jÔ9ð 	
Ø]ÜÓð<
ó 	
Ð9ô )ØÜ!Ø$×)Ñ)×4Ñ4Ó6Ø#×(Ñ(×2Ñ2Ó4Ø"×'Ñ'×0Ñ0Ó2ôð
 ×#Ñ#×(Ñ(ô
ˆð Ðr7   )Úsubgraph_loweringr‡   r
   r;   r   r_   ÚopsÚflex_libÚzeros_and_scatterÚdefaultr„   Úset_graph_handlerÚrunr1   ÚbuffersÚregister_bufferr   r   r   Úgraph_outputs)rR   r…   r‡   Úpw_subgraphrƒ   r   s         r5   Úbuild_subgraph_module_bufferr›   Å   sô   € õ >á+ØÜŸG™GÜ$¤e§i¡i×&8Ñ&8×&JÑ&J×&RÑ&RÐ%SÓTäI‰I×Ñ×0Ñ0×8Ñ8Ô:Tð
ô	€Kô 
×	Ñ	˜[Ó	)ñ Øˆ‰˜Ñ÷ô
 ˆ;×ÑÓ !Ò#Ø!×)Ñ)ò 	,ˆFÜG‰G×#Ñ# FÕ+ð	,ð¼ÄÑ8Pó ô2 Ð1°;×3LÑ3LÓMÐM÷Eð ús   ÂD%Ä%D.Úsubgraphc                 ó.   — t        | |j                  «      S rU   )r›   r…   )rR   rœ   s     r5   Úbuild_subgraph_bufferrž   þ   s   € Ü'¨¨h×.CÑ.CÓDÐDr7   aã  
@triton.jit
def get_offset_for_next_block(
    loop_iter, col_indices, total_blocks,
    SPARSE_BLOCK, SPARSE_BLOCK_MULTIPLE, BLOCK,
    BLOCKS_ARE_CONTIGUOUS: tl.constexpr
):
    if BLOCKS_ARE_CONTIGUOUS:
        return BLOCK
    cur_block_idx = loop_iter // SPARSE_BLOCK_MULTIPLE
    cur_block = tl.load(col_indices + cur_block_idx, eviction_policy="evict_last")
    next_block = tl.load(col_indices + cur_block_idx + 1, eviction_policy="evict_last", mask=cur_block_idx + 1 < total_blocks)
    needs_jump = (loop_iter + 1) % SPARSE_BLOCK_MULTIPLE == 0
    jump_to_block = (next_block - cur_block ) * SPARSE_BLOCK - (SPARSE_BLOCK_MULTIPLE - 1) * BLOCK
    offset = jump_to_block * needs_jump + (1 - needs_jump) * BLOCK
    return offset
z~
@triton.jit
def get_bounded_indices(indices, max_len=None):
    return indices % max_len if max_len is not None else indices
aî  
@triton.jit
def load_checked_block(block_ptr, IS_DIVISIBLE: tl.constexpr, SAFE_HEAD_DIM: tl.constexpr):
  if IS_DIVISIBLE and SAFE_HEAD_DIM:
    return tl.load(block_ptr)
  elif IS_DIVISIBLE and not SAFE_HEAD_DIM:
    return tl.load(block_ptr, boundary_check=(1,), padding_option="zero")
  elif not IS_DIVISIBLE and SAFE_HEAD_DIM:
      return tl.load(block_ptr, boundary_check=(0,), padding_option="zero")
  else:
      return tl.load(block_ptr, boundary_check=(0, 1), padding_option="zero")
ak  
@triton.jit
def load_checked_2d(
    ptr,
    offs_m,
    offs_n,
    stride_m,
    stride_n,
    IS_DIVISIBLE_M: tl.constexpr,
    IS_DIVISIBLE_N: tl.constexpr,
    M_LEN: tl.constexpr,
    N_DIM: tl.constexpr,
):
    # Calculate final pointer if strides are provided
    if stride_m is not None and stride_n is not None:
        ptr = ptr + offs_m[:, None] * stride_m + offs_n[None, :] * stride_n

    # Handle all masking cases
    if not IS_DIVISIBLE_M and not IS_DIVISIBLE_N:
        return tl.load(ptr, mask=(offs_m[:, None] < M_LEN) & (offs_n[None, :] < N_DIM), other=0.0)
    elif IS_DIVISIBLE_M and not IS_DIVISIBLE_N:
        return tl.load(ptr, mask=(offs_n[None, :] < N_DIM), other=0.0)
    elif not IS_DIVISIBLE_M and IS_DIVISIBLE_N:
        return tl.load(ptr, mask=(offs_m[:, None] < M_LEN), other=0.0)
    else:  # Both divisible
        return tl.load(ptr)
aj   
{{def_kernel("Q", "K", "V", "LSE", "KV_NUM_BLKS", "KV_IDX", "FULL_KV_NUM_BLKS", "FULL_KV_IDX")}}
    # Sub notation for this kernel:
    #
    # Q: Query, K: Key, V: Value
    # M: Number of queries, N: Number of keys/values, D: Model dimension
    # QK_HEAD_DIM: The dimension of the query and key embeddings
    # V_HEAD_DIM: The dimension of the value embeddings
    # z: Batch size, h: Number of heads, m: Number of queries per head, k: Number of keys per head
    # GQA_SHARED_HEADS: number of query heads sharing one kv head in GQA setups.
    #
    # The following FULL_* and PARTIAL_* is defined in the block sparse mask grid, rather than the thread block grid.
    # KV_NUM_BLKS: The number of KV blocks (that may or may not require masking) for each query.
    # KV_IDX: The indices of KV blocks (that may or may not require masking) for each query.
    # FULL_KV_NUM_BLKS: The number of fully unmasked KV blocks (so we don't need masking) for each query.
    # FULL_KV_IDX: The indices of fully unmasked KV blocks (so we don't need masking) for each query.
    #
    # OUTPUT_LOGSUMEXP: We only need to store the logsumexp if we require grad
    #
    # (Modifiable) Performance tuning options
    # BLOCK_M: The thread block size across the seqlen dim of Q.
    # BLOCK_N: Iterate over BLOCK_N across the seqlen dim of K/V in each thread block.

    # The below are kernel options that can be applied for certain score_mods,
    # or involve a numerics vs. perf tradeoff
    # PRESCALE_QK: Whether to pre-scale QK by 1/sqrt(d) and change of base. Has
    # about 20% more numerical error, but slightly faster.
    # ROWS_GUARANTEED_SAFE: Is it guaranteed that at least one value in each row
    # is not masked out? If so, we can skip an extra safety check
    # BLOCKS_ARE_CONTIGUOUS: Is it guaranteed that all blocks in the mask are
    # contiguous? If so, we don't need to do an indirect jump for every block

    tl.static_assert(SPARSE_Q_BLOCK_SIZE >= BLOCK_M and SPARSE_Q_BLOCK_SIZE % BLOCK_M == 0)
    tl.static_assert(SPARSE_KV_BLOCK_SIZE >= BLOCK_N and SPARSE_KV_BLOCK_SIZE % BLOCK_N == 0)

    # Define strides of inputs
    stride_qz, stride_qh, stride_qm, stride_qk = {{stride("Q")}}
    stride_kz, stride_kh, stride_kn, stride_kk = {{stride("K")}}
    stride_vz, stride_vh, stride_vn, stride_vk = {{stride("V")}}

    ZQ = {{size("Q", 0)}}
    HQ = {{size("Q", 1)}}
    Q_LEN = {{size("Q", 2)}}
    ZKV = {{size("K", 0)}}
    KV_LEN = {{size("K", 2)}}

    MATMUL_PRECISION = Q.dtype.element_ty

    q_start = tl.program_id(0)
    off_zq = tl.program_id(1) // HQ
    off_hq = tl.program_id(1) % HQ

    # We support two cases for batch dimension. a) (ZKV == ZQ) where off_zkv = off_zq.
    # b) (ZKV == 1 and ZQ > 1) where KV is broadcasted along the batch dimension and off_zkv=0.
    off_zkv = off_zq % ZKV
    off_hkv = off_hq // GQA_SHARED_HEADS
    off_g = off_hq % GQA_SHARED_HEADS

    q_offset = off_zq * stride_qz + off_hq * stride_qh
    k_offset = off_zkv * stride_kz + off_hkv * stride_kh
    v_offset = off_zkv * stride_vz + off_hkv * stride_vh

    Q = Q + q_offset
    K = K + k_offset
    V = V + v_offset

    SPARSE_Z = {{size("KV_NUM_BLKS", 0)}}
    SPARSE_HQ = {{size("KV_NUM_BLKS", 1)}}

    sparse_idx_z = off_zq % SPARSE_Z
    sparse_idx_hq = off_hq % SPARSE_HQ

    SPARSE_Q_MULTIPLE: tl.constexpr = (SPARSE_Q_BLOCK_SIZE // BLOCK_M)
    SPARSE_KV_MULTIPLE: tl.constexpr = (SPARSE_KV_BLOCK_SIZE // BLOCK_N)

    stride_kv_num_blks_h = {{stride("KV_NUM_BLKS", 1)}}
    stride_kv_idx_h = {{stride("KV_IDX", 1)}}
    stride_kv_idx_m = {{stride("KV_IDX", 2)}}

    # initialize pointer to m and l
    m_i = tl.zeros([BLOCK_M], dtype=tl.float32) - float("inf")
    l_i = tl.zeros([BLOCK_M], dtype=tl.float32)
    acc = tl.zeros([BLOCK_M, V_HEAD_DIM_ROUNDED], dtype=tl.float32)

    offs_m = q_start * BLOCK_M + tl.arange(0, BLOCK_M)

    # KV_IDX and KV_NUM_BLKS are always contiguous.
    sparse_hz_offset = sparse_idx_z * SPARSE_HQ + sparse_idx_hq
    sparse_kv_num_blks_offset = sparse_hz_offset * stride_kv_num_blks_h + q_start // SPARSE_Q_MULTIPLE
    sparse_kv_idx_offset = sparse_hz_offset * stride_kv_idx_h + (q_start // SPARSE_Q_MULTIPLE) * stride_kv_idx_m  # noqa: B950

    Q_block_ptr = tl.make_block_ptr(
        base=Q,
        shape=(Q_LEN, QK_HEAD_DIM),
        strides=(stride_qm, stride_qk),
        offsets=(q_start * BLOCK_M, 0),
        block_shape=(BLOCK_M, QK_HEAD_DIM_ROUNDED),
        order=(1, 0)
    )
    q = load_checked_block(Q_block_ptr, IS_DIVISIBLE, SAFE_HEAD_DIM)
    # ~~~~~~~~~~~~~~ normal blocks ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    # We don't know anything "special" about these blocks, so we need to apply
    # both score_mod and mask_mod to it
    kv_indices = KV_IDX + sparse_kv_idx_offset
    kv_start = tl.load(kv_indices) * SPARSE_KV_BLOCK_SIZE # first kv block we're loading
    kv_num_blocks = tl.load(KV_NUM_BLKS + sparse_kv_num_blks_offset)
    block_n_end = tl.minimum(kv_num_blocks * SPARSE_KV_MULTIPLE, tl.maximum(tl.cdiv(KV_LEN, BLOCK_N), 1))

    K_block_ptr = tl.make_block_ptr(
        base=K,
        shape=(QK_HEAD_DIM, KV_LEN),
        strides=(stride_kk, stride_kn),
        offsets=(0, kv_start),
        block_shape=(QK_HEAD_DIM_ROUNDED, BLOCK_N),
        order=(0, 1)
    )
    V_block_ptr = tl.make_block_ptr(
        base=V,
        shape=(KV_LEN, V_HEAD_DIM),
        strides=(stride_vn, stride_vk),
        offsets=(kv_start, 0),
        block_shape=(BLOCK_N, V_HEAD_DIM_ROUNDED),
        order=(1, 0)
    )
    offs_n = kv_start + tl.arange(0, BLOCK_N)

    acc, l_i, m_i = forward_inner(
        {{gen_argdefs()}},
        q, K_block_ptr, V_block_ptr, Q_LEN, KV_LEN,
        acc, l_i, m_i,
        off_zq, off_hq, offs_m[:, None], offs_n[None, :],
        kv_indices, kv_num_blocks,
        0, block_n_end,
        MATMUL_PRECISION,
        IS_FULL_BLOCKS=False,
    )

    # ~~~~~~~~~~~~~~ "full" blocks ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    # We know these blocks are guaranteed to be "full", so we don't need to
    # apply mask_mod to them - only score_mod
    if HAS_FULL_BLOCKS:
        # FULL_KV_IDX and FULL_KV_NUM_BLKS are always contiguous.
        kv_indices = FULL_KV_IDX + sparse_kv_idx_offset
        kv_start = tl.load(kv_indices) * SPARSE_KV_BLOCK_SIZE # first kv block we're loading
        kv_num_blocks = tl.load(FULL_KV_NUM_BLKS + sparse_kv_num_blks_offset)
        block_n_end = tl.minimum(kv_num_blocks * SPARSE_KV_MULTIPLE, tl.maximum(tl.cdiv(KV_LEN, BLOCK_N), 1))

        K_block_ptr = tl.make_block_ptr(
            base=K,
            shape=(QK_HEAD_DIM, KV_LEN),
            strides=(stride_kk, stride_kn),
            offsets=(0, kv_start),
            block_shape=(QK_HEAD_DIM_ROUNDED, BLOCK_N),
            order=(0, 1)
        )
        V_block_ptr = tl.make_block_ptr(
            base=V,
            shape=(KV_LEN, V_HEAD_DIM),
            strides=(stride_vn, stride_vk),
            offsets=(kv_start, 0),
            block_shape=(BLOCK_N, V_HEAD_DIM_ROUNDED),
            order=(1, 0)
        )
        offs_n = kv_start + tl.arange(0, BLOCK_N)

        acc, l_i, m_i = forward_inner(
            {{gen_argdefs()}},
            q, K_block_ptr, V_block_ptr, Q_LEN, KV_LEN,
            acc, l_i, m_i,
            off_zq, off_hq, offs_m[:, None], offs_n[None, :],
            kv_indices, kv_num_blocks,
            0, block_n_end,
            MATMUL_PRECISION,
            IS_FULL_BLOCKS=True,
        )


    # [Note] Handle fully masked out rows:
    # Li will be the sum(e^(-inf)) == 0.0 for masked out rows, mi will be -inf.
    # We set Li to 1.0 which will result in lse/out = 0.0 | after the log(li) + mi(0.0) step
    l_i = tl.where(l_i == 0.0, 1, l_i)

    acc = acc / l_i[:, None]
    idx_zq = tl.program_id(1) // HQ
    idx_hq = tl.program_id(1) % HQ
    idx_m = offs_m[:, None]
    idx_d = tl.arange(0, V_HEAD_DIM_ROUNDED)[None, :]

    mask = (idx_m < Q_LEN) & (idx_d < V_HEAD_DIM)

    {{store_output(("idx_zq", "idx_hq", "idx_m", "idx_d"), "acc", "mask")}}

    if OUTPUT_LOGSUMEXP:
        off_hz = tl.program_id(1)
        l_ptrs = LSE + off_hz * Q_LEN + offs_m
        lse = m_i + tl.math.log2(l_i)
        if IS_DIVISIBLE:
            tl.store(l_ptrs, lse)
        else:
            tl.store(l_ptrs, lse, mask=offs_m < Q_LEN)
 a€	  
@triton.jit
def forward_inner(
    {{gen_argdefs()}},
    q, K_block_ptr, V_block_ptr, Q_LEN, KV_LEN,
    # accumulated values
    acc, l_i, m_i,
    # Offsets used as inputs to score_mod & mask_mod
    # of size [BLOCK_M, BLOCK_N] or scalar.
    off_z, off_h, offs_m, offs_n,
    # blocksparse data
    kv_indices, kv_num_blocks,
    # start kv and end kv block
    block_n_start, block_n_end,
    MATMUL_PRECISION,
    IS_FULL_BLOCKS,
):
    # Redefines all kernel parameters (BLOCK_M, etc.) so we don't need to plumb them all through
    {{gen_defines() | indent_except_first(1)}}

    SPARSE_KV_MULTIPLE: tl.constexpr = (SPARSE_KV_BLOCK_SIZE // BLOCK_N)
    RCP_LN2: tl.constexpr = 1.44269504

    if PRESCALE_QK:
        q = (q * SM_SCALE * RCP_LN2).to(MATMUL_PRECISION)

    # loop over k, v and update accumulator until block_n_end
    for start_n in range(block_n_start, block_n_end):
        if IS_DIVISIBLE:
            acc, l_i, m_i = forward_block_mn(
                {{gen_argdefs()}},
                q, K_block_ptr, V_block_ptr, Q_LEN, KV_LEN,
                # accumulated values
                acc, l_i, m_i,
                # Offsets
                off_z, off_h, offs_m, offs_n,
                MATMUL_PRECISION, RCP_LN2,
                IS_FULL_BLOCKS,
            )
        else:
            # Benchmark shows even we applied mod & mask to each block for non divisible seqlen,
            # it's on par or slightly faster than only applying to the last block in fwd.
            # However, we choose different strategy for bwd, where we only apply mod & mask
            # to the last block because it's faster a lot.
            acc, l_i, m_i = forward_block_mn(
                {{gen_argdefs()}},
                q, K_block_ptr, V_block_ptr, Q_LEN, KV_LEN,
                # accumulated values
                acc, l_i, m_i,
                # Offsets
                off_z, off_h, offs_m, offs_n,
                MATMUL_PRECISION, RCP_LN2,
                IS_FULL_BLOCKS, CHECK_BLOCK_BOUNDARY=True,
            )

        # update pointers
        offset = get_offset_for_next_block(
            start_n, kv_indices, kv_num_blocks,
            SPARSE_KV_BLOCK_SIZE, SPARSE_KV_MULTIPLE, BLOCK_N, BLOCKS_ARE_CONTIGUOUS
        )

        V_block_ptr = tl.advance(V_block_ptr, (offset, 0))
        K_block_ptr = tl.advance(K_block_ptr, (0, offset))

        offs_n = offs_n + offset

    return acc, l_i, m_i

aX  
@triton.jit
def forward_block_mn(
    {{gen_argdefs()}},
    q, K_block_ptr, V_block_ptr, Q_LEN, KV_LEN,
    # accumulated values
    acc, l_i, m_i,
    # Offsets
    off_z, off_h, offs_m, offs_n,
    MATMUL_PRECISION, RCP_LN2,
    IS_FULL_BLOCKS, CHECK_BLOCK_BOUNDARY=False,

):
    # Redefines all kernel parameters (BLOCK_M, etc.) so we don't need to plumb them all through
    {{gen_defines() | indent_except_first(1)}}

    # -- load k --
    # NB reversed order to since K is transposed
    k = load_checked_block(K_block_ptr, SAFE_HEAD_DIM, IS_DIVISIBLE)
    # -- compute qk ---
    qk = tl.dot(q, k, input_precision=FLOAT32_PRECISION) # TODO: use cuda matmul when q_len <= 2.
    if not PRESCALE_QK:
        qk *= SM_SCALE
    # ~~~~~~~~~~~~~~~~~~~ Apply score modification  ~~~~~~~~~~~~~~~~~~~
    # If this is the last block of a non divisible seqlen, we still need to load [BLOCK_M, BLOCK_N] elements,
    # which is larger than the actual number of elements. To avoid access memory out of bound,
    # we need to mask out the elements that are out of Q_LEN & KV_LEN.
    m = get_bounded_indices(offs_m, Q_LEN if CHECK_BLOCK_BOUNDARY else None)
    n = get_bounded_indices(offs_n, KV_LEN if CHECK_BLOCK_BOUNDARY else None)

    {{ modification(
        subgraph_number=0,
        output_name="post_mod_scores",
        score="qk",
        b="off_z",
        h="off_h",
        m="m",
        n="n",
        out="qk"
    ) | indent_except_first(1) }}

    if CHECK_BLOCK_BOUNDARY:
        # Mask out the elements that are out of the KV_LEN for non divisible seqlen.
        post_mod_scores = tl.where(offs_n < KV_LEN, post_mod_scores, float("-inf"))

    if not IS_FULL_BLOCKS:
        {{ modification(
            subgraph_number=1,
            output_name="mask_mod_output",
            score="qk",
            b="off_z",
            h="off_h",
            m="m",
            n="n",
        ) | indent_except_first(2) }}

        if CHECK_BLOCK_BOUNDARY:
            mask_mod_output = tl.where(offs_n < KV_LEN, mask_mod_output, False)
        # apply mask for partially unmasked blocks
        post_mod_scores = tl.where(mask_mod_output, post_mod_scores, float("-inf"))

    if not PRESCALE_QK:
        post_mod_scores *= RCP_LN2
    # ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

    # -- compute scaling constant ---
    m_ij = tl.maximum(m_i, tl.max(post_mod_scores, 1))
    if not ROWS_GUARANTEED_SAFE:
        masked_out_rows = (m_ij == float("-inf"))
        m_ij_masked = tl.where(masked_out_rows, 0, m_ij)
    else:
        m_ij_masked = m_ij

    alpha = tl.math.exp2(m_i - m_ij_masked)
    p = tl.math.exp2(post_mod_scores - m_ij_masked[:, None])

    # NB: l_i update is pulled up here since it's a bit faster
    # NB: For headdim=256, it's faster to move it back down to after m_i =
    # m_ij
    l_i = l_i * alpha + tl.sum(p, 1)
    # # -- scale and update acc --
    acc = acc * alpha[:, None]
    v = load_checked_block(V_block_ptr, IS_DIVISIBLE, SAFE_HEAD_DIM)
    acc = tl.dot(p.to(MATMUL_PRECISION), v, acc, input_precision=FLOAT32_PRECISION)

    # -- update m_i
    m_i = m_ij

    return acc, l_i, m_i

Úflex_attention)rI   ÚgridÚsourcec           
      ó"  — |j                  dd«      }t        j                  j                  j	                  t        j                  | j                  «       d   d«      «      }t        j                  j                  j	                  t        j                  | j                  «       d   d«      «      }t        | j                  «       d   t        t
        j                  f«      }t        | j                  «       d   t        t
        j                  f«      }|rOt        j                  j                  j	                  t        j                  |j                  «       d   d«      «      }	n˜t        j                  j                  j	                  t        j                  t        j                  |j                  «       d   d«      t        j                  |j                  «       d   | j                  «       d   «      «      «      }	| xr |xr |xr
 |xr |xr |	S )a;  Decide which kernel to use, return true if use flex decoding kernel.
    Note:
       Since the number of splits is calculated based of the the number of batch and head dims
       we need to ensure that the batch and head dims are statically known. Otherwise we just
       use the main flex_attention kernel.
    ÚFORCE_USE_FLEX_ATTENTIONFéþÿÿÿé€   r   r0   )Úgetr
   r;   r<   Úevaluate_exprrW   ÚLtrs   ÚGtrV   ÚintÚIntegerÚEqÚOr)
ÚqueryÚ
kv_indicesÚkernel_optionsÚ
enable_gqaÚ
force_flexÚshort_query_lengthÚnon_zero_lengthÚstatic_batchÚstatic_num_headsÚvalid_block_mask_num_headss
             r5   Ú_use_flex_decodingr¸   À  s¦  € ð  ×#Ñ#Ð$>ÀÓF€JÜŸ™×)Ñ)×7Ñ7Ü‰—‘Ó! "Ñ% sÓ+óÐô —g‘g×&Ñ&×4Ñ4´U·X±X¸e¿n¹nÓ>NÈrÑ>RÐTUÓ5VÓW€OÜ˜eŸn™nÓ.¨qÑ1´C¼¿¹Ð3GÓH€LÜ! %§.¡.Ó"2°1Ñ"5¼¼U¿]¹]Ð7KÓLÐÙô
 &'§W¡W×%5Ñ%5×%CÑ%CÜH‰HZ×(Ñ(Ó*¨1Ñ-¨qÓ1ó&
Ñ"ô &'§W¡W×%5Ñ%5×%CÑ%CÜH‰HÜ—‘˜×,Ñ,Ó.¨qÑ1°1Ó5Ü—‘˜×,Ñ,Ó.¨qÑ1°5·>±>Ó3CÀAÑ3FÓGóó&
Ð"ð ˆò 	'Øò	'àò	'ð ò	'ð ò		'ð
 'ðr7   é@   )r¥   é    é   é   r¥   )rº   r¹   r»   r¼   é   )rº   rº   r»   r¼   ©r¥   r¥   r»   r¼   )r¥   r¹   é   r¼   ©r¹   rº   r»   r¼   )r¥   r¥   r¿   r¼   )r¹   é   r»   r¼   ©r¥   r¹   r»   r¼   )r¥   rº   r»   r0   )r¹   rÁ   r»   r0   ©r¥   r¹   r¿   r0   )rº   r¹   r¿   r0   )rº   r¹   r»   r0   c                   ó(   — e Zd Z e«       Z e«       Zy)ÚModeN)Ú__name__Ú
__module__Ú__qualname__r   ÚfwdÚbwdrA   r7   r5   rÅ   rÅ     s   „ Ù
‹&€CÙ
‹&Cr7   rÅ   Úmodec                 óÜ  — | j                  «       }t        j                  j                  j	                  | j                  «       d   «      }d }|t        j                  k(  rR|dk  r2|t        j                  k(  rd}nd}t        j                  ||f|«      }|S |t        j                  k(  rd}|S d}|S |t        j                  k(  sJ ‚|t        j                  k(  ry|dk  r|dk(  ry|d	k(  ry
yy)Néÿÿÿÿr½   )r¹   r¹   r»   r0   rÃ   )rº   rÁ   r»   r0   )r¹   rº   r»   r0   ©rÁ   rÁ   r»   r0   r¹   r¥   )r¹   r¥   r¿   r0   )rt   r
   r;   r<   Úevaluate_static_shapers   rÅ   rÉ   r_   rq   Ú_rocm_default_configr¦   rÊ   )r®   rË   rJ   Úhead_dimÚ
fwd_configs        r5   Ú_get_rocm_configrÓ     së   € ØO‰OÓ€EÜw‰w×Ñ×5Ñ5°e·n±nÓ6FÀrÑ6JÓK€HØ€JàŒtx‰xÒØsŠ?ØœŸ™Ò%Ø+‘
à,
Ü-×1Ñ1°5¸(Ð2CÀZÓPˆJð Ðð	 œŸ™Ò%Ø+
ð Ðð ,
ØÐà”t—x‘xÒÐÐØ”E—M‘MÒ!Ø!Ø˜Š_Ø˜2Š~Ø%Ø˜S’Ø&à%à!r7   c                 óâ  — | j                  «       }t        j                  j                  j	                  | j                  «       d   «      }d }d }t        j                  j                  «       }|t        j                  k(  rv|dk  rV|t        j                  k(  rd}nd}|dk\  rt        j                  ||f|«      }|S |dk\  rt        j                  ||f|«      }|S |t        j                  k(  rd}|S d}|S |t        j                  k(  sJ ‚|t        j                  k(  rd	}|S |dk  r|dk\  r|d
k(  rd}|S |dk(  rd}|S d}|S |dk\  r&|d
k\  rd}|S |dk(  r|d   dk(  rdnd}d
d
d|f}|S d}|S d	}|S )NrÍ   r½   ©r¹   r¹   r»   r¼   rÂ   )é	   r   )r¿   r   )rº   rÁ   r»   r¼   rÀ   rÎ   r¹   r¥   )r¹   r¥   r¿   r¼   )r¹   r¹   r»   r   )rº   r¥   r»   r¼   r   r¼   r   r»   )rt   r
   r;   r<   rÏ   rs   r_   ÚcudaÚget_device_capabilityrÅ   rÉ   rq   Ú_h100_default_configr¦   Ú_a100_default_configrÊ   )r®   rË   rJ   rÑ   rÒ   Ú
bwd_configÚ
capabilityÚ
num_stagess           r5   Ú_get_nv_configrÞ   2  sÒ  € ØO‰OÓ€EÜw‰w×Ñ×5Ñ5°e·n±nÓ6FÀrÑ6JÓK€HØ€JØ€JÜ—‘×1Ñ1Ó3€JàŒtx‰xÒØsŠ?ØœŸ™Ò%Ø+‘
à,
Ø˜VÒ#Ü1×5Ñ5°u¸hÐ6GÈÓT
ð Ðð ˜vÒ%Ü1×5Ñ5°u¸hÐ6GÈÓT
ð Ðð	 œŸ™Ò%Ø+
ð Ðð ,
ØÐð ”t—x‘xÒÐÐØ”E—M‘MÒ!Ø'ˆJð& Ðð% ˜Š_ ¨vÒ!5Ø˜2Š~Ø+
ð  Ðð ˜S’Ø,
ð Ðð ,
ð Ðð ˜6Ò!Ø˜2Š~Ø,
ð Ðð ˜S’à",¨R¡.°AÒ"5™Q¸1
Ø  " a¨Ð4
ð
 Ðð ,
ð Ðð (ˆJØÐr7   c                 ó¢   — t         j                  j                  €t        | t        j
                  ¬«      S t        | t        j
                  ¬«      S ©N)rË   )r_   ra   rb   rÞ   rÅ   rÉ   rÓ   ©r®   s    r5   Ú_get_default_config_fwdrâ   c  ó4   € Ü‡}}×ÑÐ Ü˜e¬$¯(©(Ô3Ð3ä ¬D¯H©HÔ5Ð5r7   c                 ó¢   — t         j                  j                  €t        | t        j
                  ¬«      S t        | t        j
                  ¬«      S rà   )r_   ra   rb   rÞ   rÅ   rÊ   rÓ   rá   s    r5   Ú_get_default_config_bwdrå   j  rã   r7   c                 ó4   ‡ — dt         j                  fˆ fd„}|S )Nr.   c                 ól  •— t         j                  j                  j                  ‰j                  d   «      }| j                  «       D cg c]+  }t         j                  j                  j                  |«      ‘Œ- }}t        j                  ||| j                  «       | j                  «       ¬«      S c c}w )NrÍ   ©rJ   rK   )
r
   r;   r<   Ú	size_hintrf   rs   r_   Úfullrt   rp   )rY   Únum_blocks_for_autotuningr|   r8   Úsparse_indicess       €r5   Úcreate_num_blocks_fakez@create_num_blocks_fake_generator.<locals>.create_num_blocks_fake|  s‡   ø€ Ü$%§G¡G×$4Ñ$4×$>Ñ$>¸~×?SÑ?SÐTVÑ?WÓ$XÐ!Ø78·z±z³|ÖD°!”—‘× Ñ ×*Ñ*¨1Õ-ÐDˆÐDÜz‰zØØ%Ø—+‘+“-Ø—<‘<“>ô	
ð 	
ùò Es   Á
0B1)r_   ÚTensor)rì   rí   s   ` r5   Ú create_num_blocks_fake_generatorrï   q  s   ø€ ð
¤U§\¡\õ 
ð "Ð!r7   c                 óF  — | j                  «       D cg c]+  }t        j                  j                  j	                  |«      ‘Œ- }}t        j                  d|d   | j                  «       | j                  «       ¬«      }|j                  |«      j                  «       }|S c c}w )Nr   rÍ   rè   )rs   r
   r;   r<   ré   r_   Úarangert   rp   r#   Ú
contiguous)rY   r|   r8   rx   s       r5   Úcreate_indices_fakeró   ‰  sv   € Ø34·:±:³<Ö@¨aŒAG‰G×Ñ×&Ñ& qÕ)Ð@€DÐ@Ül‰l˜1˜d 2™h¨a¯k©k«mÀAÇLÁLÃNÔS€GØn‰n˜TÓ"×-Ñ-Ó/€GØ€Nùò As   “0B)Úcreate_flex_decoding_kernel)ÚCppFlexAttentionTemplatec                  óè   — dd l } dd l}t        j                  j	                  «       xr | j                  d«      dk7  }|xr1 t        j                  j                  «        xr |j                  dk(   }|S )Nr   ÚATEN_CPU_CAPABILITYr”   Údarwin)	ÚosÚsysr_   ÚcpuÚ_is_avx2_supportedÚgetenvÚxpurd   Úplatform)rù   rú   Úrequires_avx2_on_cpuÚ	supporteds       r5   Úcheck_cpu_supportedr  •  sq   € ÛÛô 		‰	×$Ñ$Ó&ÒX¨2¯9©9Ð5JÓ+KÈyÑ+Xð ð 	ò 	)Ü—	‘	×&Ñ&Ó(Ð(ò	)à—‘ Ñ(Ð(ð ð
 Ðr7   c           
      óÎ   — | j                  «       }|rR|d   dk7  rJt        t        t        t	        | j                  «       «      «      «      «      }t        j                  | |«      S | S )zJEnsure that realized IR node has a contigous stride in the last dimension.rÍ   r0   )Úmaybe_get_striderv   Úreversedrw   r1   rs   r   Úrequire_stride_order)rY   r2   Úcontiguous_stride_orders      r5   Úcontiguous_last_dimr  ¤  sW   € à× Ñ Ó"€GÙ7˜2‘; !Ò#Ü"&¤x´´c¸!¿*¹*»,Ó6GÓ0HÓ'IÓ"JÐÜ×0Ñ0°Ð4KÓLÐLØ€Hr7   c	                 ó¾  ‡>‡?‡@— |\  }	}	}
}}}}}}}}}}|d   rt        d«      ‚t        «       st        d«      ‚g }t        j                  j                  j
                  j                  «       j                  j                  Š?t        j                  j                  j
                  j                  «       j                  j                  Š>t        j                  j                  j
                  }t        dt        «      |j                  ‰?<   t        dt        «      |j                  ‰><   t        j                  Š@d‰@‰?‰>gfdt        j                  g fdt        j                  g fdt        j                  ‰?d	gfd
t        j                  d	‰>gffD cg c]"  \  }}}t        ||| j!                  «       |«      ‘Œ$ }}}}t#        |t%        |«      z   |«      }|;t'        |t$        «      r|D ]  }|€Œ|j)                  «        Œ n|j)                  «        d‰@‰?‰>gfdt        j                  g fdt        j                  g fdt        j                  ‰?d	gfd
t        j                  d	‰>gffD cg c]"  \  }}}t        ||| j!                  «       |«      ‘Œ$ }}}}ˆ>ˆ?ˆ@fd„} ||«      }t+        |t%        |«      z   |«      } t        j                  j                  j
                  j,                  }!|!D "cg c]  }"|"‰?‰>fvsŒ
|"‘Œ c}"t        j                  j                  j
                  _        |t%        |«      z   |z   t%        |«      z   }#|#D ]8  }$t'        |$t.        «      sŒ|j1                  |$j2                  j2                  «       Œ: t5        t6        | ||g«      \  } }}t9        | |||
|||||||g«      \  } }}}
}}}}}}}t;        t=        | j?                  «       |j?                  «       |j?                  «       g«      «      dk7  rt        d«      ‚| jA                  «       t        j                  t        jB                  t        jD                  fvrt        d| jA                  «       › d«      ‚t9        |«      }t9        |«      }| jG                  «       \  }%}&}'}(|jG                  «       \  })}*}+},|%}-|-|&|'|,g}.tI        |.| jK                  «       «      }/tM        | j!                  «       | jA                  «       |-|&|'|,g|/D 0cg c]  }0tO        jP                  |0«      ‘Œ c}0¬«      }1g }2| |||
|g}3|sd}4nd}4|3|gz  }3d}5i }6|s|r€d}5d|fd|ffD ]8  \  }7}8|6jS                  tU        |8«      D 9:ci c]  \  }9}:|7› d|9› |:“Œ c}:}9«       Œ: |3|6jW                  «       D cg c]  }t'        |tN        jX                  «      s|‘Œ  c}z  }3|j[                  dd«      };t        j                  j                  j]                  |«      }t        j                  j                  j]                  |«      }t        j                  j                  j_                  tO        j`                  |'tO        jb                  |jG                  «       d   |«      «      «      sJ d«       ‚t        j                  j                  j_                  tO        j`                  |+tO        jb                  |jG                  «       d   |«      «      «      sJ d«       ‚te        jf                  |2|3|1||;rd n||;rd n| ||5|4|t;        |«      t;        |«      |6‰?‰>f¬«       | |g}<ti        d|2|<|1«      }=|=fS c c}}}w c c}}}w c c}"w c c}0w c c}:}9w c c}w )NÚOUTPUT_LOGSUMEXPzStorch.compile on CPU only supports inference and `return_lse` is not supported yet.z;torch.compile on current platform is not supported for CPU.r   ÚscoreÚbÚhÚq_idxr0   Úkv_idxc                 óX  •— t        j                  | j                  «      }|j                  }|j	                  t        t        |j                  «      «      «      5  |j                  d«      }d d d «       d }|j                  D ]  }|j                  dk(  sŒ|} n |€J ‚|j                  d   }‰‰g}|j                  |«      5  |j                  t        j                  |t        d«       fd‰i¬«      }d d d «       |j                  «      5  |j                  t        j                   j"                  j$                  ||f¬«      }	d d d «       	f|_
        |j'                  «        t        j(                  j+                  ||«      }
|
S # 1 sw Y   ŒxY w# 1 sw Y   Œ¢xY w# 1 sw Y   Œ\xY w)NÚqk_dataÚoutputr   ÚinfrJ   )rR   Úkwargsr[   )ÚcopyÚdeepcopyr…   r;   Úinserting_beforeÚnextÚiterÚnodesÚplaceholderÚoprR   Úinserting_afterÚcall_functionr_   rê   Úfloatr‘   ÚatenÚwhereÚlintÚfxÚGraphModule)Ú
mask_graphÚgmr;   Úqk_data_nodeÚoutput_nodeÚnodeÚ	mask_nodeÚ	size_nodeÚ	full_nodeÚ
where_nodeÚ	convertedÚcur_kvSplitSizeÚcur_qSplitSizeÚscore_dtypes              €€€r5   Úconvert_mask_graph_modulez,lower_cpu.<locals>.convert_mask_graph_module  s’  ø€ Ü]‰]˜:×2Ñ2Ó3ˆØ—‘ˆà×#Ñ#¤D¬¨e¯k©kÓ):Ó$;Ó<ñ 	8Ø ×,Ñ,¨YÓ7ˆL÷	8ð ˆØ—K‘Kò 	ˆDØw‰w˜(Ó"Ø"Ùð	ð Ð&Ð&Ð&Ø×$Ñ$ QÑ'ˆ	à# _Ð5ˆ	à×"Ñ" 9Ó-ñ 	Ø×+Ñ+Ü—
‘
Ø¤%¨£, Ð/Ø Ð-ð ,ó ˆI÷	ð ×"Ñ" 9Ó-ñ 	Ø×,Ñ,Ü—	‘	—‘×$Ñ$¨I°|ÀYÐ+Oð -ó ˆJ÷	ð '˜=ˆÔà
‰
ŒÜ—H‘H×(Ñ(¨¨UÓ3ˆ	ØÐ÷E	8ñ 	8ú÷ 	ð 	ú÷	ð 	ús$   ÁFÃ1FÄ9F ÆFÆFÆ F)r¼   z=Unsupported for now if query, key, value are the same buffer.z}`torch.float` , `torch.float16` and `torch.bfloat16` are supported in FlexAttention for CPU device. Found input tensors are `z`.©ÚstrideTFÚscore_othersÚmask_othersÚ_ÚSKIP_MASK_SCOREr¤   zkQ seqlen must be smaller than the block_mask size in the Q dimension, considering pass a larger block_mask.rÍ   zmKV seqlen must be smaller than the block_mask size in the KV dimension, considering pass a larger block_mask.)ÚchoicesÚinput_nodesrM   ÚscaleÚ	score_modÚmask_modÚkv_block_sizeÚhas_other_bufferÚno_full_kv_blockÚfake_buffersÚlen_score_otherÚlen_mask_otherÚkernel_input_name_to_bufferÚ
block_varsrŸ   )5ÚNotImplementedErrorr  r
   r;   r<   r=   Úcreate_unbacked_symintr)  Úexprr   r   Úvar_to_ranger_   r  Úint64rQ   rp   rž   rv   rV   Úfreeze_layoutr›   Úpending_fresh_unbacked_symbolsr   Úappendro   Úmapr  r\   r1   r   Úget_namert   Úbfloat16Úfloat16rs   r>   Ú
get_strider   rW   ÚsympifyÚupdateÚ	enumeratery   rX   r¦   rÏ   r§   ÚLeÚMulrõ   Úadd_choicesr(   )Ar®   ÚkeyÚvaluerœ   Ú
block_maskr;  r°   Úscore_mod_other_buffersÚmask_mod_other_buffersr7  Úkv_num_blocksr¯   Úfull_kv_num_blocksÚfull_kv_indicesÚq_num_blocksÚ	q_indicesÚfull_q_num_blocksÚfull_q_indicesÚSPARSE_Q_BLOCK_SIZEÚSPARSE_KV_BLOCK_SIZEr%  rA  r=   rI   rJ   r8   Úplaceholder_inpsrŽ   Ú_bufÚmask_graph_placeholder_inpsr2  Úconverted_mask_graph_moduleÚmask_graph_bufferÚpendingrY   Úbuffer_listÚitemÚBqÚHqÚ	seq_len_qÚqk_head_dimÚBkvÚHkvÚ
seq_len_kvÚ
v_head_dimÚBÚout_sizeÚout_stridesÚsrM   Ú_choicesr:  r@  r?  rD  Úprefixr—   r|   ÚbufÚskip_mask_scoreÚinputs_for_autotuningÚresr/  r0  r1  sA                                                                 @@@r5   Ú	lower_cpur  ­  s¬  ú€ ð2 	ñØ	Ø	ØØØØØØØØØØØð Ð(Ò)Ü!Øaó
ð 	
ô Ô Ü!ØIó
ð 	
ð "$€Lô —W‘W×%Ñ%×/Ñ/×FÑFÓH×MÑM×RÑR€NÜ—g‘g×&Ñ&×0Ñ0×GÑGÓI×NÑN×SÑS€OÜ—‘× Ñ ×*Ñ*€Iô
 .9¸¼FÓ-C€I×Ñ˜>Ñ*Ü.9¸!¼VÓ.D€I×Ñ˜?Ñ+ä—+‘+€Kð k N°OÐ#DÐEØ”%—+‘+˜rÐ"Ø”%—+‘+˜rÐ"Ø”e—k‘k N°AÐ#6Ð7Ø”u—{‘{ Q¨Ð$8Ð9ð"
÷	ð 	áˆD%˜ô 	˜4 ¨×(8Ñ(8Ó(:¸DÕAð	Ðò 	ô ,Øœ4Ð 7Ó8Ñ8¸(ó€Oð Ð"Üo¤tÔ,Ø'ò )ØÑ#Ø×&Ñ&Õ(ñ)ð ×)Ñ)Ô+ð k N°OÐ#DÐEØ”%—+‘+˜rÐ"Ø”%—+‘+˜rÐ"Ø”e—k‘k N°AÐ#6Ð7Ø”u—{‘{ Q¨Ð$8Ð9ð"
÷	#ð 	#áˆD%˜ô 	˜4 ¨×(8Ñ(8Ó(:¸DÕAð	#Ðò 	#ö2&ñP #<¸JÓ"GÐä4Ø#¤dÐ+AÓ&BÑBØ#óÐô g‰g×Ñ×(Ñ(×GÑG€GàöAØ˜a¨¸Ð'HÒHŠòA„A‡GG×Ñ×ÑÔ=ð
 	Ü
Ð&Ó
'ñ	(à
%ñ	&ô Ð%Ó
&ñ	'ð ð ò 0ˆÜdœIÕ&Ø×Ñ §	¡	§¡Õ/ð0ô
 Ô/°%¸¸eÐ1DÓEÑ€Eˆ3ô 	àØØØØØØØØØØð	
ó	ñØØØØØØØØØØØô" Œ:u—~‘~Ó'¨¯©«¸¿¹Ó9IÐJÓKÓLÐPQÒQÜ!ØKó
ð 	
ð ‡Ó¤§¡¬e¯n©n¼e¿m¹mÐ LÑLÜ!ð(Ø(-¯©Ó(9Ð':¸"ð>ó
ð 	
ô ,Ð,CÓDÐÜ*Ð+AÓBÐØ%*§^¡^Ó%5Ñ"€BˆˆI{Ø',§~¡~Ó'7Ñ$€Cˆˆj˜*Ø
€Að 2y *Ð-€HÜ% h°×0@Ñ0@Ó0BÓC€KäØ×ÑÓØ‰ÓØ	
ˆB	˜:Ð&Ø*5Ö6 Q”—‘˜aÕ Ò6ô	€Fð €HØ˜#˜u m°ZÐ@€KÙØÑà ÐØÐ*Ð+Ñ+ˆØÐØ"$ÐÙÑ"8ØÐð Ð4Ð5ØÐ2Ð3ð 
ò 	‰OˆFGð (×.Ñ.Ü4=¸gÓ4F×G©&¨!¨SF8˜1˜Q˜C #Ñ%ÓGõð		ð 	à4×;Ñ;Ó=ö
àÜ˜e¤U§\¡\Ô2ò ò
ñ 	
ˆð %×(Ñ(Ð):¸EÓB€OäŸ7™7×+Ñ+×AÑAÐBVÓWÐÜŸ'™'×*Ñ*×@Ñ@ÐATÓUÐÜ7‰7×Ñ×)Ñ)Ü‰œEŸI™I j×&9Ñ&9Ó&;¸BÑ&?ÐATÓUÓVôð ð 	vóð ô
 7‰7×Ñ×)Ñ)Ü‰œUŸY™Y z×':Ñ':Ó'<¸RÑ'@ÐBVÓWÓXôð ð 	xóð ô
 ×(Ñ(ØØØØÙ)‘$¨Ù(‘Ð.?Ø*Ø)Ø)Ø!ÜÐ3Ó4ÜÐ1Ó2Ø$?Ø" OÐ4õð" 	ØØðÐô
 $ØØØØó	€Cð ˆ6€MùôM	ùô(	#ùòTAùòH 7ùó& Hùò
s*   Æ'\<É%']Ë)]
Ë5]
Ó/]Õ]Ö	#]c                 ó&   — | dk7  xr | | dz
  z  dk(  S )Nr   r0   rA   ©Úns    r5   Úis_power_of_2r…  Ì  s   € Ø‰6Ò*˜˜Q ™U™¨Ñ)Ð*r7   c                 ód   — | dk  rydt        j                  t        j                  | «      «      z  S )Nr   r0   r   )ÚmathÚceilÚlog2rƒ  s    r5   Únext_power_of_tworŠ  Ð  s(   € ØˆA‚vØØ”—	‘	œ$Ÿ)™) A›,Ó'Ñ'Ð'r7   r°   c                 óL  — |j                  |«      }| j                  d|«       | j                  dt        |«      «       |j                  |«      }| j                  d|«       | j                  dt        |«      «       | j                  dt        |«      xr t        |«      «       y)a:  
    Mutates kernel options, adding head dimension calculations.

    Args:
        kernel_options: Dictionary to populate with options
        qk_head_dim: Query/Key head dimension
        v_head_dim: Value head dimension
        graph_sizevars: Graph size variables object with evaluate_static_shape method

    ÚQK_HEAD_DIMÚQK_HEAD_DIM_ROUNDEDÚ
V_HEAD_DIMÚV_HEAD_DIM_ROUNDEDÚSAFE_HEAD_DIMN)rÏ   Ú
setdefaultrŠ  r…  )r°   rr  rv  Úgraph_sizevarsÚqk_head_dim_staticÚv_head_dim_statics         r5   Úset_head_dim_valuesr•  Ö  s¥   € ð (×=Ñ=¸kÓJÐØ×Ñ˜mÐ-?Ô@Ø×ÑØÔ0Ð1CÓDôð
 '×<Ñ<¸ZÓHÐØ×Ñ˜lÐ,=Ô>Ø×ÑØÔ/Ð0AÓBôð
 ×ÑØÜÐ(Ó)ÒN¬mÐ<MÓ.Nõr7   )Útype_promotion_kindc	                 ód  ‡ — ‰ j                  «       j                  dk(  rt        ‰ ||||||||«	      S t        j                  j
                  j                  t        j                  ‰ j                  «       d   d«      «      }	t        j                  j
                  j                  t        j                  |j                  «       d   d«      «      }
|	s|
r3t        d‰ j                  «       d   › d|j                  «       d   › «      ‚|\  }}}}}}}}}}}}}d‰ j                  «       fdt        j                  fdt        j                  fd	t        j                  fd
t        j                  ffD cg c]   \  }}t        ||‰ j                  «       «      ‘Œ" }}}t        |t!        |«      z   |«      }dt        j                  fdt        j                  fd	t        j                  fd
t        j                  ffD cg c]   \  }}t        ||‰ j                  «       «      ‘Œ" }}}t        |t!        |«      z   |«      }t#        |«      }|j%                  «       D ci c]K  \  }}|t'        |t        j(                  «      r)t        j                  j
                  j+                  |«      n|“ŒM }}}|j-                  dt/        «       «       t        j                  j
                  j                  t        j0                  ‰ j                  «       d   |j                  «       d   «      «      }t3        ‰ |||«      rt5        ‰ |||||||||«
      S t7        ‰ ||||||||||g«      \  Š }}}}}}}}}}t7        |«      }t7        |«      }‰ j                  «       \  } }!}"}#|j                  «       \  }$}%}&}'t        j                  j
                  j                  t        j8                  | |$«      t        j8                  |$d«      z  «      sJ d| › d|$› «       ‚t        j                  j
                  j                  t        j:                  |"d«      «      sJ d«       ‚t        j                  j
                  j                  t        j:                  |&d«      «      sJ d«       ‚| }(|"dz  dk7  s|&dz  dk7  r|j-                  dd«       n|j-                  dd«       ‰ j=                  «       })|(|!|"|'g}*t?        |*|)«      }+tA        ‰ j                  «       ‰ j                  «       |(|!|"|'g|+D ,cg c]  },t        jB                  |,«      ‘Œ c},¬«      }-|(|!|"g}.tE        |.d t        jF                  ‰ j                  «       ¬«      }/|j-                  d|«       |!|%z  }0|j-                  d|0«       |d u}1|j-                  d|1«       |1sˆ fd„tI        d«      D «       \  }}tK        ||#|'t        j                  j
                  «       g }2g }3|3jM                  tO        ‰ «      «       tP        jR                  r=|3g d¢z  }3t        jT                  jV                  r|3D 4cg c]  }4|4d   |4d   |4d   df‘Œ }3}4t        j                  j
                  j+                  |«      }t        j                  j
                  j+                  |«      }t        jT                  jV                  rd|d<   |jY                  «       }5|3D ]i  \  }6}7}8}9||7z  dk7  s||6z  dk7  r!t[        |3«      dk(  rt]        d|› d |› d!«      ‚Œ:|5jY                  «       }:t!        |:j_                  «       «      D ]O  }|ja                  d"«      r|:jc                  |«      }||:|d#d  <   |ja                  d$«      sŒ?|:jc                  |«       ŒQ |:j-                  d%|9«       |:j-                  d&|8«       |:j-                  d'|6«       |:j-                  d(|7«       |:j-                  d)|«       |:j-                  d*|«       te        jf                  d/|2‰ |||/||||g|-||g|/g‰ j                  «       d+œ|:¤Ž};|;€ŒZt[        |3«      dk(  sŒj|;‚ ‰ |||/||||gt!        |«      z   t!        |«      z   }<ti        |«      tj        ti        |«      tj        d,œ}=tm        d-|2|<|-|=¬.«      |/fS c c}}w c c}}w c c}}w c c},w c c}4w )0Nrû   rÍ   rÁ   zTNYI: embedding dimension of the query, key, and value must be at least 16 but got E=z and Ev=r  r  r  Úmr„  ÚFLOAT32_PRECISIONr0   ú&Bq and Bkv must broadcastable. Got Bq=ú	 and Bkv=r   z#Query length must be greater than 0z!Key length must be greater than 0r¥   ÚIS_DIVISIBLEFTr3  rè   ÚSM_SCALEÚGQA_SHARED_HEADSÚHAS_FULL_BLOCKSc              3   óT   •K  — | ]  }t        d ‰j                  «       ¬«      –— Œ! y­w©r   )rK   N©r!   rp   ©Ú.0r7  r®   s     €r5   ú	<genexpr>z!flex_attention.<locals>.<genexpr>²  s)   øè ø€ ò /
Ø45ŒE!˜E×,Ñ,Ó.×/Ð/ñ/
ùó   ƒ%(r   )rÂ   r¾   )r¥   r¥   r¿   r   )r¹   r¥   r»   r¼   rÕ   ÚkpackzRQ and KV block size must be divisible by BLOCK_M and BLOCK_N. We got Q_BLOCK_SIZE=z and KV_BLOCK_SIZE=ú.Úfwd_r»   Úbwd_rÝ   Ú	num_warpsr@   ÚBLOCK_Nre  rf  ©r9  r:  rM   Ú	subgraphsÚmutated_inputsÚ
call_sizes)r»   é   é   é   rŸ   ©Úinput_gen_fnsrA   )7rp   rŒ   r  r
   r;   r<   r§   rW   r¨   rs   rF  rt   r_   Úint32rQ   rž   rv   ÚdictÚitemsrV   rX   rÏ   r‘  re   ÚNer¸   rô   r\   r¬   r©   rR  r>   r   rS  r"   rq   rw   r•  rM  râ   r   Úmax_autotunera   rb   r  r1   Ú
ValueErrorÚkeysÚ
startswithÚpopÚflex_attention_templateÚmaybe_append_choicerï   ró   r(   )>r®   rY  rZ  rœ   r[  r;  r°   r\  r]  Ú	small_dqkÚsmall_dvr7  r^  r¯   r_  r`  ra  rb  rc  rd  re  rf  r%  rI   rJ   rg  rŽ   ri  rk  ÚkÚvr±   ro  rp  rq  rr  rs  rt  ru  rv  rw  Ú	q_stridesrx  ry  rz  rM   Úlogsumexp_shapeÚ	logsumexpÚgqa_shared_headsÚhas_full_blocksr9  ÚconfigsÚcÚoriginal_kernel_optionsr@   r¬  r«  rÝ   Úcur_kernel_optionsÚerrorr  rµ  s>   `                                                             r5   rŸ   rŸ   ø  s"	  ø€ ð ×ÑÓ×Ñ %Ò'ÜØØØØØØØØ#Ø"ó

ð 
	
ô —‘× Ñ ×.Ñ.¬u¯x©x¸¿¹Ó8HÈÑ8LÈbÓ/QÓR€IÜw‰w×Ñ×-Ñ-¬e¯h©h°u·~±~Ó7GÈÑ7KÈRÓ.PÓQ€HÙ‘HÜ!ð%Ø%*§^¡^Ó%5°bÑ%9Ð$:¸(À5Ç>Á>ÓCSÐTVÑCWÐBXðZó
ð 	
ð& 	ñØ	Ø	ØØØØØØØØØØØð e—o‘oÓ'Ð(Ø”%—+‘+ÐØ”%—+‘+ÐØ”%—+‘+ÐØ”%—+‘+Ðð
÷	áˆD%ô 	˜4 ¨×(8Ñ(8Ó(:Õ;ð	Ðñ 	ô ,Øœ4Ð 7Ó8Ñ8¸(ó€Oð ”%—+‘+ÐØ”%—+‘+ÐØ”%—+‘+ÐØ”%—+‘+Ðð	
÷#áˆD%ô 	˜4 ¨×(8Ñ(8Ó(:Õ;ð#Ðñ #ô .Ø#¤dÐ+AÓ&BÑBÀJóÐô ˜.Ó)€Nð #×(Ñ(Ó*÷	ñ ˆAˆqð 	
ÜaœŸ™Ô&ô 7‰7×Ñ×1Ñ1°!Ô4àñ	ð€Nñ ð ×ÑÐ1Ô3HÓ3JÔKÜ—‘×!Ñ!×/Ñ/Ü‰—‘Ó! !Ñ$ c§l¡l£n°QÑ&7Ó8ó€Jô ˜% ¨^¸ZÔHÜ*ØØØØØØØØØ#Ø"ó
ð 	
ô2 	àØØØØØØØØØØð	
ó	ñØØØØØØØØØØØô" ,Ð,CÓDÐÜ*Ð+AÓBÐà%*§^¡^Ó%5Ñ"€BˆˆI{Ø',§~¡~Ó'7Ñ$€Cˆˆj˜*Ü7‰7×Ñ×)Ñ)¬%¯(©(°2°sÓ*;¼e¿h¹hÀsÈAÓ>NÑ*NÔOð Ø
0°°°I¸c¸UÐCóÐOô 7‰7×Ñ×)Ñ)¬%¯(©(°9¸aÓ*@ÔAð Ø-óÐAô 7‰7×Ñ×)Ñ)¬%¯(©(°:¸qÓ*AÔBð Ø+óÐBð 	€Aà3˜!Ò˜z¨CÑ/°1Ò4Ø×!Ñ! .°%Õ8à×!Ñ! .°$Ô7ð × Ñ Ó"€Ià2y *Ð-€HÜ% h°	Ó:€KäØ×ÑÓØ‰ÓØ	
ˆB	˜:Ð&Ø*5Ö6 Q”—‘˜aÕ Ò6ô	€Fð ˜"˜iÐ(€OÜØØÜm‰mØ×ÑÓ!ô	€Ið ×Ñ˜j¨%Ô0ð ˜S‘yÐØ×ÑÐ0Ð2BÔCð )°Ð4€OØ×ÑÐ/°ÔAÙó/
Ü9>¸q»ô/
Ñ+Ð˜Oô ˜¨°ZÄÇÁ×AQÑAQÔRà€GØ/1€GØ‡NNÔ*¨5Ó1Ô2Ü×ÒØò 
ñ 	
ˆô =‰=×ÒØ6=Ö>°˜˜!™˜a ™d A a¡D¨!Ò,Ð>ˆGÐ>ô Ÿ7™7×+Ñ+×AÑAÐBVÓWÐÜŸ'™'×*Ñ*×@Ñ@ÐATÓUÐô ‡}}×ÒØ"#ˆwÑð
 -×1Ñ1Ó3ÐØ3:ó 3Ñ/ˆ˜) ZØ 'Ñ)¨QÒ.Ð2EÈÑ2OÐSTÒ2TÜ7‹|˜qÒ Ü ð(Ø(;Ð'<Ð<OÐPdÐOeÐefðhóð ð à4×9Ñ9Ó;Ðô Ð(×-Ñ-Ó/Ó0ò 	*ˆAØ|‰|˜FÔ#Ø&×*Ñ*¨1Ó-Ø,-Ð" 1 Q R 5Ñ)Ø|‰|˜FÕ#Ø"×&Ñ& qÕ)ð	*ð 	×%Ñ% l°JÔ?Ø×%Ñ% k°9Ô=Ø×%Ñ% i°Ô9Ø×%Ñ% i°Ô9à×%Ñ%Ð&;Ð=PÔQØ×%Ñ%Ð&<Ð>RÔSä'×;Ñ;ð 
ØàØØØØØØ"Øð	ð àØ!ðð
 ðð —~‘~Ó'ñ)
ð* !ñ+
ˆð. Ò¤ W£°Ô!2ØˆKðg3ðl ØØØØØØØð		
ô Ð&Ó
'ñ
	(ô Ð%Ó
&ñ	'ð ô ,¨JÓ7ÜÜ+¨OÓ<Üñ	€Mô 	"ØØØ!ØØ'ô	
ð 	ð	ð 	ùóc	ùó#ùóùòj 7ùòR ?s   Å/%bÇ8%bÉAb"Ôb(Ø9b-c                 óx   — ddl }|j                  ||d   «      ||z  z  |j                  ||d   «      z   d| |z  fS )a?  How is this kernel parallelized?
    Currently this is only parallelizing over batch* kv_heads, but we can, and want to
    parallelize over ceil_div(q_heads//kv_heads * num_key_value, key_value_block_size).
    To do this will either require atomic updates to some grad values or to have a two pass kernel design.
    r   NÚBLOCK_M2ÚBLOCK_N1r0   )ÚtritonrG   )rB   rC   rD   rE   Úkv_headsÚnum_key_valuerF   rÒ  s           r5   Úflex_attention_backward_gridrÕ  +  sS   € ó ð 	‰K  jÑ!1Ó2°gÀÑ6IÑJØ
+‰+m T¨*Ñ%5Ó
6ñ	7à	ØXÑð	ð r7   Úflex_attention_backwarda­m  
{{def_kernel("Q", "K", "V", "LSE", "DELTA", "DO", "DQ", "DV", "KV_NUM_BLKS", "KV_IDX", "Q_NUM_BLKS", "Q_IDX", "FULL_KV_NUM_BLKS", "FULL_KV_IDX", "FULL_Q_NUM_BLKS", "FULL_Q_IDX")}}
    # Sub notation for this kernel:
    #
    # Q: Query, K: Key, V: Value
    # LSE: logsumexp (logsumexp is always stored in fp32 regardless of the input dtype)
    # DELTA: Precomputed sum(OUT*DO, axis=-1)
    # DO: Derivative of Output, DQ: Derivative of Query, DV: Derivative of Value
    # DK: Derivative of Key, is the written to via the store_output call due to some limitations with
    # inductor codegen
    # M: Number of queries, N: Number of keys/values
    # QK_HEAD_DIM: The dimension of the query and key embeddings
    # V_HEAD_DIM: The dimension of the value embeddings
    # z: Batch size, h: Number of heads, m: Number of queries or keys/values, d: Head dim
    # GQA_SHARED_HEADS: number of query heads sharing one kv head in GQA setups.
    # (Modifiable) Performance tuning options
    # BLOCK_M1: when calculating DK & DV, iterate over BLOCK_M1 across the seqlen dim of Q in each thread block.
    # BLOCK_N1: when calculating DK & DV, the thread block size across the seqlen dim of K/V.
    # BLOCK_M2: when calculating DQ, the thread block size across the seqlen dim of Q.
    # BLOCK_N2: when calculating DQ, iterate over BLOCK_N2 across the seqlen dim of K/V in each thread block.
    #
    # The following FULL_* and PARTIAL_* is defined in the block sparse mask grid, rather than the thread block grid.
    # KV_NUM_BLKS: The number of KV blocks (that may or may not require masking) for each query.
    # KV_IDX: The indices of KV blocks (that may or may not require masking) for each query.
    # Q_NUM_BLKS: The number of Q blocks (that may or may not require masking) for each query.
    # Q_IDX: The indices of Q blocks (that may or may not require masking) for each query.
    # FULL_KV_NUM_BLKS: The number of fully unmasked KV blocks (so we don't need masking) for each query.
    # FULL_KV_IDX: The indices of fully unmasked KV blocks (so we don't need masking) for each query.
    # FULL_Q_NUM_BLKS: The number of fully unmasked Q blocks (so we don't need masking) for each query.
    # FULL_Q_IDX: The indices of fully unmasked Q blocks (so we don't need masking) for each query.

    # The below are kernel options that can be applied for certain score_mods,
    # or involve a numerics vs. perf tradeoff
    # PRESCALE_QK: Whether to pre-scale QK by 1/sqrt(d) and change of base. Has
    # about 20% more numerical error, but slightly faster.

    # Define strides of inputs
    stride_qz, stride_qh, stride_qm, stride_qd = {{stride("Q")}}
    stride_kz, stride_kh, stride_kn, stride_kd = {{stride("K")}}
    stride_vz, stride_vh, stride_vn, stride_vd = {{stride("V")}}
    stride_doz, stride_doh, stride_dom, stride_dod = {{stride("DO")}}

    stride_dqz, stride_dqh, stride_dqm, stride_dqd = {{stride("DQ")}}
    stride_dvz, stride_dvh, stride_dvm, stride_dvd = {{stride("DV")}}

    ZQ = {{size("Q", 0)}}
    HQ = {{size("Q", 1)}}
    HKV = {{size("K", 1)}}
    Q_LEN = {{size("Q", 2)}}
    ZKV = {{size("K", 0)}}
    KV_LEN = {{size("K", 2)}}

    MATMUL_PRECISION = Q.dtype.element_ty

    pid = tl.program_id(0)
    NUM_KV_BLOCKS = tl.cdiv(KV_LEN, BLOCK_N1)
    NUM_Q_BLOCKS = tl.cdiv(Q_LEN, BLOCK_M2)

    off_hz = tl.program_id(2)
    off_zq = off_hz // HKV # q batch idx
    off_hkv = off_hz % HKV # kv head idx
    off_zkv = off_zq % ZKV # kv batch idx

    SPARSE_Z = {{size("KV_NUM_BLKS", 0)}}
    SPARSE_HQ = {{size("KV_NUM_BLKS", 1)}}

    sparse_idx_z = off_zq % SPARSE_Z

    k_adj = (stride_kh * off_hkv + stride_kz * off_zkv).to(tl.int64)
    v_adj = (stride_vh * off_hkv + stride_vz * off_zkv).to(tl.int64)
    # first compute broadcasted dv of shape [Bq, Hkv, KV_LEN, V_HEAD_DIM]
    # then reduce to dv of shape [Bkv, Hkv, KV_LEN, V_HEAD_DIM]
    dv_adj = (stride_dvh * off_hkv + stride_dvz * off_zq).to(tl.int64)

    # offset K, V, DV pointers for batch/kv-head
    K += k_adj
    V += v_adj
    DV += dv_adj

    RCP_LN2 = 1.44269504
    offs_k = tl.arange(0, QK_HEAD_DIM_ROUNDED)
    offs_v = tl.arange(0, V_HEAD_DIM_ROUNDED)

    if pid >= NUM_KV_BLOCKS:
        off_pid = pid - NUM_KV_BLOCKS
        # THIS BLOCK DOES DQ
        SPARSE_Q_MULTIPLE = (SPARSE_Q_BLOCK_SIZE // BLOCK_M2)
        SPARSE_KV_MULTIPLE = (SPARSE_KV_BLOCK_SIZE // BLOCK_N2)
        off_hq2 = off_pid // NUM_Q_BLOCKS + off_hkv * GQA_SHARED_HEADS
        start_m2_block = off_pid % NUM_Q_BLOCKS
        off_pid_mask = start_m2_block // SPARSE_Q_MULTIPLE
        stride_kv_num_blks_h = {{stride("KV_NUM_BLKS", 1)}}
        stride_kv_idx_h = {{stride("KV_IDX", 1)}}
        stride_kv_idx_m = {{stride("KV_IDX", 2)}}

        sparse_idx_hq2 = off_hq2 % SPARSE_HQ
        sparse_hz_offset = sparse_idx_z * SPARSE_HQ + sparse_idx_hq2

        sparse_kv_num_blks_offset = sparse_hz_offset * stride_kv_num_blks_h + off_pid_mask
        sparse_kv_idx_offset = sparse_hz_offset * stride_kv_idx_h + off_pid_mask * stride_kv_idx_m  # noqa: B950

        # Offset Q, DQ, DO, DELTA & LSE. These inputs are offseted by query heads.
        q_adj2 = (stride_qh * off_hq2 + stride_qz * off_zq).to(tl.int64)
        do_adj2 = (stride_doh * off_hq2 + stride_doz * off_zq).to(tl.int64)
        dq_adj2 = (stride_dqh * off_hq2 + stride_dqz * off_zq).to(tl.int64)
        off_chz2 = ((off_zq * HQ + off_hq2) * Q_LEN).to(tl.int64)

        Q2 = Q + q_adj2
        DO2 = DO + do_adj2
        # TODO: This does not work if DQ is not the same layout as Q (for example,
        # if Q is broadcasted)
        DQ2 = DQ + dq_adj2
        LSE2 = LSE + off_chz2
        DELTA2 = DELTA + off_chz2

        # dq = tl.zeros([BLOCK_M2, QK_HEAD_DIM], dtype=tl.float32)
        dq = tl.zeros([BLOCK_M2, QK_HEAD_DIM_ROUNDED], dtype=tl.float32)

        start_m2 = start_m2_block * BLOCK_M2
        offs_m2 = start_m2 + tl.arange(0, BLOCK_M2)

        # load Q and do: they stay in SRAM throughout the inner loop.
        q = load_checked_2d(Q2, offs_m2, offs_k, stride_qm, stride_qd, IS_DIVISIBLE, SAFE_HEAD_DIM, Q_LEN, QK_HEAD_DIM)
        do = load_checked_2d(DO2, offs_m2, offs_v, stride_dom, stride_dod, IS_DIVISIBLE, SAFE_HEAD_DIM, Q_LEN, V_HEAD_DIM)

        if PRESCALE_QK:
            q = (q * SM_SCALE * RCP_LN2).to(MATMUL_PRECISION)

        if IS_DIVISIBLE:
            Di = tl.load(DELTA2 + offs_m2)
            lse = tl.load(LSE2 + offs_m2)
        else:
            Di = tl.load(DELTA2 + offs_m2, mask=offs_m2 < Q_LEN)
            lse = tl.load(LSE2 + offs_m2, mask=offs_m2 < Q_LEN)
        lse = tl.where(lse == -float("inf"), 0.0, lse)
        lse = lse[:, None]

        # ~~~~~~~~~~~ fully unmasked blocks ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
        # KV_IDX and KV_NUM_BLKS are always contiguous.
        kv_indices = KV_IDX + sparse_kv_idx_offset
        kv_start = tl.load(kv_indices) * SPARSE_KV_BLOCK_SIZE # first kv block we're loading
        sparse_kv_num_blocks = tl.load(KV_NUM_BLKS + sparse_kv_num_blks_offset)

        offs_n2 = kv_start + tl.arange(0, BLOCK_N2)
        dq = bwd_dq_inner(
            {{gen_argdefs()}},
            K, V,
            dq, q, do, Di, lse,
            off_zq, off_hq2, offs_m2, offs_n2,
            stride_kn, stride_kd, stride_vn, stride_vd,
            kv_indices, sparse_kv_num_blocks,
            MATMUL_PRECISION,
            IS_FULL_BLOCKS=False,
        )

        if HAS_FULL_BLOCKS:
            # ~~~~~~~~~~~ partial unmasked blocks ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
            # FULL_KV_IDX and FULL_KV_NUM_BLKS are always contiguous.
            kv_indices = FULL_KV_IDX + sparse_kv_idx_offset
            kv_start = tl.load(kv_indices) * SPARSE_KV_BLOCK_SIZE # first kv block we're loading
            sparse_kv_num_blocks = tl.load(FULL_KV_NUM_BLKS + sparse_kv_num_blks_offset)

            offs_n2 = kv_start + tl.arange(0, BLOCK_N2)
            dq = bwd_dq_inner(
                {{gen_argdefs()}},
                K, V,
                dq, q, do, Di, lse,
                off_zq, off_hq2, offs_m2, offs_n2,
                stride_kn, stride_kd, stride_vn, stride_vd,
                kv_indices, sparse_kv_num_blocks,
                MATMUL_PRECISION,
                IS_FULL_BLOCKS=True,
            )

        # Write back dQ.
        dq_ptrs = DQ2 + offs_m2[:, None] * stride_dqm + offs_k[None, :] * stride_dqd
        dq *= SM_SCALE
        if IS_DIVISIBLE and SAFE_HEAD_DIM:
            tl.store(dq_ptrs, dq)
        else:
            tl.store(dq_ptrs, dq, mask=(offs_m2[:, None] < Q_LEN) & (offs_k[None, :] < QK_HEAD_DIM))
    else:
        # THIS BLOCK DOES DK & DV
        SPARSE_Q_MULTIPLE = (SPARSE_Q_BLOCK_SIZE // BLOCK_M1)
        SPARSE_KV_MULTIPLE = (SPARSE_KV_BLOCK_SIZE // BLOCK_N1)

        pid_mask = pid // SPARSE_KV_MULTIPLE

        stride_q_num_blks_h = {{stride("Q_NUM_BLKS", 1)}}
        stride_q_idx_h = {{stride("Q_IDX", 1)}}
        stride_q_idx_n = {{stride("Q_IDX", 2)}}


        dv = tl.zeros([BLOCK_N1, V_HEAD_DIM_ROUNDED], dtype=tl.float32)
        dk = tl.zeros([BLOCK_N1, QK_HEAD_DIM_ROUNDED], dtype=tl.float32)

        start_n1 = pid * BLOCK_N1
        offs_n1 = start_n1 + tl.arange(0, BLOCK_N1)

        # load K and V: they stay in SRAM throughout the inner loop.
        k = load_checked_2d(K, offs_n1, offs_k, stride_kn, stride_kd, IS_DIVISIBLE, SAFE_HEAD_DIM, KV_LEN, QK_HEAD_DIM)
        v = load_checked_2d(V, offs_n1, offs_v, stride_vn, stride_vd, IS_DIVISIBLE, SAFE_HEAD_DIM, KV_LEN, V_HEAD_DIM)

        if PRESCALE_QK:
            k = (k * SM_SCALE * RCP_LN2).to(MATMUL_PRECISION)

        for off_g in range(0, GQA_SHARED_HEADS):
            off_hq1 = off_hkv * GQA_SHARED_HEADS + off_g

            # Offset Q, DQ, DO, DELTA & LSE. These inputs are offseted by query heads.
            q_adj1 = (stride_qh * off_hq1 + stride_qz * off_zq).to(tl.int64)
            do_adj1 = (stride_doh * off_hq1 + stride_doz * off_zq).to(tl.int64)
            dq_adj1 = (stride_dqh * off_hq1 + stride_dqz * off_zq).to(tl.int64)
            off_chz1 = ((off_zq * HQ + off_hq1) * Q_LEN).to(tl.int64)

            Q1 = Q + q_adj1
            DO1 = DO + do_adj1
            # TODO: This does not work if DQ is not the same layout as Q (for example,
            # if Q is broadcasted)
            LSE1 = LSE + off_chz1
            DELTA1 = DELTA + off_chz1

            sparse_idx_hq1 = off_hq1 % SPARSE_HQ
            sparse_hz_offset = sparse_idx_z * SPARSE_HQ + sparse_idx_hq1

            sparse_q_num_blks_offset = sparse_hz_offset * stride_q_num_blks_h + pid_mask
            sparse_q_idx_offset = sparse_hz_offset * stride_q_idx_h + pid_mask * stride_q_idx_n  # noqa: B950

            # ~~~~~~~~~~~~~~~ fully unmasked blocks ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
            # Q_IDX and Q_NUM_BLKS are always contiguous.
            q_indices = Q_IDX + sparse_q_idx_offset
            q_start = tl.load(q_indices) * SPARSE_Q_BLOCK_SIZE # first q block we're loading
            sparse_q_num_blocks = tl.load(Q_NUM_BLKS + sparse_q_num_blks_offset)

            offs_m1 = q_start + tl.arange(0, BLOCK_M1)
            dk, dv = bwd_dkdv_inner(
                {{gen_argdefs()}},
                Q1, DO1, DELTA1, LSE1,
                dk, dv, k, v,
                off_zq, off_hq1, offs_n1, offs_m1,
                stride_qm, stride_qd, stride_dom, stride_dod,
                q_indices, sparse_q_num_blocks,
                MATMUL_PRECISION,
                IS_FULL_BLOCKS=False,
            )


            if HAS_FULL_BLOCKS:
                # ~~~~~~~~~~~~~~~ fully unmasked blocks ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
                # FULL_Q_IDX and FULL_Q_NUM_BLKS are always contiguous.
                q_indices = FULL_Q_IDX + sparse_q_idx_offset
                q_start = tl.load(q_indices) * SPARSE_Q_BLOCK_SIZE # first q block we're loading
                sparse_q_num_blocks = tl.load(FULL_Q_NUM_BLKS + sparse_q_num_blks_offset)

                offs_m1 = q_start + tl.arange(0, BLOCK_M1)
                dk, dv = bwd_dkdv_inner(
                    {{gen_argdefs()}},
                    Q1, DO1, DELTA1, LSE1,
                    dk, dv, k, v,
                    off_zq, off_hq1, offs_n1, offs_m1,
                    stride_qm, stride_qd, stride_dom, stride_dod,
                    q_indices, sparse_q_num_blocks,
                    MATMUL_PRECISION,
                    IS_FULL_BLOCKS=True,
                )

        # Write back dV and dK.
        dv_ptrs = DV + offs_n1[:, None] * stride_dvm + offs_v[None, :] * stride_dvd

        index_n = offs_n1[:, None]
        index_k = offs_k[None, :]
        index_v = offs_v[None, :]

        if IS_DIVISIBLE and SAFE_HEAD_DIM:
            tl.store(dv_ptrs, dv)
        else:
            tl.store(dv_ptrs, dv, mask=(index_n < KV_LEN) & (index_v < V_HEAD_DIM))

        dk *= SM_SCALE

        if SAFE_HEAD_DIM:
            mask = index_n < KV_LEN
        else:
            mask = (index_n < KV_LEN) & (index_k < QK_HEAD_DIM)

        # first compute broadcasted dk of shape [Bq, Hkv, KV_LEN, V_HEAD_DIM]
        # then reduce to dk of shape [Bkv, Hkv, KV_LEN, V_HEAD_DIM]
        {{store_output(("off_zq", "off_hkv", "index_n", "index_k"), "dk", "mask", indent_width=8)}}

@triton.jit
def bwd_dq_inner(
    {{gen_argdefs()}},
    K, V,  # pointers
    dq, q, do, Di, lse,
    off_z, off_hq, offs_m2, offs_n2,
    stride_kn, stride_kd, stride_vn, stride_vd,
    kv_indices, sparse_kv_num_blocks,
    MATMUL_PRECISION,
    IS_FULL_BLOCKS,
):
    {{gen_defines() | indent_except_first(1) }}
    SPARSE_KV_MULTIPLE: tl.constexpr = (SPARSE_KV_BLOCK_SIZE // BLOCK_N2)
    RCP_LN2: tl.constexpr = 1.44269504
    Q_LEN = {{size("Q", 2)}}
    KV_LEN = {{size("K", 2)}}

    offs_k = tl.arange(0, QK_HEAD_DIM_ROUNDED)
    offs_v = tl.arange(0, V_HEAD_DIM_ROUNDED)

    kT_ptrs = K + offs_n2[None, :] * stride_kn + offs_k[:, None] * stride_kd
    vT_ptrs = V + offs_n2[None, :] * stride_vn + offs_v[:, None] * stride_vd
    # BLOCK_M2 must be a multiple of BLOCK_N2, otherwise the code wouldn't work.
    tl.static_assert(BLOCK_M2 % BLOCK_N2 == 0)

    hi = tl.minimum(sparse_kv_num_blocks * SPARSE_KV_MULTIPLE, tl.maximum(tl.cdiv(KV_LEN, BLOCK_N2), 1))
    if not IS_DIVISIBLE:
        if hi >= 1:
            for start_n in range(0, hi - 1):
                dq = bwd_dq_block_mn(
                    {{gen_argdefs()}},
                    dq, q, kT_ptrs, vT_ptrs, do, Di, lse, Q_LEN, KV_LEN,
                    off_z, off_hq, offs_m2, offs_n2, offs_k, offs_v,
                    stride_kn, stride_kd, stride_vn, stride_vd,
                    kv_indices, sparse_kv_num_blocks,
                    MATMUL_PRECISION, RCP_LN2,
                    IS_FULL_BLOCKS,
                )

                # Increment pointers.
                offset = get_offset_for_next_block(
                    start_n, kv_indices, sparse_kv_num_blocks,
                    SPARSE_KV_BLOCK_SIZE, SPARSE_KV_MULTIPLE, BLOCK_N2, BLOCKS_ARE_CONTIGUOUS
                )

                kT_ptrs += offset * stride_kn
                vT_ptrs += offset * stride_vn

                offs_n2 += offset

            dq = bwd_dq_block_mn(
                {{gen_argdefs()}},
                dq, q, kT_ptrs, vT_ptrs, do, Di, lse, Q_LEN, KV_LEN,
                off_z, off_hq, offs_m2, offs_n2, offs_k, offs_v,
                stride_kn, stride_kd, stride_vn, stride_vd,
                kv_indices, sparse_kv_num_blocks,
                MATMUL_PRECISION, RCP_LN2,
                IS_FULL_BLOCKS, CHECK_BLOCK_BOUNDARY=True,
            )
    else:
        for start_n in range(0, hi):
            dq = bwd_dq_block_mn(
                {{gen_argdefs()}},
                dq, q, kT_ptrs, vT_ptrs, do, Di, lse, Q_LEN, KV_LEN,
                off_z, off_hq, offs_m2, offs_n2, offs_k, offs_v,
                stride_kn, stride_kd, stride_vn, stride_vd,
                kv_indices, sparse_kv_num_blocks,
                MATMUL_PRECISION, RCP_LN2,
                IS_FULL_BLOCKS,
            )

            # Increment pointers.
            offset = get_offset_for_next_block(
                start_n, kv_indices, sparse_kv_num_blocks,
                SPARSE_KV_BLOCK_SIZE, SPARSE_KV_MULTIPLE, BLOCK_N2, BLOCKS_ARE_CONTIGUOUS
            )

            kT_ptrs += offset * stride_kn
            vT_ptrs += offset * stride_vn

            offs_n2 += offset

    return dq


@triton.jit
def bwd_dq_block_mn(
    {{gen_argdefs()}},
    dq, q, kT_ptrs, vT_ptrs, do, Di, lse, Q_LEN, KV_LEN,
    off_z, off_hq, offs_m2, offs_n2, offs_k, offs_v,
    stride_kn, stride_kd, stride_vn, stride_vd,
    kv_indices, sparse_kv_num_blocks,
    MATMUL_PRECISION, RCP_LN2,
    IS_FULL_BLOCKS, CHECK_BLOCK_BOUNDARY=False,
):
    {{gen_defines() | indent_except_first(1)}}

    # NB reversed order to since K is transposed
    kT = load_checked_2d(kT_ptrs, offs_k, offs_n2, None, None, SAFE_HEAD_DIM, IS_DIVISIBLE, QK_HEAD_DIM, KV_LEN)
    qk = tl.dot(q, kT, input_precision=FLOAT32_PRECISION)
    if not PRESCALE_QK:
        qk *= SM_SCALE
    # ~~~~~~~~~~~~~~~~~~~ Apply score modification  ~~~~~~~~~~~~~~~~~~~
    pre_mod_scores = qk
    n = get_bounded_indices(offs_n2[None, :], KV_LEN if CHECK_BLOCK_BOUNDARY else None)
    # The boundary check is done for the outer loop, but here it's possible since we're iterating across N dim
    # that the M reads out of bounds prior to the last loop
    m = get_bounded_indices(offs_m2[:, None], Q_LEN if (not IS_DIVISIBLE or CHECK_BLOCK_BOUNDARY) else None)

    {{ modification(
        subgraph_number=0,
        output_name="post_mod_scores",
        score="qk",
        b="off_z",
        h="off_hq",
        m="m",
        n="n",
        out="qk"
    ) | indent_except_first(1) }}

    if CHECK_BLOCK_BOUNDARY:
        # Mask out the elements that are out of the KV_LEN for non divisible seqlen.
        post_mod_scores = tl.where(offs_n2[None, :] < KV_LEN, post_mod_scores, float("-inf"))

    if not IS_FULL_BLOCKS:
        {{ modification(
            subgraph_number=2,
            output_name="mask_mod_output",
            score="qk",
            b="off_z",
            h="off_hq",
            m="m",
            n="n",
        ) | indent_except_first(2) }}

        if CHECK_BLOCK_BOUNDARY:
            mask_mod_output = tl.where(offs_n2[None, :] < KV_LEN, mask_mod_output, False)
        # apply mask for partial masked block
        post_mod_scores = tl.where(mask_mod_output, post_mod_scores, float("-inf"))
    # ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    if not PRESCALE_QK:
        post_mod_scores *= RCP_LN2
    p = tl.math.exp2(post_mod_scores - lse)
    # Compute dP and dS.
    # NB reversed order to since V is transposed
    vT = load_checked_2d(vT_ptrs, offs_v, offs_n2, None, None, SAFE_HEAD_DIM, IS_DIVISIBLE, V_HEAD_DIM, KV_LEN)

    dp = tl.dot(do, vT, input_precision=FLOAT32_PRECISION)
    ds = p * (dp - Di[:, None])
    # ~~~~~~~~~~~~~~~~~~~ Apply joint modification  ~~~~~~~~~~~~~~~~~~~
    {{ modification(
        subgraph_number=1,
        output_name = "grad_scores",
        score="pre_mod_scores",
        b="off_z",
        h="off_hq",
        m="m",
        n="n",
        grad_score_mod="ds"
    ) | indent_except_first(1) }}
    if CHECK_BLOCK_BOUNDARY:
        grad_scores = tl.where(offs_n2[None, :] < KV_LEN, grad_scores, 0.0)

    # ~~~~~~~~~~~~~~~~~~~ Apply other buffer grad writes ~~~~~~~~~~~~~
    if WRITE_DQ:
        scatter_mask = offs_m2[:, None] < Q_LEN and offs_n2[None, :] < KV_LEN
        {{ modification(
            subgraph_number=3,
            output_name=None,
            mask="scatter_mask",
            score="pre_mod_scores",
            b="off_z",
            h="off_hq",
            m="m",
            n="n",
            grad_score_mod="ds"
        ) | indent_except_first(2) }}
    # ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    ds = grad_scores

    if not IS_FULL_BLOCKS:
        if CHECK_BLOCK_BOUNDARY:
            mask_mod_output = tl.where(offs_n2[None, :] < KV_LEN, mask_mod_output, False)
        # (grads) apply mask for partially unmasked block
        ds = tl.where(mask_mod_output, ds, 0.0)
    # ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    ds = ds.to(MATMUL_PRECISION)
    # Compute dQ.
    dq += tl.dot(ds, tl.trans(kT), input_precision=FLOAT32_PRECISION)

    return dq


@triton.jit
def bwd_dkdv_inner(
    {{gen_argdefs()}},
    Q, DO, DELTA, LSE, # pointers
    dk, dv, k, v,
    off_z, off_hq, offs_n1, offs_m1,
    stride_qm, stride_qd, stride_dom, stride_dod,
    q_indices, sparse_q_num_blocks,
    MATMUL_PRECISION,
    IS_FULL_BLOCKS,
):
    {{gen_defines() | indent_except_first(1) }}
    SPARSE_Q_MULTIPLE: tl.constexpr = (SPARSE_Q_BLOCK_SIZE // BLOCK_M1)
    RCP_LN2: tl.constexpr = 1.44269504
    Q_LEN = {{size("Q", 2)}}
    KV_LEN = {{size("K", 2)}}

    offs_k = tl.arange(0, QK_HEAD_DIM_ROUNDED)
    offs_v = tl.arange(0, V_HEAD_DIM_ROUNDED)

    qT_ptrs = Q + offs_m1[None, :] * stride_qm + offs_k[:, None] * stride_qd
    do_ptrs = DO + offs_m1[:, None] * stride_dom + offs_v[None, :] * stride_dod
    # BLOCK_N1 must be a multiple of BLOCK_M1, otherwise the code wouldn't work.
    tl.static_assert(BLOCK_N1 % BLOCK_M1 == 0)
    hi = tl.minimum(sparse_q_num_blocks * SPARSE_Q_MULTIPLE, tl.maximum(tl.cdiv(Q_LEN, BLOCK_M1), 1))

    if not IS_DIVISIBLE:
        if hi >= 1:
            for start_m in range(0, hi - 1):
                dk, dv = bwd_dkdv_block_mn(
                    {{gen_argdefs()}},
                    dk, dv, qT_ptrs, k, v, do_ptrs, DELTA, LSE, Q_LEN, KV_LEN,
                    off_z, off_hq, offs_n1, offs_m1, offs_k, offs_v,
                    stride_qm, stride_qd, stride_dom, stride_dod,
                    q_indices, sparse_q_num_blocks,
                    MATMUL_PRECISION, RCP_LN2,
                    IS_FULL_BLOCKS,
                )
                # Increment pointers.
                offset = get_offset_for_next_block(
                    start_m, q_indices, sparse_q_num_blocks,
                    SPARSE_Q_BLOCK_SIZE, SPARSE_Q_MULTIPLE, BLOCK_M1, BLOCKS_ARE_CONTIGUOUS
                )

                qT_ptrs += offset * stride_qm
                do_ptrs += offset * stride_dom

                offs_m1 += offset

            dk, dv = bwd_dkdv_block_mn(
                {{gen_argdefs()}},
                dk, dv, qT_ptrs, k, v, do_ptrs, DELTA, LSE, Q_LEN, KV_LEN,
                off_z, off_hq, offs_n1, offs_m1, offs_k, offs_v,
                stride_qm, stride_qd, stride_dom, stride_dod,
                q_indices, sparse_q_num_blocks,
                MATMUL_PRECISION, RCP_LN2,
                IS_FULL_BLOCKS, CHECK_BLOCK_BOUNDARY=True,
            )
    else:
        for start_m in range(0, hi):
            dk, dv = bwd_dkdv_block_mn(
                {{gen_argdefs()}},
                dk, dv, qT_ptrs, k, v, do_ptrs, DELTA, LSE, Q_LEN, KV_LEN,
                off_z, off_hq, offs_n1, offs_m1, offs_k, offs_v,
                stride_qm, stride_qd, stride_dom, stride_dod,
                q_indices, sparse_q_num_blocks,
                MATMUL_PRECISION, RCP_LN2,
                IS_FULL_BLOCKS,
            )
            # Increment pointers.
            offset = get_offset_for_next_block(
                start_m, q_indices, sparse_q_num_blocks,
                SPARSE_Q_BLOCK_SIZE, SPARSE_Q_MULTIPLE, BLOCK_M1, BLOCKS_ARE_CONTIGUOUS
            )

            qT_ptrs += offset * stride_qm
            do_ptrs += offset * stride_dom

            offs_m1 += offset

    return dk, dv


@triton.jit
def bwd_dkdv_block_mn(
    {{gen_argdefs()}},
    dk, dv, qT_ptrs, k, v, do_ptrs, DELTA, LSE, Q_LEN, KV_LEN,
    off_z, off_hq, offs_n1, offs_m1, offs_k, offs_v,
    stride_qm, stride_qd, stride_dom, stride_dod,
    q_indices, sparse_q_num_blocks,
    MATMUL_PRECISION, RCP_LN2,
    IS_FULL_BLOCKS, CHECK_BLOCK_BOUNDARY=False,
):
    {{gen_defines() | indent_except_first(1) }}

    # NB reversed order since Q is transposed
    qT = load_checked_2d(qT_ptrs, offs_k, offs_m1, None, None, SAFE_HEAD_DIM, IS_DIVISIBLE, QK_HEAD_DIM, Q_LEN)
    # Load LSE before computing qk to reduce pipeline stall.
    if IS_DIVISIBLE:
        lse = tl.load(LSE + offs_m1)
    else:
        lse = tl.load(LSE + offs_m1, mask=offs_m1 < Q_LEN)
    lse = tl.where(lse == -float("inf"), 0.0, lse)
    qkT = tl.dot(k, qT, input_precision=FLOAT32_PRECISION)
    if not PRESCALE_QK:
        qkT *= SM_SCALE
    # ~~~~~~~~~~~~~~~~~~~ Apply score modification  ~~~~~~~~~~~~~~~~~~~
    m = get_bounded_indices(offs_m1[None, :], Q_LEN if CHECK_BLOCK_BOUNDARY else None)
    # The boundary check is done for the outer loop, but here it's possible since we're iterating across M dim
    # that the n reads out of bounds prior to the last loop
    n = get_bounded_indices(offs_n1[:, None], KV_LEN if (not IS_DIVISIBLE or CHECK_BLOCK_BOUNDARY) else None)

    pre_mod_scores = qkT
    {{ modification(
        subgraph_number=0,
        output_name="post_mod_scores",
        score="qkT",
        b="off_z",
        h="off_hq",
        m="m",
        n="n",
        out="qkT"
    ) | indent_except_first(1) }}

    if CHECK_BLOCK_BOUNDARY:
        # Mask out the elements that are out of the KV_LEN for non divisible seqlen.
        post_mod_scores = tl.where(offs_n1[:, None] < KV_LEN, post_mod_scores, float("-inf"))

    if not IS_FULL_BLOCKS:
        {{ modification(
            subgraph_number=2,
            output_name="mask_mod_output",
            score="qkT",
            b="off_z",
            h="off_hq",
            m="m",
            n="n",
        ) | indent_except_first(2) }}
        if CHECK_BLOCK_BOUNDARY:
            mask_mod_output = tl.where(offs_n1[:, None] < KV_LEN, mask_mod_output, False)
        # (grads) apply mask for fully masked block
        post_mod_scores = tl.where(mask_mod_output, post_mod_scores, float("-inf"))
    # ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    if not PRESCALE_QK:
        post_mod_scores *= RCP_LN2
    pT = tl.math.exp2(post_mod_scores - lse[None, :])
    do = load_checked_2d(do_ptrs, offs_m1, offs_v, None, None, IS_DIVISIBLE, SAFE_HEAD_DIM, Q_LEN, V_HEAD_DIM)
    # Compute dV.
    ppT = pT
    dv += tl.dot(ppT.to(MATMUL_PRECISION), do, input_precision=FLOAT32_PRECISION)
    if IS_DIVISIBLE:
        Di = tl.load(DELTA + offs_m1)
    else:
        Di = tl.load(DELTA + offs_m1, mask=offs_m1 < Q_LEN)
    # Compute dP and dS.
    dpT = tl.dot(v, tl.trans(do), input_precision=FLOAT32_PRECISION)
    dsT = pT * (dpT - Di[None, :])
    # ~~~~~~~~~~~~~~~~~~~ Apply joint modification  ~~~~~~~~~~~~~~~~~~~
    {{ modification(
        subgraph_number=1,
        output_name = "grad_scores",
        score="pre_mod_scores",
        b="off_z",
        h="off_hq",
        m="m",
        n="n",
        grad_score_mod="dsT"
    ) | indent_except_first(1) }}

    # ~~~~~~~~~~~~~~~~~~~ Apply other buffer grad writes ~~~~~~~~~~~~~
    if not WRITE_DQ:
        idx_b = off_z
        idx_h = off_hq
        idx_m = m
        idx_n = n
        scatter_mask = offs_m1[None, :] < Q_LEN and offs_n1[:, None] < KV_LEN
        {{ modification(
            subgraph_number=3,
            output_name=None,
            mask="scatter_mask",
            score="pre_mod_scores",
            b="idx_b",
            h="idx_h",
            m="idx_m",
            n="idx_n",
            grad_score_mod="dsT"
        ) | indent_except_first(2) }}
    # ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

    if CHECK_BLOCK_BOUNDARY:
        grad_scores = tl.where(offs_n1[:, None] < KV_LEN, grad_scores, 0.0)

    dsT = grad_scores
    if not IS_FULL_BLOCKS:
        if CHECK_BLOCK_BOUNDARY:
            mask_mod_output = tl.where(offs_n1[:, None] < KV_LEN, mask_mod_output, False)
        # (grads) apply mask for partially unmasked block
        dsT = tl.where(mask_mod_output, dsT, 0.0)
    # ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    dk += tl.dot(dsT.to(MATMUL_PRECISION), tl.trans(qT), input_precision=FLOAT32_PRECISION)

    return dk, dv
 Újoint_graphc                 ó  — | j                   D ]y  }|j                  dk(  sŒ|j                  t        j                  j
                  j                  j                  k(  sŒO|j                  D ]  }|j                  dk7  sŒt        d«      ‚ Œ{ y)zKWe do some pre lowering graph checks in order to raise nicer error messagesr  r  aS  Using multiple indexing operations on the same tensor that requires gradients in a score_mod function is not currently supported. This typically happens when indexing the same tensor multiple times, like:

    def score_mod(score, b, h, q_idx, kv_idx):
        return score + bias[q_idx] + bias[kv_idx]  # bias used twice!

A valid workaround is to clone() the tensors that will be indexed multiple times. For example:

    bias1 = bias.clone()
    def score_mod(score, b, h, q_idx, kv_idx):
        return score + bias[q_idx] + bias1[kv_idx]

Note that this solution will use additional memory.N)
r  r  Útargetr_   r‘   r’   r“   r”   ÚusersrF  )r×  r)  Úusers      r5   Úvalidate_joint_graphrÜ  ó  s|   € à×!Ñ!ò ˆàG‰GÓ&Ø—‘œuŸy™y×1Ñ1×CÑC×KÑKÓKàŸ
™
ò Ø—7‘7˜hÓ&Ü-ð	Nóð ñðð& r7   T)Úfrozenc                   óR   — e Zd ZU dZeed<   ee   ed<   eee      ed<   ee   ed<   y)ÚJointOutputResultz&Results from processing joint outputs.Ú
grad_inputÚcaptured_grads_computeÚcaptured_gradsÚmutated_gradsN)	rÆ   rÇ   rÈ   Ú__doc__r   Ú__annotations__rv   r   r   rA   r7   r5   rß  rß  	  s0   … á0àÓØ  Ñ0Ó0Ø˜ )Ñ,Ñ-Ó-Ø˜	‘?Ô"r7   rß  Úall_joint_outputsÚnum_placeholdersc                 ó  — t        | t        «      sJ ‚| d   €J d«       ‚| d   }| |dz
  d }|D cg c]  }|€Œ|‘Œ	 }}d„ }|D cg c]
  } ||«      ‘Œ }}|D cg c]  }|€Œ|‘Œ	 }	}t        ||||	¬«      S c c}w c c}w c c}w )a^  Process joint outputs and extract various buffers needed for lowering

    Args:
        all_joint_outputs: List of all the outputs from build_subgraphs
        num_placeholders: The number of placeholder inputs, used to skip over unused backward compute buffers

    Returns:
        JointOutputResult containing processed buffers and gradients
    r   Nz.joint_subgraph_buffer is None - this is a bug!r0   c                 óÀ   — | €y t        | t        «      sJ ‚| j                  €J ‚t        j                  t
        j                  j                  | j                  «      «      S rU   )rV   r   rI   r   rO   r
   r;   Ú
get_buffer)r}  s    r5   Úget_outz&process_joint_outputs.<locals>.get_out-	  sN   € Øˆ;ØÜ˜#œ~Ô.Ð.Ð.Øx‰xÐ#Ð#Ð#Ü×Ñ¤§¡× 2Ñ 2°3·8±8Ó <Ó=Ð=r7   )rà  rá  râ  rã  )rV   rv   rß  )
ræ  rç  Újoint_bufferÚother_gradsr}  Úgrads_computerë  rY   Ú	grads_outrã  s
             r5   Úprocess_joint_outputsrð  	  sÄ   € ô Ð'¬Ô.Ð.Ð.Ø˜QÑÐ+ð Ø8óÐ+ð % QÑ'€LØ#Ð$4°qÑ$8Ð$:Ð;€Kð %0ÖC˜S°3±?’SÐC€MÐCò>ð &1Ö1 ‘˜•Ð1€IÐ1Ø$-ÖA˜S°±’SÐA€MÐAäØØ,Ø Ø#ô	ð ùò Dùò 2ùÚAs   °A7¸A7ÁA<ÁBÁ"Bc                  ó¶  ‡M— | \  ŠM}}}}}}}}	}
}}}}|
\  }}}}}}}}}}}}}t        ‰M|||||||||||g«      \  ŠM}}}}}}}}}}}‰Mj                  «       }‰Mj                  «       }‰Mj                  «       \  }}}} |j                  «       \  }!}"}#}$t        j
                  j                  j                  t        j                  ||!«      t        j                  |!d«      z  «      sJ d|› d|!› «       ‚t        |«      }|j                  «       D %&ci c]K  \  }%}&|%t        |&t        j                  «      r)t        j
                  j                  j                  |&«      n|&“ŒM }}%}&|j                  dt!        «       «       |dz  dk7  s|#dz  dk7  r|j                  dd«       n|j                  dd	«       d
|fdt"        j$                  fdt"        j$                  fdt"        j$                  fdt"        j$                  ffD 'cg c]  \  }'}t'        |'||«      ‘Œ }(}'}t)        |(t+        |«      z   |«      })|(t'        d|«      gz   }*|	j,                  j
                  j/                  «        t1        |	j,                  j
                  «       t)        |*t+        |«      z   |	«      }+t3        |+t5        |*«      «      },dt"        j$                  fdt"        j$                  fdt"        j$                  fdt"        j$                  ffD 'cg c]   \  }'}t'        |'|‰Mj                  «       «      ‘Œ" }-}'}t)        |-t+        |«      z   |«      }.|.}.||"|#| g}/t7        |/|j9                  «       «      }0t;        |j                  «       |j                  «       |/|0D 1cg c]  }1t        j<                  |1«      ‘Œ c}1¬«      }2t?        t@        jB                     |dtE        jF                  d«      z  «      }3t?        t@        jB                     ||«      }4t?        t@        jH                     |4d¬«      }5t?        t@        jJ                     |5|3«      }5tM        jN                  |5«      }5t        |3|5g«      \  }3}5|||| g}6t7        |6‰Mj9                  «       «      }7tQ        |6|7D 1cg c]  }1t        j<                  |1«      ‘Œ c}1‰Mj                  «       ‰Mj                  «       ¬«      }8||"|#|$g}9t7        |9|j9                  «       «      }:tQ        |9|:D 1cg c]  }1t        j<                  |1«      ‘Œ c}1|j                  «       |j                  «       ¬«      };|j                  d|«       ||"z  }<|j                  d|<«       |d u}=|j                  d|=«       |=sˆMfd„tS        d«      D «       \  }}}}tU        || |$t        j
                  j                  «       t        j
                  j                  j                  |«      }t        j
                  j                  j                  |«      }g }>g }?|?jW                  tY        ‰M«      «       tZ        j\                  rvt"        j^                  j`                  €g d¢ndg}@|?jc                  dD ABC1cg c]4  }AdD ]-  }BAdk\  sBdk\  rddgndgD ]  }C@D ]  }1BAz  dk(  rABC|1f‘Œ Œ Œ/ Œ6 c}1}C}B}A«       |je                  «       }D|?D ]¨  \  }A}B}E}F||Az  dk7  s|Az  dk7  s|Bz  dk7  s|Bz  dk7  rŒ*Dje                  «       }Gt+        |Gjg                  «       «      D ]O  }%|%ji                  d«      rGjk                  |%«      }&|&|G|%dd  <   |%ji                  d«      sŒ?Gjk                  |%«       ŒQ Gj                  d E«       |Gj                  d!F«       |Gj                  d"A«       |Gj                  d#B«       |Gj                  d$|B«       |Gj                  d%|A«       |Gj                  d&|«       |Gj                  d'|«       tm        jn                  d.|>‰M||||5||8|;||||||||g|2|)|,jp                  |.|,jr                  g|8|;g|,jt                  ¢‰Mj                  «       |j                  «       dd( z   d)œ|G¤Ž Œ« ‰M||||5||8|;||||||||gt+        |«      z   t+        |«      z   |,jt                  z   }Htw        |«      tx        tw        |«      tx        tw        |«      tx        tw        |«      tx        d*œ}It{        d+|>|H|2|I¬,«      }Jt        j
                  j                  j                  t        j                  ||!«      «      rJ}K|;}Lnít        j
                  j                  j                  t        j|                  |d«      t        j                  |!d«      z  «      s[J dt        j
                  j                  j                  |«      › dt        j
                  j                  j                  |!«      › «       ‚t?        t@        jH                     Jdd	¬-«      }Kt?        t@        jH                     |;dd	¬-«      }L|8KLt        |,j€                  «      fS c c}&}%w c c}}'w c c}}'w c c}1w c c}1w c c}1w c c}1}C}B}Aw )/Nr0   rš  r›  r™  r¥   r   rœ  FTr  r  r  r˜  r„  Úgrad_score_modr3  r   rÍ   )Úaxis)r4  rJ   rK   r  rž  rŸ  c              3   óT   •K  — | ]  }t        d ‰j                  «       ¬«      –— Œ! y­wr¡  r¢  r£  s     €r5   r¥  z*flex_attention_backward.<locals>.<genexpr>ý	  s+   øè ø€ ò R
Ø45ŒE!˜E×,Ñ,Ó.×/Ð/ñR
ùr¦  r»   )r0   r¼   r»   r±  )rº   r¹   )rº   r¹   r¥   r¿   rª  r©  r«  rÝ   ÚBLOCK_M1rÑ  rÐ  ÚBLOCK_N2re  rf  r¼   r­  )r¿   rÖ   é
   é   é   é   é   é   rÖ  r´  )ró  ÚkeepdimsrA   )Ar\   rp   rt   rs   r
   r;   r<   r§   rW   r¬   r·  r¸  rV   rX   rÏ   r‘  re   r_   r¶  rQ   rž   rv   r…   Úeliminate_dead_coderÜ  rð  r1   r>   rR  r   rS  r%   r   Úmulr‡  ÚlogÚsumÚsubr   Úrequire_contiguousr"   rw   r•  rM  rå   r   rº  ra   rb   Úextendr  r¼  r½  r¾  Ú flex_attention_backward_templaterÀ  rà  rá  rã  rï   ró   r(   r©   Útuplerâ  )NrR   r  rY  rZ  ÚoutrÇ  Úgrad_outÚgrad_logsumexpÚfw_graphr×  r[  r;  r°   r\  r]  r7  r^  r¯   r_  r`  ra  rb  rc  rd  re  rf  r%  rK   rJ   ro  rp  rq  rr  rs  rt  ru  rv  rÃ  rÄ  rI   Úfwd_placeholder_inpsÚfw_subgraph_bufferÚjoint_placeholder_inpsræ  Újoint_outputsri  rk  Úkey_sizeÚkey_stridesrz  Úlayout_broadcasted_kÚgrad_lse_exp2Ú	mul_deltaÚdeltaÚ
query_sizeÚgrad_query_stridesÚ
grad_queryÚ
value_sizeÚvalue_stridesÚbroadcasted_grad_valuerÈ  rÉ  r9  rÊ  Únum_stages_listÚBLOCK1ÚBLOCK2ÚwrÌ  r«  rÝ   rÍ  r  rµ  Úbroadcasted_grad_keyÚgrad_keyÚ
grad_valuer®   sN                                                                                @r5   rÖ  rÖ  @	  sÍ
  ø€ ð& 	ñØØØØØØØØØØØØØØð  	ñØ	Ø	ØØØØØØØØØØØô  	àØØØØØØØØØØØð	
ó	ñØØØØØØØØØØØØð$ ×ÑÓ€FØO‰OÓ€EØ%*§^¡^Ó%5Ñ"€BˆˆI{Ø',§~¡~Ó'7Ñ$€Cˆˆj˜*ä7‰7×Ñ×)Ñ)¬%¯(©(°2°sÓ*;¼e¿h¹hÀsÈAÓ>NÑ*NÔOð Ø
0°°°I¸c¸UÐCóÐOô ˜.Ó)€Nð #×(Ñ(Ó*÷	ñ ˆAˆqð 	
ÜaœŸ™Ô&ô 7‰7×Ñ×1Ñ1°!Ô4àñ	ð€Nñ ð ×ÑÐ1Ô3HÓ3JÔKØ3˜!Ò˜z¨CÑ/°1Ò4Ø×!Ñ! .°%Õ8à×!Ñ! .°$Ô7ð
 eÐØ”%—+‘+ÐØ”%—+‘+ÐØ”%—+‘+ÐØ”%—+‘+Ðð
÷	áˆD%ô 	˜4 ¨Õ/ð	Ðñ 	ô /ØœtÐ$;Ó<Ñ<¸hóÐð 2ÜÐ+¨U°FÓ;ð5ñ Ðð ×Ñ×"Ñ"×6Ñ6Ô8ô ˜×1Ñ1×7Ñ7Ô8ä-Ø¤Ð&=Ó!>Ñ>ØóÐô
 *Øœ3Ð5Ó6ó€Mð ”%—+‘+ÐØ”%—+‘+ÐØ”%—+‘+ÐØ”%—+‘+Ðð	
÷#áˆD%ô 	˜4 ¨×(8Ñ(8Ó(:Õ;ð#Ðñ #ô .Ø#¤dÐ+AÓ&BÑBÀJóÐð *Ðð C˜ [Ð1€HÜ% h°·±Ó0@ÓA€Kä&Ø‰ÓØ‰‹ØØ*5Ö6 Q”—‘˜aÕ Ò6ô	Ðô œdŸh™hÑ'¨¸¼D¿H¹HÀQ»K¹ÓH€MÜœ$Ÿ(™(Ñ# C¨Ó2€IÜ”d—h‘hÑ 	°Ô3€EÜ”d—h‘hÑ  }Ó5€EÜ×+Ñ+¨EÓ2€Eä(¨-¸Ð)?Ó@Ñ€M5ð b˜) [Ð1€JÜ,¨Z¸×9IÑ9IÓ9KÓLÐÜØØ*<Ö= Q”—‘˜aÕ Ò=Øo‰oÓØ×ÑÓ!ô	€Jð c˜: zÐ2€JÜ'¨
°E×4DÑ4DÓ4FÓG€Mä*ØØ*7Ö8 Q”—‘˜aÕ Ò8Øo‰oÓØ×ÑÓ!ô	Ðð ×Ñ˜j¨%Ô0ð ˜S‘yÐØ×ÑÐ0Ð2BÔCð )°Ð4€OØ×ÑÐ/°ÔAÙóR
Ü9>¸q»ôR
ÑNÐ˜OÐ->Àô ˜¨°ZÄÇÁ×AQÑAQÔRäŸ'™'×*Ñ*×@Ñ@ÐATÓUÐÜŸ7™7×+Ñ+×AÑAÐBVÓWÐà€GØ/1€GØ‡NNÔ*¨5Ó1Ô2Ü×ÒÜ*/¯-©-×*;Ñ*;Ð*C›,È!ÈˆØ‰ð '÷ñ àØ+òð Ø$*¨c¢M°V¸s²]˜1˜a™&ÈÈò	ð Ø(òð
 Ø˜F‘? aÒ'ð ˜  AÒ&ðØ&ðØ&ðØ&õô		
ð -×1Ñ1Ó3ÐØ18ó @
Ñ-ˆ˜	 :à  6Ñ)¨QÒ.Ø" VÑ+¨qÒ0Ø# fÑ,°Ò1Ø" VÑ+¨qÒ0àð 5×9Ñ9Ó;ÐäÐ(×-Ñ-Ó/Ó0ò 	*ˆAØ|‰|˜FÔ#Ø&×*Ñ*¨1Ó-Ø,-Ð" 1 Q R 5Ñ)Ø|‰|˜FÕ#Ø"×&Ñ& qÕ)ð	*ð 	×%Ñ% k°9Ô=Ø×%Ñ% l°JÔ?à×%Ñ% j°&Ô9Ø×%Ñ% j°&Ô9Ø×%Ñ% j°&Ô9Ø×%Ñ% j°&Ô9à×%Ñ%Ð&;Ð=PÔQØ×%Ñ%Ð&<Ð>RÔSä(×<Ñ<ð "	
ØàØØØØØØØ&ØØØØØ"ØØ!Øð!ð$ (à"Ø×(Ñ(Ø!Ø×4Ñ4ð	ð Ø&ðð ×,Ñ,ðð
 —~‘~Ó'¨#¯,©,«.¸¸1Ð*=Ñ=ñA"	
ðB !ôC"	
ð=@
ðF ØØØØØØØ"ØØØØØØØØð!	
ô$ Ð&Ó
'ñ%	(ô& Ð%Ó
&ñ'	'ð( ×
%Ñ
%ñ)	&ð ô0 ,¨JÓ7ÜÜ,¨YÓ7ÜÜ,¨_Ó=ÜÜ,¨^Ó<Üñ	€Mô 5Ø!ØØØØ#ôÐô 	‡ww×Ñ×%Ñ%¤e§h¡h¨r°3Ó&7Ô8Ø'ˆØ+‰
äw‰w×Ñ×-Ñ-¬e¯h©h°r¸1«oÄÇÁÈÈaÓ@PÑ.PÔQð 	
ðÜ—g‘g×&Ñ&×4Ñ4°RÓ8Ð9ð :Ü—w‘w×'Ñ'×5Ñ5°cÓ:Ð;ð=ó	
ÐQô
 œTŸX™XÑ&Ð';À!ÈdÔSˆÜœtŸx™xÑ(Ð)?ÀaÐRVÔWˆ
à˜ *¬e°M×4PÑ4PÓ.QÐRÐRùóAùó	ùóB#ùò. 7ùò" >ùò 9ùõ>s+   ÄAh2Ç>h8Ë:%h>ÎiÒi	
Ó.i
Ù#9irU   )}rä  r  Úloggingr‡  Úcollections.abcr   Údataclassesr   Úenumr   r   Útypingr   r   r	   rW   r_   Útorch._inductor.virtualizedr
   Útorch.utils._ordered_setr   Útorch.utils._pytreer   Útorch.utils._sympy.numbersr   Útorch.utils._sympy.value_rangesr   Ú r   Úirr   r   r   r   r   r   r   r   r   r   r   r   r   Úloweringr   r    r!   r"   r#   r$   r%   r&   r'   Úselect_algorithmr(   r)   r*   r+   Ú	getLoggerrÆ   r   r‘   r   ÚExprrª   r6   r>   rH   ÚstrrJ   rK   rv   rQ   r\   re   r„   ÚSubgraphResultsr#  r$  r›   rž   Úcompute_next_offset_funcÚget_bounded_indices_funcÚload_checked_blockÚload_checked_2dÚcompute_flex_attentionÚcompute_forward_innerÚcompute_forward_block_mnr¿  r¸   rq   rP  rQ  rÙ   rÚ   rÐ   rÅ   r  rÓ   rÞ   râ   rå   rï   rî   ró   Ú$torch._inductor.kernel.flex_decodingrô   Ú#codegen.cpp_flex_attention_templaterõ   r  r  r  r…  rŠ  r·  r•  Úhigher_orderrŸ   rÕ  r  ÚGraphrÜ  rß  rð  rÖ  rA   r7   r5   ú<module>r?     s¿  ðá 8ã Û Û Ý $Ý !ß ß 'Ñ 'ã ã Ý )Ý /Ý (Ý -Ý 7å ÷÷ ÷ õ ÷
÷ 
õ 
÷ó ð €g×Ñ˜Ó!€Ø‡yy‡~~€Ø‡zz€ðØC‰=ðà˜‘ðð ˆc]óð,/˜h s™mð /¸8ÀC¹=ó /ð ñIó ðIð !%ñ	*Ø
ð*à;‰;ð*ð L‰Lð*ð 4˜‘9Ñ
ð	*ð
 ó*ð&	˜˜X fÑ-Ñ.ó 	òð) d¨3¡ió )ðX ˜˜X nÑ5Ñ6¸ÀÑ8PÐPÑQ€ð6NØ
ˆy‰/ð6NØ).¯©×)=Ñ)=ð6Nàó6NðrE  Y¡ð E¸8ð EÈó Eð
Ð ð$Ð ðÐ ð€ð8HÐ ðVDÐ ðNZÐ ñz )Ø	Ø	Ø!Øñàñð ñð ñ	ð
 ñô	Ð ò$ðP ‡]]BÐ˜Ø
‡]]CÐ˜.Ø
‡]]CÐ˜.Ø
‡^^RÐÐ*Ø
‡^^SÐ˜?Ø
‡^^SÐ˜>Ø
‡]]BÐÐ)Ø
‡]]CÐÐ*Ø
‡]]CÐ˜.ð
Ð ð ‡]]BÐ˜Ø
‡]]CÐ˜/Ø
‡]]CÐ˜.Ø
‡^^RÐ˜/Ø
‡^^SÐ˜?Ø
‡^^SÐ˜>Ø
‡]]BÐ˜Ø
‡]]CÐ˜/Ø
‡]]CÐ˜.ð
Ð ð ‡]]BÐ˜Ø
‡]]CÐ˜/Ø
‡]]CÐ˜.Ø
‡^^RÐ˜/Ø
‡^^SÐ˜?Ø
‡^^SÐ˜>Ø
‡]]BÐ˜Ø
‡]]CÐ˜/Ø
‡]]CÐ˜.ð
Ð ôˆ4ô ð
" $ð "¨5°°c¸3ÀÐ1CÑ+Dó "ðB. ð .¨¨s°C¸¸cÐ/AÑ)Bó .ðb6 e¨C°°c¸3Ð,>Ñ&?ó 6ð6 e¨C°°c¸3Ð,>Ñ&?ó 6ò"ð0˜eŸl™ló õ Må Jòòò\ò~+ò(ðØ˜˜c˜‘NóñD 5—9‘9×)Ñ)×8Ñ8ÈdÔSñló Tðlòd	ñ$ $2Ø	"Ø	%ðl
ðZ ñ[m
ð\ ñ]n
ð^ ñ_o
ôs
$Ð  ðl e§h¡h§n¡nó ñ0 $Ô÷#ð #ó ð#ð'Ø&ð'Ø:=ð'àó'ñV Ø	‡II×Ñ×2Ñ2ÈôñJSóñJSr7   