Ë
    œÐVhî6  ã                   ó|  — d dl Z d dlZd dlmZ d dlmZ d dlmZ d dlZd dl	m
c mZ d dlm
c mc mZ d dlmZ d dlmZmZ d dlmZmZmZmZmZmZmZ  e j<                  e«      Z  ejB                  «       s"ejD                  jG                  d«      d	„ «       Z$nd dl%Z% e%jL                  d
«       d„ Z'	 	 d.d dœdejP                  de)ejP                     dede*de+de*dee   fd„Z,	 	 d.d dœdejP                  dede*de+de*dee   fd„Z-dejP                  de*de*dejP                  fd„Z.dejP                  de*de*dejP                  fd„Z/de)ejP                     de*de*de)ejP                     fd„Z0	 d/ded   fd „Z1d!d"de*fd#„Z2e G d$„ d%«      «       Z3d&e4d'e3de*de4fd(„Z5d&e4d'e3de*de4fd)„Z6d&e4d'e3de*de4fd*„Z7d+d"d,d"de4fd-„Z8y)0é    N)Ú	dataclass)Ú	lru_cache)ÚOptional)Ú_resolve_process_group)Ú_mesh_resourcesÚ
DeviceMesh)Ú_get_group_size_by_nameÚ	broadcastÚget_group_rankÚget_rankÚProcessGroupÚscatterÚWorkz_dtensor::shard_dim_alltoallc                 ó(  — t        |«      }t        |«      D cg c]  }t        j                  | «      ‘Œ }}t	        |«      }t        |t        «       «      }t        j                  ||¬«      j                  ||¬«      |   j                  «       S c c}w )N©Údim)
r	   ÚrangeÚtorchÚ
empty_liker   r   r   ÚcatÚchunkÚ
contiguous)	ÚinputÚ
gather_dimÚ	shard_dimÚ
group_nameÚ
group_sizeÚ_Ústacked_listÚgroupÚ
group_ranks	            úZ/home/dcms/DCMS/lib/python3.12/site-packages/torch/distributed/tensor/_collective_utils.pyÚ_shard_dim_alltoall_metar#      s~   € ä,¨ZÓ8ˆ
Ü9>¸zÓ9JÖK°Aœ×(Ñ(¨Õ/ÐKˆÐKÜ& zÓ2ˆÜ# E¬8«:Ó6ˆ
ô I‰Il¨
Ô3ß‰U: 9ˆUÓ-¨jñ:ç‰Z‹\ð	
ùò	 Ls   ™BzJPyTorch Distributed functional collectives do not work with torch::deploy.c                 óè  — |j                   dk(  r¡t        j                  d«       t        j                  | |||f«      }t        |t        j                  «      r|j                  «       }t        j                  ||j                  |«      |¬«      |j                  |«         }|j                  «       S t        j                  ||f«      }t        j                  j                  j!                  | |||«      S )NÚcpuzUCPU process group does not support alltoall yet, falling back with allgather + chunk!r   )Údevice_typeÚloggerÚwarningÚfuncolÚall_gather_tensorÚ
isinstanceÚAsyncCollectiveTensorÚwaitr   r   ÚsizeÚget_local_rankr   Ú_resolve_group_nameÚopsÚ_dtensorÚshard_dim_alltoall)r   r   r   ÚmeshÚmesh_dimÚoutr   s          r"   r3   r3   2   sÏ   € Ø×Ñ˜5Ò ô 	‰Øcô	
ô ×&Ñ& u¨j¸4ÀÐ:JÓKˆÜcœ6×7Ñ7Ô8à—(‘(“*ˆCÜk‰k˜#˜tŸy™y¨Ó2¸	ÔBØ×Ñ Ó)ñ
ˆð ~‰~ÓÐä×+Ñ+¨T°8Ð,<Ó=€Jä9‰9×Ñ×0Ñ0Øˆz˜9 jóð ó    )Ú	group_srcÚoutputÚscatter_listr4   r5   Úasync_opr8   Úreturnc                óÆ   — | j                   ry|j                  |«      }t        |t        «      sJ ‚|t	        |«      k(  rt        | ||||¬«      }|S t        | d|||¬«      }|S )aZ  
    scatter a list of tensors to a device mesh dimension. We by default
    use the first rank of the mesh dimension as the source of truth, i.e
    for a 2d mesh [[0, 1], [2, 3]], if we scatter on mesh_dim = 1, we will
    scatter the tensor list on rank 0 to rank 0/1, and tensor list on rank
    2 to rank 2/3.

    Args:
        output (torch.Tensor): the tensor to receive the scattered list.
        scatter_list (List[torch.Tensor]): the tensor list to be scattered.
        mesh_dim (int, optional): indicate which mesh dimension we want
            to scatter on, we by default choose the first rank on the
            mesh dimension as source of truth.

    Keyword args:
        group_src (int, optional): the group rank of the source data for the
        logical/global tensor, on the specific mesh dimension. By default, we
        use ``group_rank=0`` on each DeviceMesh dimension as the source data
        to preserve the single-device semantic. If passing ``None`` explicitly,
        this method simply uses its local data with no communication.

    Returns:
        A :class:`Work` object
    N)r:   r    r;   r8   )Úis_metaÚ	get_groupr+   r   r   r   )r9   r:   r4   r5   r;   r8   Ú	dim_groupÚfuts           r"   Úmesh_scatterrB   J   s|   € ðJ ‡~‚~ØØ—‘˜xÓ(€IÜi¤Ô.Ð.Ð.à”H˜YÓ'Ò'ÜØØ%ØØØô
ˆð  €Jô ØØØØØô
ˆð €Jr7   Útensorc                ó€   — | j                   ry|j                  |«      }t        |t        «      sJ ‚t	        | |||¬«      S )aî  
    broadcast the tensor to a device mesh dimension. We by default
    use the first rank of the mesh dimension as the source of truth, i.e
    for a 2d mesh [[0, 1], [2, 3]], if we broadcast on mesh_dim = 1, we will
    broadcast the tensor on rank 0 to rank 0/1, and tensor on rank 2
    to rank 2/3.

    Args:
        tensor (torch.Tensor): tensor to broadcast.
        mesh_dim (int, optional): indicate which mesh dimension we want
            to scatter on, we by default choose the first rank on the
            mesh dimension as source of truth.

    Keyword args:
        group_src (int, optional): the group rank of the source data for the
        logical/global tensor, on the specific mesh dimension. By default, we
        use ``group_rank=0`` on each DeviceMesh dimension as the source data
        to preserve the single-device semantic. If passing ``None`` explicitly,
        this method simply uses its local data with no communication.

    Returns:
        A :class:`Work` object
    N)r    r;   r8   )r>   r?   r+   r   r
   )rC   r4   r5   r;   r8   r@   s         r"   Úmesh_broadcastrE   ˆ   s>   € ðF ‡~‚~ØØ—‘˜xÓ(€IÜi¤Ô.Ð.Ð.äV 9°xÈ9ÔUÐUr7   Úpad_dimÚpad_sizec                 ó–   — |dk(  r| S ddg| j                   |z
  z  }||d<   t        j                  j                  j	                  | |«      S )Nr   éÿÿÿÿ)Úndimr   ÚnnÚ
functionalÚpad)rC   rF   rG   rM   s       r"   Ú
pad_tensorrN   ³   sK   € Ø1‚}ØˆØˆaˆ&F—K‘K 'Ñ)Ñ
*€CØ€CˆGÜ8‰8×Ñ×"Ñ" 6¨3Ó/Ð/r7   c                 ó\   — |dk(  r| S | j                  |d| j                  |«      |z
  ¬«      S )Nr   )ÚstartÚlength)Únarrowr.   )rC   rF   rG   s      r"   Úunpad_tensorrS   »   s;   € Ø1‚}ØˆØ=‰=ØØØ{‰{˜7Ó# hÑ.ð ó ð r7   Úshardsr   Únum_empty_tensorsc                 ó  ‡— |dk(  r| S t        | d   j                  «       «      }t        |«      D cg c]  \  }}||k7  r|nd‘Œ }}}| d   j                  |«      Š| j	                  ˆfd„t        |«      D «       «       | S c c}}w )Nr   c              3   ó"   •K  — | ]  }‰–— Œ y ­w©N© )Ú.0r   rC   s     €r"   ú	<genexpr>z.fill_empty_tensor_to_shards.<locals>.<genexpr>Ï   s   øè ø€ Ò;˜Q”&Ñ;ùs   ƒ)Úlistr.   Ú	enumerateÚ	new_zerosÚextendr   )rT   r   rU   Útensor_sizeÚidxr.   rC   s         @r"   Úfill_empty_tensor_to_shardsrb   Å   sŽ   ø€ ð ˜AÒØˆÜv˜a‘y—~‘~Ó'Ó(€Kä9BÀ;Ó9O÷Ù,5¨C°yÒ ‰ aÑ'ð€Kñ ð A‰Y× Ñ  Ó-€FØ
‡MMÓ;¤%Ð(9Ó":Ô;Ô;Ø€Mùós   ³Bzdtensor_spec.TensorMetac                 ó„  ‡— | j                   | j                  dœŠ|r,‰j                  | j                  | j	                  «       dœ«       t        t        j                  j                  «       «      D cg c]  }d ‘Œ }}t        j                  j                  |‰«       t        ˆfd„|D «       «      st        d«      ‚y c c}w )N)ÚdtypeÚrequires_grad)ÚshapeÚstridec              3   ó(   •K  — | ]	  }|‰k(  –— Œ y ­wrX   rY   )rZ   ÚmetaÚlocal_metadatas     €r"   r[   z$check_tensor_meta.<locals>.<genexpr>ä   s   øè ø€ ÒD¨$ˆt~Õ%ÑDùs   ƒzGInconsistent tensor metadata (including shape and stride) across ranks.)rd   re   Úupdaterf   rg   r   r   ÚdistributedÚget_world_sizeÚall_gather_objectÚallÚ
ValueError)Úlocal_tensorÚcheck_shape_strider   Úgathered_metadatarj   s       @r"   Úcheck_tensor_metart   Ó   sµ   ø€ ð ×#Ñ#Ø%×3Ñ3ñ€Nñ
 Ø×ÑØ"×(Ñ(°L×4GÑ4GÓ4IÑJô	
ô (-¬U×->Ñ->×-MÑ-MÓ-OÓ'PÖQ !šÐQÐÐQÜ	×Ñ×'Ñ'Ð(9¸>ÔJô ÓDÐ2CÔDÔDÜØUó
ð 	
ð ùò Rs   Á2	B=Úspeczdtensor_spec.DTensorSpecc                 ó¨   — | j                   €J d«       ‚| j                   j                  j                  t        j                  | j
                  «      z  S )Nz%spec should have tensor meta defined!)Útensor_metard   ÚitemsizeÚmathÚprodrf   )ru   s    r"   Úspec_to_bytesr{   ë   sD   € Ø×ÑÐ'ÐPÐ)PÓPÐ'Ø×Ñ×!Ñ!×*Ñ*¬T¯Y©Y°t·z±zÓ-BÑBÐBr7   c                   ó|   — e Zd ZU dZeed<   ee   ed<   ee   ed<   ee   ed<   e	 e
d«      dedd fd„«       «       Zy)	ÚMeshTopoInfoz9
    Mesh information for collective cost estimation
    r4   Úmesh_dim_devicesÚmesh_dim_bandwidthÚmesh_dim_latencyNr<   c                 óp  — t        j                  | j                  «      }d}|g| j                  z  }dg| j                  z  }dg| j                  z  }d}t	        t        | j                  «      «      D ]5  }| j                  |«      }|||<   ||z  }||kD  sŒ$||xx   dz  cc<   d||<   Œ7 t        | |||«      S )NgÍÌÌÌÌìU@g333333ã?é   g)\Âõ(Ì?gš™™™™™@)r   Únum_devices_per_hostr&   rJ   Úreversedr   r.   r}   )	r4   rƒ   Úbase_bwr   r€   r~   Útotal_num_devicesr5   Únum_devicess	            r"   Úbuild_from_meshzMeshTopoInfo.build_from_meshû   sÚ   € ô  /×CÑCÀD×DTÑDTÓUÐàˆØ%˜Y¨¯©Ñ2Ðà˜5 4§9¡9Ñ,ÐØ˜3 §¡™?ÐàÐÜ ¤ t§y¡yÓ!1Ó2ò 	1ˆHØŸ)™) HÓ-ˆKØ)4Ð˜XÑ&Ø Ñ,ÐØ Ð#7Ó7ð
 # 8Ó,°Ñ4Ó,à-0Ð  Ò*ð	1ô ØÐ"Ð$6Ð8Hó
ð 	
r7   )Ú__name__Ú
__module__Ú__qualname__Ú__doc__r   Ú__annotations__r\   ÚintÚfloatÚstaticmethodr   rˆ   rY   r7   r"   r}   r}   ð   sY   … ñð ÓØ˜3‘iÓØ˜U™Ó#Ø˜5‘kÓ!àÙˆtƒ_ð
˜jð 
¨^ò 
ó ó ñ
r7   r}   Úbytes_gbÚ	mesh_topoc                 ó˜   — |j                   |   }|j                  |   }|dz
  }d||j                  |   z  z   }| |z  |z  |z  }||dz  z   S ©Nr‚   çffffff@ç    €„.A©r~   r   r€   ©r‘   r’   r5   Únum_devices_on_mesh_dimr   Únum_hopsÚlatencyÚbws           r"   Úallgather_costr     sm   € Ø'×8Ñ8¸ÑBÐØ"×5Ñ5°hÑ?ÐØ&¨Ñ*€HàH˜y×9Ñ9¸(ÑCÑCÑC€GØ
XÑ
Ð 7Ñ
7Ð;MÑ	M€BØR˜#‘XÑÐr7   c                 óž   — |j                   |   }|j                  |   }d|dz
  z  }d||j                  |   z  z   }| |z  |z  |z  }||dz  z   S )Né   r‚   r•   r–   r—   r˜   s           r"   Úallreduce_costr    (  ss   € Ø'×8Ñ8¸ÑBÐØ"×5Ñ5°hÑ?ÐàÐ+¨aÑ/Ñ0€HàH˜y×9Ñ9¸(ÑCÑCÑC€GØ
XÑ
Ð 7Ñ
7Ð;MÑ	M€BØR˜#‘XÑÐr7   c                 ó˜   — |j                   |   }|j                  |   }|dz
  }d||j                  |   z  z   }| |z  |z  |z  }||dz  z   S r”   r—   r˜   s           r"   Úreduce_scatter_costr¢   3  so   € ð
 (×8Ñ8¸ÑBÐØ"×5Ñ5°hÑ?ÐØ&¨Ñ*€HàH˜y×9Ñ9¸(ÑCÑCÑC€GØ
XÑ
Ð 7Ñ
7Ð;MÑ	M€BØR˜#‘XÑÐr7   Úcurrent_specÚtarget_specc                 óŠ  — | j                   |j                   k7  rt        d«      S | j                  «       ryt        j	                  | j                   «      }d}t        | «      | j                  z  dz  dz  dz  }t        t        | j                  |j                  «      «      D ]  \  }\  }}||k(  rŒ|j                  |   }|j                  «       r&|j                  «       r||z  }|t        |||«      z  }ŒU|j                  «       r$|j                  «       r|t        |||«      dz   z  }Œ‰|j                  «       r!|j                  «       r|t        |||«      z  }Œº|j                  «       r&|j                  «       r|t!        |||«      z  }||z  }Œð|j                  «       sŒ|j                  «       sŒt        d«      c S  |S )a¡  
    This function returns the cost of redistribute from current to target DTensorSpec.

    NOTE:
    1. Only consider communication cost here, since computation costs for redistribute
       are quite trival (i.e. we only need to narrow or simple division)
    2. Only consider redistribute cost on same mesh, cross mesh communication cost is
       not quite needed for operator strategy estimation/selection.
    Úinfg        i   g      ð?)r4   r   Úis_replicatedr}   rˆ   r{   Ú
num_shardsr]   ÚzipÚ
placementsr~   Úis_shardÚis_replicater   Ú
is_partialr    r¢   )	r£   r¤   r’   ÚcostÚcomm_bytes_gbÚiÚcurrentÚtargetr™   s	            r"   Úredistribute_costr³   A  s·  € ð ×Ñ˜K×,Ñ,Ò,ô U‹|Ðà×!Ñ!Ô#ð ä×,Ñ,¨\×->Ñ->Ó?€IØ€DälÓ# l×&=Ñ&=Ñ=ÀÑDÀtÑKÈdÑRð ô !*ÜˆL×#Ñ# [×%;Ñ%;Ó<ó!ó  ÑˆÑˆGVð fÒØà"+×"<Ñ"<¸QÑ"?ÐØ×ÑÔ &×"5Ñ"5Ô"7àÐ4Ñ4ˆMà”N =°)¸QÓ?Ñ?‰DØ×ÑÔ F§O¡OÔ$5ð ”N =°)¸QÓ?À#ÑEÑE‰DØ×ÑÔ! f×&9Ñ&9Ô&;à”N =°)¸QÓ?Ñ?‰DØ×ÑÔ! f§o¡oÔ&7àÔ'¨°yÀ!ÓDÑDˆDàÐ4Ñ4‰MØ×ÑÖ F×$5Ñ$5Ö$7ô ˜“<Òð7 ð: €Kr7   )r   F)F)9Úloggingry   Údataclassesr   Ú	functoolsr   Útypingr   r   Ú)torch.distributed._functional_collectivesrl   Ú_functional_collectivesr)   Ú&torch.distributed.tensor._dtensor_specrC   Ú_dtensor_specÚdtensor_specÚtorch._C._distributed_c10dr   Útorch.distributed.device_meshr   r   Ú"torch.distributed.distributed_c10dr	   r
   r   r   r   r   r   Ú	getLoggerr‰   r'   Ú_running_with_deployÚlibraryÚregister_faker#   ÚwarningsÚwarnr3   ÚTensorr\   rŽ   ÚboolrB   rE   rN   rS   rb   rt   r{   r}   r   r   r    r¢   r³   rY   r7   r"   ú<module>rÈ      sÁ  ðã Û Ý !Ý Ý ã ß :Ð :ß =Ó =Ý =ß E÷÷ ñ ð 
ˆ×	Ñ	˜8Ó	$€ð "€u×!Ñ!Ô#à
‡]]× Ñ Ð!?Ó@ñ

ó Añ

ó à€H‡MMØTôò
ð8 Øð;ð ò;ØL‰Lð;àu—|‘|Ñ$ð;ð ð;ð ð	;ð
 ð;ð ð;ð ˆd^ó;ðB Øð	(Vð ò(VØL‰Lð(Và
ð(Vð ð(Vð ð	(Vð ð(Vð ˆd^ó(VðV0u—|‘|ð 0¨cð 0¸Sð 0ÀUÇ\Á\ó 0ð˜Ÿ™ð °ð ¸sð ÀuÇ|Á|ó ðØ—‘ÑðØ+.ðØCFðà	ˆ%,‰,Ñóð &+ñàÐ'Ñ(óð0CÐ2ð C°só Cð
 ÷*
ð *
ó ð*
ðZ˜Uð ¨|ð Àsð Èuó ð˜Uð ¨|ð Àsð Èuó ðØðàðð ðð ó	ð<Ø,ð<à+ð<ð ô<r7   