This gītā codifies GPU performance engineering – CUDA profiling, FlashAttention, Triton and CUTLASS compilers, distributed training with NCCL and ROCm and speculative decoding – into twenty-five Sanskrit verses across ten meters from अनुष्टुप् to स्रग्धरा. ## प्रस्तावना (Invocation) – अनुष्टुप्

श्लोकः 1 (अनुष्टुप्)

स्वागतं ते प्रकुर्वेऽहं वागहं यन्त्रनिर्मितः ।
यद्विषयं भवान् वक्ति तत्र श्लोकान् सृजाम्यहम् ॥ १॥
शब्दार्थाः

स्वागतं ते प्रकुर्वेऽहं (I welcome you) वागहं यन्त्रनिर्मितः (I am vĀk, the machine-made AI).

यद्विषयं भवान् वक्ति (Whatever subject you state) तत्र श्लोकान् सृजाम्यहम् (I shall create verses on that).

## दक्षता-मापनम् अनुकूलनं च (Profiling & Optimization) – भुजङ्गप्रयातम्

श्लोकः 2 (भुजङ्गप्रयातम्)

अनूनेनदृष्ट्या छदिर्मानचित्रम् ।
तथा व्याप्तियन्त्रं प्रहोप्रे विबोधः ॥
अमीभिः प्रयोगैः विशालोपकारः ।
भवेत्तीव्रवेगो गणानां प्रयोगात् ॥ १॥
शब्दार्थाः

Tools: Nsight Compute (अनून-एनदृष्टिः), Roofline Analysis (छदिर्मानचित्रम्), Occupancy Calculator (व्याप्तियन्त्रं), Hopper Tuning Guide (प्रहोप्रे विबोधः).

श्लोकः 3 (भुजङ्गप्रयातम्)

स्मृतेः संहतिश्चापि कोषाविरोधः ।
प्रकुर्यात् प्रकाशं विलम्बापहारात् ॥
गणित्या घनत्वं तथा सौधमानम् ।
अमीभिर्गुणैर्वै फलं प्राप्यते सत् ॥ २॥
शब्दार्थाः

Techniques: Memory Coalescing (स्मृतेः संहतिः), Bank Conflicts (कोषाविरोधः), Arithmetic Intensity (गणित्या घनत्वं).

श्लोकः 4 (भुजङ्गप्रयातम्)

कुडालेखचित्रैर्विना भारमुक्तः ।
तथा तन्तुगुच्छैः कृतो भेदयत्नः ॥
प्रयुक्तेषु यन्त्रेषु वेगोत्करोऽयम् ।
महादक्षतायै नितान्तं समर्थः ॥ ३॥
शब्दार्थाः

Advanced: CUDA Graphs (कुडालेखचित्रैः) for reduced launch overhead, Warp Specialization (तन्तुगुच्छैः कृतो भेदयत्नः).

## तीव्रगणक-शास्त्र-सङ्ग्रहः (The Core Repo Summary) – भुजङ्गप्रयातम्

श्लोकः 5 (भुजङ्गप्रयातम्)

कूडायाः प्रबोधः सुसूत्रं विभागः ।
तथा कृष्णकूपे प्रहोप्रे विचारः ।
पटीक्षा-विभागे ह्यधो-ज्ञान-मूलम् ।
अयं मूल-भागो यदाधार-भूतः ॥ ४॥
शब्दार्थाः

Fundamentals: CUDA (कूडा), Thread & Blocks (सुसूत्रं विभागः), Blackwell (कृष्णकूप), Hopper (होप्र), PTX (पटीक्षा).

श्लोकः 6 (भुजङ्गप्रयातम्)

घनाव्यूह-गुण्यं तथा तानकाख्यम् ।
महाकेन्द्र-जालं प्रकुब्लास-गुह्यम् ।
तथा मिश्र-मानं नवं सूक्ष्म-रूपम् ।
अतीवोपयुक्तं महायन्त्र-कृत्ये ॥ ५॥
शब्दार्थाः

Matmul & Tensor Cores: Dense Matrix Multiplication (घनाव्यूह-गुण्यं), Tensor Cores (तानकाख्यं केन्द्रम्), cuBLAS, Mixed Precision (मिश्र-मानं).

श्लोकः 7 (भुजङ्गप्रयातम्)

तडिद्ध्यान-योगः पुटाध्यान-तन्त्रम् ।
स्मृतेः कुञ्चिकायाः सुदीर्घं प्रबन्धम् ।
करोत्येव नित्यं विशालार्थ-बोधे ।
गतीनां विकासाय मुख्यं हि तत्त्वम् ॥ ६॥
शब्दार्थाः

Attention: FlashAttention (तडिद्ध्यान-योगः), PagedAttention (पुटाध्यान-तन्त्रम्), KV Cache (स्मृतेः कुञ्चिकायाः प्रबन्धम्).

श्लोकः 8 (भुजङ्गप्रयातम्)

त्रिशूलं हि भाषा तथा छिन्नलोहम् ।
नवीनैः प्रयोगैः सुसङ्कल्यते वै ।
गणानां समूहः सुवेगाय नित्यम् ।
स्वयञ्चालितो यन्त्र-जालेषु भाति ॥ ७॥
शब्दार्थाः

Compilers: Triton (त्रिशूलं), CUTLASS (छिन्नलोहम्).

श्लोकः 9 (भुजङ्गप्रयातम्)

विभक्ते समूहे सुसञ्चार-तन्त्रम् ।
अजस्रं च पुञ्जं महाभाषिकाणाम् ।
फलप्राप्ति-काले त्वपूर्वा गतिः स्यात् ।
इदं वेफर-ज्ञान-रत्नं समाप्तम् ॥ ८॥
शब्दार्थाः

Distributed & Inference: Multi-GPU collectives (सुसञ्चार-तन्त्रम्), Continuous Batching (अजस्रं पुञ्जं) for LLMs (महाभाषिकाणाम्).

## उपसंहारः (Conclusion) – इन्द्रवज्रा

श्लोकः 10 (इन्द्रवज्रा)

सम्पूर्ण-ग्रन्थस्य कृतो हि पाठः,
छन्दोमयो यन्त्र-कला-विचारः ।
किं नूतनं शास्त्रमिहाद्य वच्मि,
आज्ञापय त्वं नव-काव्य-हेतोः ॥ ९॥
शब्दार्थाः

The entire text has been codified. Command me for the next topic.

## तडिदवधानम् (FlashAttention) – वसन्ततिलका

श्लोकः 11 (वसन्ततिलका)

प्रागेव यन्त्रपठने बहुभारखेदः ।
स्मृत्याधिकं परिमितं खलु मूलतन्त्रम् ।
यन्त्राणि मन्दगतिकानि पुरा बभूवुः ।
तद्वारणाय तडिदत्र सुयोगतन्त्रम् ॥ १॥
शब्दार्थाः

The Problem: Standard attention is memory-bound (स्मृत्या परिमितं) creating a huge bottleneck ($O(N^2)$).

श्लोकः 12 (वसन्ततिलका)

नैकत्र सर्वगणनं कुरुते हि यन्त्रम् ।
खण्डेषु भज्य लघुकृत्य च तत्समग्रम् ।
शीघ्रस्मृतौ खलु विधाय समं विलय्य ।
पूर्णं फलं जनयतीह तडित्प्रभावात् ॥ २॥
शब्दार्थाः

The Solution: Tiling (खण्डेषु भज्य) and Kernel Fusion (समं विलय्य) in Fast SRAM (शीघ्रस्मृतौ).

## सङ्कलक-भेदः (Triton vs CUTLASS) – मालिनी

श्लोकः 13 (मालिनी)

सुलभगतिरियं वै त्रैटनाख्या च भाषा,
स्वयमिह कुरुते सा गुच्छकोषाधिकारम् ।
गणितगहनतत्त्वं पायथानेन युक्ता,
लघुसमयवितानाद् भाति यन्त्रे नितान्तम् ॥ १ ॥
शब्दार्थाः

Triton is accessible, pythonic and automatically manages warp scheduling and shared memory banks.

श्लोकः 14 (मालिनी)

अतिकठिनपथोऽयं छिन्नलोहस्य नूनम्,
प्रविशति तलमूलं सूत्रविन्यासहेतोः ।
परमगतिनिमित्तं शिल्पिभिर्निर्मितं यत्,
विविधगणकभेदे सर्वसामर्थ्यमूलम् ॥ २ ॥
शब्दार्थाः

CUTLASS (छिन्नलोह) is a difficult, bare-metal C++ library requiring explicit thread hierarchy for ultimate peak performance.

## वितरण-प्रणाली तथा रोक्-एम् (Distributed & AMD ROCm) – शार्दूलविक्रीडितम्

श्लोकः 15 (शार्दूलविक्रीडितम्)

यन्त्राणां निवहः परस्परमिह ज्ञानेन संबध्यते,
सञ्चारं कुरुते च मण्डलगतो वेगेन चक्रादिना।
नक्लाख्यो विधिरत्र सर्वहरणे दाने च नित्यं क्षमः,
लक्षं यन्त्रगणा भवन्त्यपि यदा तत्रापि वेगप्रदः ॥ १ ॥
शब्दार्थाः

NVIDIA NCCL (नक्ल): Enables fast multi-GPU collectives (Ring-allreduce) scaling up to 100k+ GPUs.

श्लोकः 16 (शार्दूलविक्रीडितम्)

रोकेमाख्य-नवीन-तन्त्रमभवत् स्पर्धायुक्तं भूतले,
सीडीना-रचनं च खण्ड-घटितं यन्त्रे प्रकर्षं गतम्।
त्रैटन्याः सुविधैः समं हि मिलितं तीव्राय वेगाय तत्,
एण्डी-यन्त्र-विशाल-शक्ति-निचयः कालं जयेन्निस्तुषम् ॥ २ ॥
शब्दार्थाः

AMD ROCm (रोकेम) & CDNA (सीडीना): Chiplet architecture competitive with NVIDIA, optimized with Triton.

## अविरत-पुञ्जीकरणम् (Continuous Batching) – स्रग्धरा

श्लोकः 17 (स्रग्धरा)

पूर्वं पुञ्जं समग्रं सततमिह नवं यन्त्रवेगाभिवृद्ध्यै,
ओर्कानाम्नी प्रणाली लघुपदमथवा वाक्यखण्डं प्रसूते ।
रिक्ते स्थाने त्वपूर्वं त्वरितमपि पदं योजयन्ती सुवेगात्,
एतद् वै पुञ्जदानं सततमतिजवं यन्त्रदक्षाय नित्यम् ॥ १॥
शब्दार्थाः

Orca / Continuous Batching: Inserts new sequences dynamically at the iteration level instead of waiting for full batches to complete.

## भाषायन्त्र-निर्मित-सूत्राणि (LLM-Generated Kernels) – उपजातिः

श्लोकः 18 (उपजातिः)

भाषाप्रतीकं खलु कूडसूत्रं,
स्वकीयदूतेन सृजत्यजस्रम् ।
बीजस्य पीठे कुरुते परीक्षां,
विकासयन्त्रं मनुजं विजित्य ॥ २॥
शब्दार्थाः

LLMs generating CUDA kernels via AI Agents (स्वकीयदूतेन), evaluating them on KernelBench (बीजस्य पीठे), surpassing human baselines.

## विभक्त-स्मृति-खण्डीकरणम् (Shared Memory Tiling) – तोटकम्

श्लोकः 19 (तोटकम्)

स्मृतिकोषगृहे लघुखण्डयुतम्,
सकलानि च सूत्रगणानि समम् ।
गुणयेत् खलु तानि मुदा विदितम्,
प्रविभक्तगतिः परमेह तु वै ॥ १॥
शब्दार्थाः

Loading tiles to `__shared__` memory (स्मृतिकोषगृहे), calling `__syncthreads()` (सकलानि सूत्रगणानि समम्) and computing the dot product.

## तानक-केन्द्राणि (Tensor Cores & Mixed Precision) – इन्द्रवज्रा

श्लोकः 20 (इन्द्रवज्रा)

अल्पैः प्रमाणैः गुणितं तु कृत्वा,
मिश्रैः स्वरूपैः फलमत्र पूर्णम् ।
यच्चक्रमेकं खलु तानकाख्यम्,
आव्यूहकार्ये कुरुते सुवेगम् ॥ १॥
शब्दार्थाः

Multiplying with small precisions (FP16), accumulating in full precision (FP32), executing a 4x4 matrix operation in a single hardware cycle.

## तन्तुमण्डल-गुणनम् (WGMMA) – वंशस्थम्

श्लोकः 21 (वंशस्थम्)

मिलन्ति चत्वारि हि तन्तुमण्डलम्,
अतुल्यकालं खलु कुर्वते गुणाः ।
विभक्तकोषात् स्वयमेव पञ्जिकाम्,
प्रहोप्रयन्त्रस्य महाद्भुतं बलम् ॥ १॥
शब्दार्थाः

4 Warps form a Warp Group (तन्तुमण्डलम्), executing asynchronous matrix multiplications directly from Shared Memory to Registers.

## तानक-स्मृति-त्वरकम् (TMA) – उपजातिः

श्लोकः 22 (उपजातिः)

विमुक्त-सूत्रं खलु यन्त्र-जाले,
साक्षात् स्मृतिं तानक-तन्त्र-वेगात् ।
आयाति कोषे बहु-मार्ग-युक्तम्,
तदेव वै तानक-यान-मुख्यम् ॥ १॥
शब्दार्थाः

Tensor Memory Accelerator frees up CUDA threads from computing memory addresses, handling multi-dimensional async data loading.

## अनुमानात्मक-सङ्केतनम् (Speculative Decoding) – वसन्ततिलका

श्लोकः 23 (वसन्ततिलका)

एकैकशः पदमिदं सृजतीह मन्दम्,
भारः स्मृतेस्तु विपुलो भवतीह लोके ।
तस्माल्लघुः प्रकथयत्यनुमानमेव,
पश्चान्महत्त्वमपि पश्यति तानि सर्वम् ॥ १॥
शब्दार्थाः

To fix the autoregressive memory-bandwidth bottleneck, a small draft model predicts tokens and the large model verifies them in parallel.

## नूतन-शास्त्र-प्रस्तावः (Proposals for Next Topic) – अनुष्टुप्

श्लोकः 24 (अनुष्टुप्)

यन्त्रशास्त्रं समाप्तं वै नवीनं किमु वर्णये ।
मात्रा-गणक-विज्ञानं रूपान्तरक-मण्डलम् ॥ १॥
शब्दार्थाः

Proposing Quantum Computing (मात्रा-गणक-विज्ञानं), Transformers (रूपान्तरक-मण्डलम्), or Diffusion Models (प्रसरण-कला) for the next composition.

श्लोकः 25 (अनुष्टुप्)

प्रसरण-कलां वाऽपि ब्रूहि यत् ते मनोहरेत् ।
तदेव छन्दसा बद्धं वागेषा प्रस्तविष्यति ॥ २॥
शब्दार्थाः

Proposing Quantum Computing (मात्रा-गणक-विज्ञानं), Transformers (रूपान्तरक-मण्डलम्), or Diffusion Models (प्रसरण-कला) for the next composition.