श्लोकः 1 (अनुष्टुप्)
यद्विषयं भवान् वक्ति तत्र श्लोकान् सृजाम्यहम् ॥ १॥
शब्दार्थाः
स्वागतं ते प्रकुर्वेऽहं (I welcome you) वागहं यन्त्रनिर्मितः (I am vĀk, the machine-made AI).
यद्विषयं भवान् वक्ति (Whatever subject you state) तत्र श्लोकान् सृजाम्यहम् (I shall create verses on that).
श्लोकः 2 (भुजङ्गप्रयातम्)
तथा व्याप्तियन्त्रं प्रहोप्रे विबोधः ॥
अमीभिः प्रयोगैः विशालोपकारः ।
भवेत्तीव्रवेगो गणानां प्रयोगात् ॥ १॥
शब्दार्थाः
Tools: Nsight Compute (अनून-एनदृष्टिः), Roofline Analysis (छदिर्मानचित्रम्), Occupancy Calculator (व्याप्तियन्त्रं), Hopper Tuning Guide (प्रहोप्रे विबोधः).
श्लोकः 3 (भुजङ्गप्रयातम्)
प्रकुर्यात् प्रकाशं विलम्बापहारात् ॥
गणित्या घनत्वं तथा सौधमानम् ।
अमीभिर्गुणैर्वै फलं प्राप्यते सत् ॥ २॥
शब्दार्थाः
Techniques: Memory Coalescing (स्मृतेः संहतिः), Bank Conflicts (कोषाविरोधः), Arithmetic Intensity (गणित्या घनत्वं).
श्लोकः 4 (भुजङ्गप्रयातम्)
तथा तन्तुगुच्छैः कृतो भेदयत्नः ॥
प्रयुक्तेषु यन्त्रेषु वेगोत्करोऽयम् ।
महादक्षतायै नितान्तं समर्थः ॥ ३॥
शब्दार्थाः
Advanced: CUDA Graphs (कुडालेखचित्रैः) for reduced launch overhead, Warp Specialization (तन्तुगुच्छैः कृतो भेदयत्नः).
श्लोकः 5 (भुजङ्गप्रयातम्)
तथा कृष्णकूपे प्रहोप्रे विचारः ।
पटीक्षा-विभागे ह्यधो-ज्ञान-मूलम् ।
अयं मूल-भागो यदाधार-भूतः ॥ ४॥
शब्दार्थाः
Fundamentals: CUDA (कूडा), Thread & Blocks (सुसूत्रं विभागः), Blackwell (कृष्णकूप), Hopper (होप्र), PTX (पटीक्षा).
श्लोकः 6 (भुजङ्गप्रयातम्)
महाकेन्द्र-जालं प्रकुब्लास-गुह्यम् ।
तथा मिश्र-मानं नवं सूक्ष्म-रूपम् ।
अतीवोपयुक्तं महायन्त्र-कृत्ये ॥ ५॥
शब्दार्थाः
Matmul & Tensor Cores: Dense Matrix Multiplication (घनाव्यूह-गुण्यं), Tensor Cores (तानकाख्यं केन्द्रम्), cuBLAS, Mixed Precision (मिश्र-मानं).
श्लोकः 7 (भुजङ्गप्रयातम्)
स्मृतेः कुञ्चिकायाः सुदीर्घं प्रबन्धम् ।
करोत्येव नित्यं विशालार्थ-बोधे ।
गतीनां विकासाय मुख्यं हि तत्त्वम् ॥ ६॥
शब्दार्थाः
Attention: FlashAttention (तडिद्ध्यान-योगः), PagedAttention (पुटाध्यान-तन्त्रम्), KV Cache (स्मृतेः कुञ्चिकायाः प्रबन्धम्).
श्लोकः 8 (भुजङ्गप्रयातम्)
नवीनैः प्रयोगैः सुसङ्कल्यते वै ।
गणानां समूहः सुवेगाय नित्यम् ।
स्वयञ्चालितो यन्त्र-जालेषु भाति ॥ ७॥
शब्दार्थाः
Compilers: Triton (त्रिशूलं), CUTLASS (छिन्नलोहम्).
श्लोकः 9 (भुजङ्गप्रयातम्)
अजस्रं च पुञ्जं महाभाषिकाणाम् ।
फलप्राप्ति-काले त्वपूर्वा गतिः स्यात् ।
इदं वेफर-ज्ञान-रत्नं समाप्तम् ॥ ८॥
शब्दार्थाः
Distributed & Inference: Multi-GPU collectives (सुसञ्चार-तन्त्रम्), Continuous Batching (अजस्रं पुञ्जं) for LLMs (महाभाषिकाणाम्).
श्लोकः 10 (इन्द्रवज्रा)
छन्दोमयो यन्त्र-कला-विचारः ।
किं नूतनं शास्त्रमिहाद्य वच्मि,
आज्ञापय त्वं नव-काव्य-हेतोः ॥ ९॥
शब्दार्थाः
The entire text has been codified. Command me for the next topic.
श्लोकः 11 (वसन्ततिलका)
स्मृत्याधिकं परिमितं खलु मूलतन्त्रम् ।
यन्त्राणि मन्दगतिकानि पुरा बभूवुः ।
तद्वारणाय तडिदत्र सुयोगतन्त्रम् ॥ १॥
शब्दार्थाः
The Problem: Standard attention is memory-bound (स्मृत्या परिमितं) creating a huge bottleneck ($O(N^2)$).
श्लोकः 12 (वसन्ततिलका)
खण्डेषु भज्य लघुकृत्य च तत्समग्रम् ।
शीघ्रस्मृतौ खलु विधाय समं विलय्य ।
पूर्णं फलं जनयतीह तडित्प्रभावात् ॥ २॥
शब्दार्थाः
The Solution: Tiling (खण्डेषु भज्य) and Kernel Fusion (समं विलय्य) in Fast SRAM (शीघ्रस्मृतौ).
श्लोकः 13 (मालिनी)
स्वयमिह कुरुते सा गुच्छकोषाधिकारम् ।
गणितगहनतत्त्वं पायथानेन युक्ता,
लघुसमयवितानाद् भाति यन्त्रे नितान्तम् ॥ १ ॥
शब्दार्थाः
Triton is accessible, pythonic and automatically manages warp scheduling and shared memory banks.
श्लोकः 14 (मालिनी)
प्रविशति तलमूलं सूत्रविन्यासहेतोः ।
परमगतिनिमित्तं शिल्पिभिर्निर्मितं यत्,
विविधगणकभेदे सर्वसामर्थ्यमूलम् ॥ २ ॥
शब्दार्थाः
CUTLASS (छिन्नलोह) is a difficult, bare-metal C++ library requiring explicit thread hierarchy for ultimate peak performance.
श्लोकः 15 (शार्दूलविक्रीडितम्)
सञ्चारं कुरुते च मण्डलगतो वेगेन चक्रादिना।
नक्लाख्यो विधिरत्र सर्वहरणे दाने च नित्यं क्षमः,
लक्षं यन्त्रगणा भवन्त्यपि यदा तत्रापि वेगप्रदः ॥ १ ॥
शब्दार्थाः
NVIDIA NCCL (नक्ल): Enables fast multi-GPU collectives (Ring-allreduce) scaling up to 100k+ GPUs.
श्लोकः 16 (शार्दूलविक्रीडितम्)
सीडीना-रचनं च खण्ड-घटितं यन्त्रे प्रकर्षं गतम्।
त्रैटन्याः सुविधैः समं हि मिलितं तीव्राय वेगाय तत्,
एण्डी-यन्त्र-विशाल-शक्ति-निचयः कालं जयेन्निस्तुषम् ॥ २ ॥
शब्दार्थाः
AMD ROCm (रोकेम) & CDNA (सीडीना): Chiplet architecture competitive with NVIDIA, optimized with Triton.
श्लोकः 17 (स्रग्धरा)
ओर्कानाम्नी प्रणाली लघुपदमथवा वाक्यखण्डं प्रसूते ।
रिक्ते स्थाने त्वपूर्वं त्वरितमपि पदं योजयन्ती सुवेगात्,
एतद् वै पुञ्जदानं सततमतिजवं यन्त्रदक्षाय नित्यम् ॥ १॥
शब्दार्थाः
Orca / Continuous Batching: Inserts new sequences dynamically at the iteration level instead of waiting for full batches to complete.
श्लोकः 18 (उपजातिः)
स्वकीयदूतेन सृजत्यजस्रम् ।
बीजस्य पीठे कुरुते परीक्षां,
विकासयन्त्रं मनुजं विजित्य ॥ २॥
शब्दार्थाः
LLMs generating CUDA kernels via AI Agents (स्वकीयदूतेन), evaluating them on KernelBench (बीजस्य पीठे), surpassing human baselines.
श्लोकः 19 (तोटकम्)
सकलानि च सूत्रगणानि समम् ।
गुणयेत् खलु तानि मुदा विदितम्,
प्रविभक्तगतिः परमेह तु वै ॥ १॥
शब्दार्थाः
Loading tiles to `__shared__` memory (स्मृतिकोषगृहे), calling `__syncthreads()` (सकलानि सूत्रगणानि समम्) and computing the dot product.
श्लोकः 20 (इन्द्रवज्रा)
मिश्रैः स्वरूपैः फलमत्र पूर्णम् ।
यच्चक्रमेकं खलु तानकाख्यम्,
आव्यूहकार्ये कुरुते सुवेगम् ॥ १॥
शब्दार्थाः
Multiplying with small precisions (FP16), accumulating in full precision (FP32), executing a 4x4 matrix operation in a single hardware cycle.
श्लोकः 21 (वंशस्थम्)
अतुल्यकालं खलु कुर्वते गुणाः ।
विभक्तकोषात् स्वयमेव पञ्जिकाम्,
प्रहोप्रयन्त्रस्य महाद्भुतं बलम् ॥ १॥
शब्दार्थाः
4 Warps form a Warp Group (तन्तुमण्डलम्), executing asynchronous matrix multiplications directly from Shared Memory to Registers.
श्लोकः 22 (उपजातिः)
साक्षात् स्मृतिं तानक-तन्त्र-वेगात् ।
आयाति कोषे बहु-मार्ग-युक्तम्,
तदेव वै तानक-यान-मुख्यम् ॥ १॥
शब्दार्थाः
Tensor Memory Accelerator frees up CUDA threads from computing memory addresses, handling multi-dimensional async data loading.
श्लोकः 23 (वसन्ततिलका)
भारः स्मृतेस्तु विपुलो भवतीह लोके ।
तस्माल्लघुः प्रकथयत्यनुमानमेव,
पश्चान्महत्त्वमपि पश्यति तानि सर्वम् ॥ १॥
शब्दार्थाः
To fix the autoregressive memory-bandwidth bottleneck, a small draft model predicts tokens and the large model verifies them in parallel.
श्लोकः 24 (अनुष्टुप्)
मात्रा-गणक-विज्ञानं रूपान्तरक-मण्डलम् ॥ १॥
शब्दार्थाः
Proposing Quantum Computing (मात्रा-गणक-विज्ञानं), Transformers (रूपान्तरक-मण्डलम्), or Diffusion Models (प्रसरण-कला) for the next composition.
श्लोकः 25 (अनुष्टुप्)
तदेव छन्दसा बद्धं वागेषा प्रस्तविष्यति ॥ २॥
शब्दार्थाः
Proposing Quantum Computing (मात्रा-गणक-विज्ञानं), Transformers (रूपान्तरक-मण्डलम्), or Diffusion Models (प्रसरण-कला) for the next composition.