हमारे आसपास पड़ी अप्रयुक्त कंप्यूट क्षमता

3 जून 2026 • 27 min read

विषय सूची

कभी-कभी infrastructure का बड़ा सवाल बहुत छोटी-सी तस्वीर से शुरू होता है: रात में एक smartphone charger पर पड़ा है। Laptop बंद है। Game console living room में इंतजार कर रहा है। Car garage में खड़ी है। हर जगह कंप्यूट क्षमता है, जो पहले ही खरीदी जा चुकी है, बिजली पा रही है और ज्यादातर समय कुछ नहीं कर रही।

उसी समय नए data centers बन रहे हैं, औद्योगिक संयंत्रों जितने बड़े। GPU, fiber, transformer, cooling technology और बिजली contracts से भरे hall। हम digital infrastructure की एक नई परत बना रहे हैं, जो हमारे लिखने, खोजने, programming करने, analysis करने और शायद कभी निर्णय लेने तक को सहारा देगी।

क्या हो अगर इस क्षमता का एक छोटा हिस्सा यूँ ही खत्म न हो? यह कोई उछलती हुई fantasy नहीं है, जिसमें हर phone अचानक data center की जगह ले ले। बल्कि एक गंभीर thought experiment है: क्या किसी तरह का Compute-Smart-Grid हो सकता है, जिसमें devices स्वेच्छा से, सीमित रूप में और payment के बदले कंप्यूट क्षमता दें?

PRISM से Prompts तक वाले article में इसी विकास का दूसरा पहलू है: कुछ ही AI platforms पर बढ़ती निर्भरता, खासकर USA और China से आने वाले platforms पर। यहाँ मुझे उल्टा विचार रुचिकर लगता है। भोली P2P romanticism के रूप में नहीं, बल्कि technical सवाल के रूप में: कितनी कंप्यूट क्षमता पहले से फैली पड़ी है, कौन-से AI काम सचमुच बाँटे जा सकते हैं, और क्या होना होगा ताकि लोगों को उसके लिए fair payment मिले?

कंप्यूट क्षमता को store नहीं किया जा सकता। अप्रयुक्त GPU-hour कोई reserve नहीं है। वह बस चला जाता है।

विचार प्रयोग

AI सिर्फ software नहीं है। AI बिजली, cooling, fiber, GPU, जमीन, पानी और पूंजी है। International Energy Agency का अनुमान है कि 2024 में data centers ने दुनिया भर में लगभग 415 TWh बिजली इस्तेमाल की, यानी global बिजली खपत का करीब 1,5 प्रतिशत। 2030 तक यह लगभग 945 TWh हो सकता है।

यह केवल sustainability reports के लिए एक संख्या नहीं है। यह infrastructure policy है। AI services 7x24 उपलब्ध हैं। हर summary, हर code question, हर image, हर agent run एक computation है। और जब अरबों लोग और companies अपना काम AI loops में डालते हैं, तो उससे base load बनता है।

इसलिए बड़े central solutions का आकर्षण मैं समझता हूँ। Data centers नियंत्रित किए जा सकते हैं: एक जैसी hardware, एक जैसे racks, एक जैसे networks, साफ security zones, SLAs, monitoring, billing। Operations के नजरिए से यह आकर्षक है। लेकिन political, economic और architectural स्तर पर यह फिर वही बनाता है जिसने network को हमेशा vulnerable किया है: शक्ति के कुछ ही केंद्र।

इसलिए विचार प्रयोग एक सरल उल्टे सवाल से शुरू होता है: अगला डेटा सेंटर बनाने से पहले क्या पहले से मौजूद है?

अप्रयुक्त क्षमता कितनी बड़ी है?

यह विचार असल में बिल्कुल रोजमर्रा के एक पल से आता है। Smartphone रात में bedside table पर पड़ा है, बिजली से जुड़ा है और लगभग कुछ नहीं कर रहा। लेकिन उसके भीतर एक chip है, जिसके पास दस साल पहले के कई computers की कुल क्षमता से भी अधिक AI-specific compute power है। A17 Pro वाला iPhone 15 Pro प्रति सेकंड लगभग 35 ट्रिलियन Neural Engine operations तक पहुँचता है। अगर उसका सिर्फ एक सावधान average भी लिया जाए, तो यह ऐसे device के लिए बहुत ज्यादा है जो रात का अधिकतर हिस्सा इंतजार में बिताता है।

Desk पर भी यही होता है। नए notebooks में अब सिर्फ CPU और GPU नहीं होते, बल्कि NPU या Neural Engine भी होते हैं। Apple कई साल से अपने chips में Neural Engine बना रहा है। Windows notebooks AI-PCs के रूप में dedicated AI processors के साथ आ रहे हैं। Living room की game console में ऐसी GPU power है, जो पहले workstation जैसी लगती थी। फिर भी हम इस local compute power को अक्सर सिर्फ छोटी peaks में इस्तेमाल करते हैं: एक game, एक export, एक video call, एक local effect, एक search। उसके बाद device फिर idle में चला जाता है।

यहीं thought experiment शुरू होता है। सवाल यह नहीं है: “क्या मैं कल अपना iPhone data center की तरह किराये पर दे सकता हूँ?” यह बकवास होगा। असली सवाल यह है: अगर इतना silicon पहले ही खरीदा जा चुका है, network से जुड़ा है और हर रात बिजली पर है, तो theoretical capacity कितनी बड़ी होगी अगर हम सिर्फ छोटे, सुरक्षित, उपयुक्त time windows इस्तेमाल कर सकें?

दुनिया की इस अप्रयुक्त कंप्यूट क्षमता को बिल्कुल सटीक मापना संभव नहीं है। बहुत सारे devices अलग हैं, बहुत सारे offline हैं, और बहुत सारे battery, heat, security या platform कारणों से शामिल हो ही नहीं सकते। फिर भी एक rough extrapolation scale का एहसास देता है।

इसके लिए कुछ जानबूझकर सरल blocks लेते हैं। जरूरी बात: मैं ऐसा हिसाब नहीं लगा रहा कि हर device हमेशा पूरी तरह available होगा। मैं time windows, participation rates और सावधान discounts के साथ गिन रहा हूँ। यह thought experiment ही रहता है, लेकिन ऐसा जिसके पैरों के नीचे कुछ numbers हैं।

Tesla: पहियों पर silicon

Tesla ने जून 2025 में अपना आठ-मिलियनवां उत्पादित वाहन रिपोर्ट किया। हर वाहन अब भी सक्रिय नहीं है, हर एक में वही Autopilot hardware नहीं है, और हर मालिक अपनी कार को compute network के लिए खोलना नहीं चाहेगा। इसलिए मैं conservative हिसाब लगाता हूं:

8 मिलियन बनाए गए वाहनों में से शायद 80 प्रतिशत अब भी realistically active और technically relevant हैं। यानी 6,4 मिलियन वाहन।
Hardware 3, यानी 2019 से FSD Computer, के लिए system level पर अक्सर 144 TOPS की order of magnitude बताई जाती है।
Hardware 4 नए वाहनों में है और अधिक modern है, लेकिन Tesla इसके लिए पुराने Autonomy Day figures जैसा साफ, सरल TOPS value प्रकाशित नहीं करता। इसलिए इस calculation में मैं फिर भी 144 TOPS को conservative base value मानता हूँ।
एक car अक्सर दिन में 23 घंटे खड़ी रहती है, लेकिन सच में interesting charging window है। अगर वह रात में 6,5 घंटे बिजली से जुड़ी रहती है, तो 24 घंटे पर average करके यह लगभग 27 प्रतिशत availability है।

अगर इन active Tesla owners में से सिर्फ 25 प्रतिशत sign up करें, तो यह 1,6 मिलियन वाहन होंगे और day-equivalent के रूप में लगभग 62 Exa operations per second मिलेंगे। 50 प्रतिशत participation पर लगभग 125 Exa operations per second। अगर theoretically सभी active vehicles हिस्सा लें, तो संख्या लगभग 250 Exa operations per second होगी। रात की window में instantaneous performance अधिक होगी; day-equivalent number केवल उस data center से बेहतर comparison है जो 24 घंटे चलता है।

iPhones: बड़ी हैरानी

iPhones के साथ calculation एक साथ आसान और मुश्किल है। आसान इसलिए कि Apple हर साल विशाल quantities ship करता है। मुश्किल इसलिए कि Apple यह साफ public table नहीं देता कि कौन सी iPhone generation दुनिया भर में अब भी active है। इसलिए मैं पिछले सालों की published shipments लेता हूं और उनके ऊपर एक plausible active remaining rate रखता हूं।

वर्ष	भेजे गए iPhones	मोटा chip mix	मानी गई active quote	औसत Neural Engine performance
2021	235,7 मिलियन	A14/A15	55 %	12 TOPS
2022	226,4 मिलियन	A15/A16	65 %	16 TOPS
2023	234,6 मिलियन	A16/A17 Pro	75 %	22 TOPS
2024	233,1 मिलियन	A16/A17/A18	85 %	30 TOPS
2025	247,8 मिलियन	A18/A19	95 %	32 TOPS

यह mixed calculation सिर्फ पाँच shipment years से लगभग 885 मिलियन शायद अब भी active iPhones देती है। यह पूरी iPhone base नहीं है, बल्कि जानबूझकर सीमित हिस्सा है। पुराने A14/A15 generations low double-digit TOPS range में थे, A16 लगभग 17 TOPS पर, A17 Pro लगभग 35 TOPS पर। इसलिए हर वर्ष का average लेना इससे बेहतर है कि हम दिखावा करें कि सभी devices में वही chip है।

अब वही खेल फिर: रात में बिजली पर 6,5 घंटे, पूरा दिन नहीं। अगर इन devices में से 25 प्रतिशत भाग लें, तो day-equivalent के रूप में लगभग 1'437 Exa operations per second मिलेंगे। 50 प्रतिशत participation पर लगभग 2'875 Exa operations per second। अगर theoretically सभी devices भाग लें, तो संख्या लगभग 5'750 Exa operations per second होगी।

यह पागलपन जैसा लगता है। लेकिन बात यही है। इसलिए नहीं कि iPhone server है। बल्कि इसलिए कि devices की mass इतनी बड़ी है कि cautious rates भी अचानक उस order of magnitude में पहुंच जाते हैं जिसे हम आम तौर पर data centers से जोड़ते हैं।

तुलना

दूसरे reference points के रूप में मैं लेता हूं:

50 मिलियन desktop GPUs, workstations या छोटे servers, जो average में 20 TFLOPS FP32 दे सकते हैं। अगर उनमें से सिर्फ 20 प्रतिशत practically usable हों, तो suitable time windows में लगभग 200 Exa operations per second बचते हैं।
xAI Colossus data center दुनिया से comparison के लिए। 200'000 Hopper GPUs और H100 order of magnitude के करीब 3'958 INT8-TOPS के साथ लगभग 792 Exa operations per second theoretical AI peak performance मिलती है। यह sparsity peak है; dense और लगातार usable performance इससे कम होती है।

सैद्धांतिक silicon की तुलना

प्रति सेकंड मोटे Exa operations, 24 घंटे पर average किए हुए। Tesla और iPhones को 6,5 घंटे की रात वाली window से calculate किया गया है; Tesla और iPhones में graphic theoretical participation rates दिखाता है, आज उपलब्ध capacity नहीं।

Tesla 50 % सैद्धांतिक

125

PCs / Workstations

200

xAI Colossus

792

iPhones 25 % सैद्धांतिक

1'437

iPhones 50 % सैद्धांतिक

2'875

जरूरी: यह benchmark नहीं है। FP32-FLOPS, INT8-TOPS और Neural Engine TOPS 1:1 interchangeable नहीं हैं। Memory, interconnect, software, verification, energy efficiency, platform rights और real utilization तय करते हैं कि peak performance usable work बनती है या नहीं।

यह exact global capacity नहीं है। यह एक thinking model है। और यहीं रुकना जरूरी है: TOPS को पानी के liters की तरह एक common pool में नहीं डाला जा सकता। iPhone के Neural Engine TOPS, GPU के INT8 TOPS और workstation की FP32 performance अलग चीजें हैं। कई useful jobs को सिर्फ compute operations नहीं, बल्कि RAM, VRAM, memory bandwidth, stable runtime, software access और ऐसा operating system चाहिए जो ऐसे jobs को अनुमति भी दे।

फिर भी calculation दिखाती है कि idea हास्यास्पद नहीं है। PCs, vehicles और smartphones का conservative combination भी theoretical silicon के रूप में ऐसी order of magnitude तक पहुँचता है, जो दुनिया के सबसे visible AI data centers में से एक के बगल में absurdly small नहीं लगता।

iPhone number खास तौर पर रोचक है, क्योंकि वह सिर्फ पाँच shipment years देखती है, पूरी active installed base नहीं। साथ ही यह best example है कि peak performance काफी नहीं होती: iPhone server नहीं है। उसके heat limits, battery logic, operating system rules, privacy models और एक owner है जिसे सुबह काम करता हुआ device चाहिए। फिर भी वहाँ ऐसी कंप्यूट क्षमता है जो कुछ साल पहले science fiction जैसी लगती।

और ये peak values भी सिर्फ peak values हैं। Smartphone, fanless notebook या car control unit ऐसी performance को छह घंटे तक data center GPU की तरह नहीं दे सकते। Thermals, throttling और protection logic sustained performance को बहुत दबा देते हैं। इसलिए जो भी इससे real network बनाना चाहता है, उसे datasheet की सबसे सुंदर number से नहीं, sustained performance से calculate करना होगा।

इसे बिजली के रूप में भी सोच सकते हैं। अगर 50 million devices average में 150 watt चार घंटे प्रतिदिन contribute करें, तो यह प्रति वर्ष लगभग 11 TWh होगा। यह आज के global data center consumption का छोटा हिस्सा है। लेकिन यह कई background jobs, embeddings, scientific workloads, rendering, verification tasks या decentralized storage processes को संभालने के लिए काफी होगा।

असुविधाजनक objection यह है: यह अपने आप efficient नहीं होगा। Data centers में बेहतर cooling, बेहतर utilization, सस्ती बिजली, नई hardware और professional batching होती है। Home device useful computation per unit में खराब हो सकता है, खासकर अगर बहुत overhead हो या smartphone battery कुछ cents credits के लिए जल्दी बूढ़ी हो। इसलिए decentralized compute grid केवल इसलिए अच्छा नहीं होगा कि वह distributed है। उसे suitable workloads के लिए net meaningful होना होगा: technical, energetic और economic रूप से।

नए AI-PCs से बात और रोचक हो जाती है। Canalys ने 2025 के लिए लगभग 100 million shipped AI-PCs की उम्मीद की थी। इनमें से कई devices 40 TOPS या अधिक वाली NPUs लाते हैं। TOPS GPU-FLOPS जैसा नहीं है, और NPU data center की जगह नहीं लेती। लेकिन बहुत सावधानी से देखने पर भी local AI hardware की नई class बन रही है, जो सिर्फ paper पर नहीं, बल्कि offices और homes में पहुंच रही है।

तो punchline यह नहीं है: “हम कल सारे data centers को gaming PCs, Teslas और iPhones से बदल देंगे।” Punchline यह है: हम विशाल नई central capacity बना रहे हैं, जबकि साथ ही बहुत बड़ी distributed, पहले से paid capacity unused होकर नष्ट हो रही है।

कंप्यूट क्षमता नष्ट हो जाती है

बिजली को मैं store कर सकता हूं। Perfect नहीं, lossless नहीं, लेकिन मूल रूप से कर सकता हूं। अगर मेरी solar system दोपहर में जरूरत से ज्यादा produce करती है, तो energy battery में या grid में जाती है। शाम को मैं उसे फिर इस्तेमाल कर सकता हूं, या मेरा पड़ोसी इस्तेमाल कर सकता है। Smart grids, battery storage और peer-to-peer energy models इस सोच को increasingly concrete बनाते हैं: कभी मैं produce करता हूं, कभी consume करता हूं, और customer और provider की सीमा नरम होती जाती है।

कंप्यूट क्षमता अलग तरह से काम करती है।

कल की अप्रयुक्त GPU-hour को मैं आज drawer से निकाल नहीं सकता। Processor जिसने पूरी रात कुछ नहीं किया, उसने बाद के लिए compute बचाकर नहीं रखा। वह समय चला गया। वापस नहीं आएगा। Compute perishable है।

यही अप्रयुक्त devices को रोचक बनाता है। हमारे पास केवल hardware नहीं है। हमारे पास लगातार मिटती संभावनाएं हैं। Short-term realistic pool में खासकर desktop GPUs, workstations, game consoles, small servers, NAS storage और campus या provider resources आते हैं। Smartphones और cars अधिक long-term edge cases हैं: तकनीकी रूप से fascinating, लेकिन battery, heat, platform rules, security और manufacturer control के कारण काफी difficult।

तो समस्या केवल mathematics में नहीं, incentive में भी है। सबसे रोचक idle Silicon वाले devices बंद platforms के हैं: Apple बड़े Apple Intelligence requests के लिए Private Cloud Compute से अपनी infrastructure बना रहा है, Tesla FSD और Optimus के लिए Cortex से अपनी training capacity। ये companies अपनी device fleet को manufacturer-independent compute market के लिए क्यों खोलेंगी, जब hardware, software और cloud पर control ही असली moat है?

फिर भी मूल सवाल बचता है: हम distributed compute power को irrelevant क्यों मानते हैं, जबकि साथ ही increasingly larger central facilities बना रहे हैं?

क्या AI सचमुच विकेंद्रीकृत रूप से compute कर सकता है?

यहां ईमानदार होना होगा: आज जो AI visible है, उसके बहुत हिस्से के लिए decentralization कठिन है।

एक बड़ा language model छोटे tasks की simple list नहीं है जिन्हें मनमाने ढंग से अजनबी devices पर फेंका जा सके। Models को RAM या VRAM चाहिए। उन्हें memory bandwidth चाहिए। कभी-कभी fast interconnects चाहिए। Token generation में model बार-बार run होता है, और हर extra network hop response को धीमा करता है। Interactive chat answer के लिए एक frontier model को अजनबी smartphones, पुराने laptops और cars पर बांटना अधिकतर nonsense होगा।

लेकिन इसका मतलब यह नहीं कि decentralized AI असंभव है। मतलब सिर्फ इतना है कि सही tasks चुनने होंगे।

वे काम बहुत अच्छे fit होते हैं जिन्हें दो seconds में खत्म नहीं होना है: बड़े archives के लिए embeddings, batch summaries, rendering, scientific simulations, synthetic data, tests, crawling, verification tasks, decentralized storage repair, small local models, preprocessing और ऐसे tasks जिनके results check किए जा सकते हैं या multiple times compute कराए जा सकते हैं।

Practically, tasks को अधिक साफ अलग करना होगा:

Job class	विकेंद्रीकृत रूप से sensible?	क्यों
Private local inference	हाँ, लेकिन local	Data अपने device या अपने trust zone में रहता है।
Batch inference और embeddings	अक्सर हाँ	Seconds latency से ज्यादा high throughput जरूरी है।
Verifiable subjobs	हाँ, अगर checkable हों	Results कई बार compute, attest या tests से verify किए जा सकते हैं।
Storage और replication	हाँ, rules के साथ	Encryption, erasure coding, audits और repair mechanisms यहाँ known building blocks हैं।
Frontier training और hard SLAs	अक्सर नहीं	बहुत coupling, बहुत VRAM, और interconnect, operation तथा availability पर बहुत high demands।

Large models पूरी तरह excluded नहीं हैं, लेकिन उन्हें अलग architecture चाहिए। Petals ने दिखाया कि बड़े models की collaborative inference और fine-tuning distributed resources पर मूल रूप से संभव है। Prime Intellect INTELLECT-2 के साथ एक कदम आगे जाता है और दिखाता है कि untrusted workers के साथ distributed Reinforcement Learning कैसे काम कर सकता है, अगर results verify किए जाएं। यह अभी वह दुनिया नहीं है जहां तुम्हारा iPhone रात में चुपचाप GPT-7 train करता है। लेकिन यह संकेत है कि समस्या fundamentally impossible नहीं है।

इसलिए realistic start यह नहीं होगा: “हम एक huge model सब पर बांट देते हैं।” Realistic start होगा: local models first, suitable batch jobs के लिए regional pools, verifiable tasks, clear data zones और central data centers केवल वहां जहां वे सच में जरूरी हों।

वितरित systems का पुराना सपना

Internet की एक दूसरी कहानी भी है। वह cathedral जैसी कम और swarm जैसी ज्यादा लगती है।

स्वैच्छिक computing

SETI@home मेरे लिए हमेशा सबसे सुंदर उदाहरणों में से एक रहा है। Millions of people ने अपने computers को background में radio astronomy data calculate करने दिया। इसलिए नहीं कि उन्हें कोई SaaS dashboard मिला, बल्कि इसलिए कि idea काफी बड़ा था: हम मिलकर ब्रह्मांड के शोर में signals खोजते हैं। March 2020 से SETI@home नई Work Units distribute नहीं करता और एक तरह की hibernation में है। लेकिन proof के रूप में कि voluntary computing global scale पर काम कर सकता है, यह important रहता है।

BOINC, उसके पीछे और साथ वाली platform, sober तरीके से बताती है कि यह क्यों काम करता है: बहुत सारे independent, compute-intensive jobs, जहां throughput low latency से ज्यादा important है। यही decisive difference है। Distributed system को हर interactive chat answer दो seconds में deliver करने की जरूरत नहीं। वह वहां strong हो सकता है जहां work divisible, verifiable और immediately due नहीं है।

तय जगह के बिना storage

IPFS यही सोच storage area में लाता है। Files primarily किसी location से नहीं, बल्कि अपने content से addressed होती हैं। Content का fingerprint होता है। जिसके पास वह है, वह उसे deliver कर सकता है। यह “यह file इस server पर इस URL के नीचे है” वाली सोच से अलग है।

केंद्रीय bookkeeping के बिना money

Bitcoin ने, speculation और energy consumption को कोई कैसे भी judge करे, एक मिलती-जुलती primal idea popular की: central bookkeeping के बिना system, जिसमें consensus एक single institution पर dependent नहीं है। हर decentralized idea automatically good नहीं होती। लेकिन Bitcoin ने दिखाया कि अगर protocol central control point हटाता है तो वह politically powerful हो सकता है।

network के रूप में storage

Storage में भी interesting attempts हुए। Symform decentralized cloud storage provider था, जिसमें excess storage network में contributed किया जा सकता था। 2014 में platform Quantum ने acquire किया; उस समय 170 countries में 45'000 users और small businesses की बात थी। Storj, Sia, Filecoin और अन्य variants भी दिखाते हैं: idea नया नहीं है। वह बस everyday life में पूरी तरह नहीं पहुंचता।

आज यह idea नए रूपों में जीता है। Storj files को client-side encrypt करके pieces में बांटता है और उन्हें कई Storage Nodes पर distribute करता है। यह romance से ज्यादा infrastructure के करीब है: user ideally swarm नहीं देखता, बल्कि एक storage service देखता है जो काम करती है।

marketplace के रूप में compute

Golem और Akash unused compute power को marketplace के रूप में accessible बनाना चाहते हैं। मेरे लिए यही इस article का direct bridge है: सिर्फ storage space distributed नहीं पड़ा है, बल्कि processors, GPUs और small servers भी, जो आज अक्सर idle रहते हैं।

वितरित swarm में AI

Andrej Karpathy भी इस environment में फिर दिखते हैं: Prime Intellect में उन्हें prominent supporter के रूप में mention किया जाता है, और Prime Intellect ने INTELLECT-2 के साथ 32B-parameter model के लिए decentralized distributed RL training round शुरू किया है, जिसमें heterogeneous, permissionless compute resources contribute कर सकते हैं।

यह perfect answer नहीं है। लेकिन यह दिखाता है: सपना गायब नहीं हुआ। वह बस बार-बार ऐसी form खोजता है जो real operations में survive कर सके।

Virtual Power Plant से सीखना

दिलचस्प यह है कि electricity sector में यही thinking अब बहुत exotic नहीं लगती।

Tesla अपने Virtual Power Plant को distributed energy sources के network के रूप में describe करता है: solar systems और Powerwalls वाले homes को मिलाकर power plant की तरह माना जाता है। जब grid को support चाहिए, batteries बिजली दे सकती हैं। Owner एक resource provide करता है और बदले में money या other benefits पाता है। Individual Powerwalls छोटी हैं। Together वे grid के लिए relevant हो सकती हैं।

Compute में यही analogy मुझे fascinate करती है। Home office की एक GPU, एक NAS, एक iPhone या एक car data center नहीं है। लेकिन बहुत सारे devices मिलकर एक नई layer बना सकते हैं: हर चीज के लिए नहीं, हर समय नहीं, rules के बिना नहीं, लेकिन certain tasks के लिए।

Analogy की limits हैं। Electricity compute work से कहीं ज्यादा fungible है। Kilowatt-hour इस पर dependent नहीं कि वह अभी 80 GB VRAM वाले model, embedding pipeline या encrypted storage repair को run करेगी। Compute workload-dependent है। इसलिए job classes, scheduling और hard exclusions चाहिए।

Tesla में यही thought दो जगहों पर दिखता है। Powerwalls virtual power plant का हिस्सा बन सकती हैं। Cars future में autonomous Robotaxi fleet का हिस्सा बननी हैं, यानी तब money कमाना जब owner उन्हें खुद नहीं use कर रहा। यह सच में कितना और कितनी जल्दी scale करेगा, अलग सवाल है। लेकिन basic idea important है: private device अब केवल consumed नहीं होता, बल्कि free time windows में infrastructure की तरह काम कर सकता है।

Compute को भी इसी तरह सोचा जा सकता है। पड़ोसी को electricity बेचने के रूप में नहीं, बल्कि regional cell को verifiable compute time, storage space या model work बेचने के रूप में। User अंत में electricity, heat, hardware wear और risk pay करता है। इसलिए उसे compensation भी मिलना चाहिए। इस point के बिना idea सिर्फ सुंदर technical experiment रह जाती है।

Swarm इतना कम क्यों जीतता है

अगर decentralization इतना अच्छा लगता है, तो वह simply जीत क्यों नहीं जाता?

क्योंकि centralization अक्सर बेहतर product package है।

Data center controllable है। Swarm अजनबी devices, different operating systems, changing availability, poor predictability और ऐसे owners से बना है जो अपना device बंद कर सकते हैं, बेच सकते हैं, update कर सकते हैं या network से disconnect कर सकते हैं। Product manager के लिए यह romance नहीं, headache है।

इसके साथ economics आती है। कई decentralized projects ने incentives को tokens से solve करने की कोशिश की। यह understandable है, क्योंकि central company के बिना network को फिर भी compensation चाहिए। लेकिन जैसे ही storage या compute time की costs volatile currency से जुड़ती हैं, normal companies के लिए यह unattractive हो जाता है। मैं नहीं चाहता कि मेरा terabyte backup अचानक महंगा हो जाए क्योंकि Twitter पर कोई coin pump हो रहा है। मैं यह भी नहीं चाहता कि GPU-hours का budget ऐसे market पर depend करे जो infrastructure से ज्यादा casino जैसा लगता है।

और price opponent cloud की सबसे expensive on-demand GPU नहीं है। Real comparison Spot और Preemptible offers हैं, यानी data center providers की पहले से excess capacity, जिसे वे significant discount पर बेचते हैं। इसलिए decentralized compute network को केवल philosophically prettier नहीं होना होगा। उसे बहुत cheap, well-integrated, भले interruptible, cloud capacity के खिलाफ टिकना होगा।

दूसरा brake convenience है। S3 इसलिए नहीं जीता कि वह philosophically beautiful है। वह इसलिए जीता क्योंकि वह simple enough, documented enough और everywhere integrated था। अगर decentralized storage या compute networks relevant होना चाहते हैं, तो developers और admins के लिए उन्हें लगभग boring महसूस होना चाहिए: API key डालो, bucket बनाओ, monitoring, invoice, SLA, restore test, done।

फिर security आती है। Enterprise network में अचानक कोई foreign compute job workstations पर inbound नहीं land करना चाहिए। कोई भी sensible firewall इसे block करेगी और Threat Intelligence systems को suspicious लगेगा। Practically ऐसे system को अंदर से बाहर काम करना होगा: node किसी cell को report करे, checked jobs fetch करे, sandbox में run करे और केवल वही data देखे जो उसे देखने की permission है। वरना legitimate compute network network layer पर जल्दी ही बहुत politely formulated botnet जैसा दिखेगा।

Trust अगला कठोर point है। Decentralized systems को prove कर पाना होगा कि work correctly done हुआ, बिना हर node को सब कुछ दिखाए। Storage में known building blocks हैं: encryption, erasure coding, audits, repair mechanisms। AI और compute में यह कठिन है। मैं कैसे check करूँ कि अजनबी device ने model correctly execute किया? Data leakage कैसे रोकूँ? Participant के device को foreign code से कैसे बचाऊँ?

Hardware wear भी सिर्फ electricity से ज्यादा है। SSDs और NVMe storage की write limits होती हैं। जो model weights, temporary data, embedding batches या swap files को consumer devices पर लगातार लिखता है, वह real lifetime consume करता है। Bandwidth problem भी है: अगर large model या dataset download करने में actual calculation से ज्यादा समय और network overhead लगता है, तो economics पलट जाती है। Data simple Smart Grid metaphor से ज्यादा heavy है।

यहीं INTELLECT-2 interesting हो जाता है। Prime Intellect अपने paper में TOPLOC को ऐसे building block के रूप में describe करता है, जो untrusted inference workers के rollouts verify करता है। यह अचानक सारे compute problems solve नहीं करता। यह arbitrary company data के लिए foreign hardware पर magical privacy नहीं है। लेकिन यह distributed AI work की एक specific class के लिए real mechanism दिखाता है: jobs इस तरह बनाए जाते हैं कि results verifiable हों, बजाय इसके कि हर worker पर blind trust किया जाए।

Confidential data के लिए यह alone enough नहीं है। वहां दूसरे building blocks चाहिए: Confidential Computing, Trusted Execution Environments, Remote Attestation, clean sandboxes, clear data classification और doubt में hard decision कि कुछ jobs foreign hardware पर चलेंगे ही नहीं। इसके ऊपर boring लेकिन decisive सवाल आते हैं: tax, liability, privacy law, data residency और internet providers के Terms। Infrastructure rarely केवल mathematics से fail होता है। अक्सर वह operations में fail होता है।

एक Compute-Smart-Grid

मैं कोई naive “सब कुछ P2P है और फिर सब अच्छा हो जाएगा” imagine नहीं करता। Infrastructure ऐसा काम नहीं करता। जो काम कर सकता है, वह clear layers वाला Compute-Smart-Grid होगा।

पहली layer है: local first। जो भी personal, confidential या latency-critical है, उसे जितना संभव हो अपने device या अपने trust space में चलना चाहिए। Small models, local search, private summaries, simple classification, preprocessing, encryption, personal data के लिए embeddings। हर email, हर note और हर search को hyperscaler तक जाने की जरूरत नहीं।

दूसरी layer regional और federated होगी। एक city, neighborhood, campus, company, cooperative या provider cell चला सकता है। इस cell में devices voluntarily resources provide करें, लेकिन clear conditions के साथ: केवल power पर, केवल idle में, केवल thermal limits के भीतर, केवल defined maximum power के साथ, केवल selected job classes के लिए।

Starting point smartphones और cars नहीं होंगे, बल्कि ज्यादा boring devices होंगे: desktop GPUs, workstations, game consoles, small servers, NAS systems और local providers की spare capacity। Smartphones बाद में small verification jobs ले सकते हैं। Cars उससे भी बाद में, very narrow manufacturer-controlled limits में conceivable हैं। Electricity grid की तरह, पहले उन resources से शुरू करना होगा जो reliable, measurable और controllable हैं।

तीसरी layer central रहती है। Frontier training, hard real time, extremely large models, regulatory sensitive special cases और highly coupled workloads professional data centers में ही belong करते हैं। Decentralization को everything replace नहीं करना। उसे बस यह रोकना है कि हर रोजमर्रा का task automatically उन्हीं पाँच power centers से गुजरे।

अगर इसे test करना हो, तो मैं छोटा शुरू करता। Millions of iPhones से नहीं, बल्कि शायद 500 से 2'000 voluntary desktop GPUs, workstations, NAS systems और small servers वाली regional cell से। Allowed job types बहुत कम होते: non-sensitive data के लिए embeddings, scientific batch jobs, encrypted storage pieces और verification tasks। Success किसी pretty Exa number से नहीं, बल्कि तीन boring metrics से measure होती: $1 electricity cost पर पूरे हुए jobs, error और repeat rate, hardware wear के बाद payout।

सबसे कठिन part compensation होगा। User electricity, heat और hardware wear pay करता है। इसलिए उसे कुछ वापस चाहिए। शायद सच में token या credit चाहिए। लेकिन speculation object के रूप में नहीं, infrastructure balance के रूप में।

ऐसा Compute Credit किसी real चीज के लिए खड़ा होना चाहिए: किसी class की GPU minute, GB-month storage, verified inference, batch embedding unit या kWh-equivalent compute unit। जो resources देता है, credits earn करता है। जिसे बाद में खुद AI power चाहिए, वह उन्हें use करता है। जो कुछ consume नहीं करना चाहता, वह उन्हें fiat में cash out कर सकता है, जैसे virtual power plant में कोई “Powerwall Coins” में paid नहीं होना चाहता, बल्कि real money या clear credit चाहता है।

इससे pricing question magically solve नहीं होता। Stability को anchor चाहिए: fiat billing, energy price corridors, regional clearing houses, cooperative tariffs या regulated operators। Governance के बिना “stable credits” जल्दी ही free-floating token बन जाते हैं। और तब वही पुरानी समस्या लौटती है: infrastructure casino जैसा महसूस होने लगता है।

और भी important है operating rights का सवाल। हमें हर बड़ा foundation model खुद train करने की जरूरत नहीं। शायद models, open weights या model families खरीदे या license किए जाएं और फिर decentralized, federated और regionally controlled रूप में operate किए जाएं। Actual sovereignty तब केवल training में नहीं, operations में होगी: models कहां चलते हैं? Data कहां रहता है? कौन audit कर सकता है? Provider को back channel है? अगर politics, prices या terms बदलें, तो क्या मैं model locally continue कर सकता हूं?

ताकि यह केवल एक सुंदर purchase contract न रहे, ऐसी licenses में real operating rights होने होंगे: local deployments, long-term update and security promises, traceable model cards, auditability, clear exit rights और sensitive data को central manufacturer cloud में वापस धकेलने की कोई मजबूरी नहीं। यह pure decentralized utopia नहीं होगी। लेकिन naive self-sufficiency और total platform lock-in के बीच realistic रास्ता होगी।

वह रात जब devices compute करते हैं

कल्पना करो, रात के 22:43 हैं। GPU वाला तुम्हारा desktop idle है, NAS online है, phone charge हो रहा है। Settings में तुमने तय किया है: maximum 80 watts, केवल idle में, केवल region के checked workloads के लिए और तभी जब compensation electricity costs plus hardware flat rate cover करे।

Local agent free capacity report करता है। तुम्हारे नाम से नहीं और तुम्हारे private data से नहीं, बल्कि certain capabilities वाले attested node के रूप में। Cell छोटे jobs distribute करती है: simulations, embeddings, encrypted storage pieces, verification tasks।

सुबह वहां कोई rocket नहीं, कोई Wall Street story नहीं, कोई hype token नहीं। सिर्फ एक sober line:

आज रात: 2,4 GPU-Credits अर्जित, 18 GB-months storage पुष्टि, $0.31 बिजली लागत अनुमानित।

बाद में तुम इन credits को अपने documents पर local model के लिए use करते हो। Sensitive data तुम्हारे पास रहता है। तुम सिर्फ customer नहीं हो। तुम participant हो।

यह romantic लगता है। हां। लेकिन कभी-कभी यही वजह होती है कि एक कठिन engineering problem को serious लिया जाए।

Swarm और पहाड़

मुझे नहीं लगता कि central data centers गायब हो जाएंगे। वे बहुत efficient हैं, बहुत important हैं और कुछ tasks के लिए simply necessary हैं। पहाड़ रहेगा। सवाल सिर्फ यह है कि क्या हम उसके बगल में फिर जमीन बनाते हैं।

Local devices, regional cells, open protocols, stable credits और clear security models की जमीन। ऐसी जमीन जहाँ compute power सिर्फ ऊपर से नीचे sold नहीं होती, बल्कि participants के बीच flow करती है। ऐसी जमीन जहाँ certain AI work वहीं चलती है जहाँ उसे belong करना चाहिए: private work locally, regional work regionally, global edge cases data center में।

शायद यह naive है। शायद नहीं। Virtual power plants भी कभी अजीब idea थे: हजारों small batteries as one large network। Decentralized money लंबे समय तक absurd लगा। Cars जो autonomous taxi की तरह चलें, science fiction लगती थीं। इसमें से सब कुछ promises के अनुसार नहीं आएगा। लेकिन direction clear है: resources जो पहले passive खड़े रहते थे, increasingly larger system के हिस्से के रूप में सोचे जा रहे हैं।

अभी हर जगह unused machines खड़ी हैं। Apartments, offices, garages, server rooms और pockets में। हर एक equally suitable नहीं। हर एक को कभी foreign work execute नहीं करना चाहिए। लेकिन कई पहले से मौजूद हैं, paid हैं और networked हैं। और हर unused second गायब हो जाता है।

शायद हमें उन्हें सुनना शुरू करना चाहिए।

अगली बार तक,
आपका Joe

स्रोत