Table of Contents
|
ESPCN : Image Super-Resolution using an Efficient Sub-Pixel CNN
१७८ X २१८ के लो रिजॉल्यूशन में img_align_celeba नाम का एक विश्वप्रसिद्ध डैटाबेस है जिसमें संसार के २०२५९९ प्रसिद्ध व्यक्तियों के रङ्गीन छायाचित्र हैं । ये चित्र लो रिजॉल्यूशन में बनाये गये क्योंकि इस डैटाबेस का उद्देश्य था लोगों की पहचान करने वाला कृत्रिम बुद्धि प्रोग्राम बनाने के लिए डैटाबेस प्रदान करना । इस डैटाबेस का आकार १⋅३ GB है । इसमें भारतीयों अथवा उन जैसे दिखने वालों की संख्या लगभग ५% है,जिनमें से आरम्भिक ६७८ चित्रों का सङ्कलन करके अन्य डैटाबेस में जोड़कर १७५५ चित्रों का संग्रह मैंने बनाया । अन्य १०७७ चित्र 4K से भी अधिक वाले थे,उनको घटाकर २०४० X २०४० पिक्सेल के 3K में मैंने बदला,और कृत्रिम बुद्धि के एक प्रोग्राम द्वारा img_align_celeba के लो रिजॉल्यूशन चित्रों का रिजॉल्यूशन १६ X १६ बढ़ाकर और फिर ffmpeg द्वारा घटाकर २०४० X २०४० में बदला । तब २०४० X २०४० ( =2040p) में १७५५ चित्रों का संग्रह तैयार हुआ । तत्पश्चात ffmpeg के hflip फिल्टर द्वारा उसे क्षैतिज पलट दिया ताकि उन्हीं चेहरों के पलटे हुए नये चित्र बने,इसे डैटा ऑगमेण्टेशन कहते हैं । तब जाकर ३५१० उच्च गुणवत्ता वाले 3K चित्रों का डैटाबेस बना । 1K X 2K डिजिटल चित्र को 2K कहा जाता है,और 2K X 4K को 4K कहते हैं । अतः 2K X 2K को लगभग 3K कह सकते हैं ।
तब ffmpeg द्वारा उन्हीं चित्रों को १६ गुणा छोटा किया और फिर ४ गुणा बड़ा किया । परिणामतः जो चित्र बने वे 2040p से आकार में ४ गुणा छोटे थे किन्तु वास्तविक डैटा पिक्सेलों की संख्या लम्बाई में १६ गुणा तथा चौड़ाई में १६ गुणा न्यून थी । इस प्रकार दो प्रकार के डैटाबेस बने जिनको क्रमशः trainHR एवं trainLR फोल्डरों में रखा । trainHR में 2040p वाले ३५१० हाई रिजॉल्यूशन तथा trainLR में 510p वाले ३५१० लो रिजॉल्यूशन चित्रों को रखा । तब इन चित्रों की ट्रेनिंग की । trainLR में जानबूझकर चित्रों को घटिया बनाया ताकि घटिया चित्रों को भी उत्तम बनाने वाला ट्रेण्ड मॉडल तैयार हो सके ।
कृत्रिम बुद्धि की जिस पद्धति द्वारा यह ट्रेनिंग मैंने की उसकी समूची प्रक्रिया मैंने 4GB के GPU वाले लैपटॉप पर की और ट्रेनिंग भी लैपटॉप पर ही जाँच ली । प्रसिद्ध KERAS कृत्रिम बुद्धि प्रणाली के वेबसाइट https://keras.io/examples/vision/super_resolution_sub_pixel/ पर Image Super-Resolution using an Efficient Sub-Pixel CNN नाम से इस प्रोग्राम का कोड मिलेगा । किन्तु वह केवल सीखने के लिए है,उस वैज्ञानिक महोदय ने जानबूझकर इस तरह प्रोग्राम बनाया है कि आप अपने किसी चित्र की गुणवत्ता तबतक न बढ़ा सकें जबतक आप उस वैज्ञानिक की तरह विशेषज्ञ न बन जायें । ये लोग केवल विशेषज्ञों के लिए ही ट्यूटोरियल क्यों लिखते हैं?जिनको पहले से ही सबकुछ आता है वे इनके साइट पर क्या सीखने जायेंगे?जिनको सीखना है उनके लिए जानबूढकर प्रोग्राम को अनबूझ क्यों बना देते हैं?इसका उत्तर है बड़ी कम्पनियों का दवाब,जो चाहतीं है कि समूचा ब्रह्माण्ड उनकी मुट्ठी में रहे और उनकी अनुमति के बिना संसार में किसी को कोई ज्ञान न मिले । यह ‘‘ज्ञान का व्यापार” है!सनातन धर्मशास्त्र में ‘‘ज्ञान का व्यापार” करने वालों को “चाण्डाल” कहा गया है । खण्डकालचक्र के अन्तिम भाग में कलियुग के अन्तिम खण्ड जैसे लक्षण रहते हैं,जब विश्व पर चाण्डालों और पिशाचों का प्रभुत्व रहता है ।
KERAS वेबसाइट के ESPCN की खामियाँ
KERAS के उक्त वेबसाइट पर जो प्रोग्राम है उसकी निम्न खामियाँ हैं —
१⋅
ट्रेनिंग हेतु जो HR डैटाबेस है वह ऑनलाइन वेबसाइट द्वारा प्रोग्राम लेता है,अतः आप केवल नेट की सहायता से ही प्रोग्राम चला सकते हैं,ऑफलाइन प्रोग्राम कार्य ही नहीं करेगा ।
२⋅
अतः ऑनलाइन जो डैटा आयेगा उसमं आप कोइ परिवर्तन नहीं कर सकते,जिस कारण आप अपने मनचाहे चित्रों पर इस प्रोग्राम का प्रयोग नहीं कर सकते ।
३⋅
ऑनलाइन HR डैटा वाले चित्र 321 X 481 पिक्सेल के हैं,अतः उनको HR कहना ही गलत है,वे लो रिजॉल्यूशन के ही हैं । अतः यह प्रोग्राम लो को हाई में नहीं बदलता ।
४⋅
उक्त तथाकथित HR चित्र को पहले यह प्रोग्राम काटकर 300 X 300 पिक्सेल में बदलता है और इसको HR के तौर पर मॉडल में डालता है । प्रोग्राम के अन्दर ही इन चित्रों को 100 X 100 पिक्सेल में बदल कर उनको LR के तौर पर मॉडल में डाला जाता है । तब इन LR को प्रोग्राम द्वारा ३ गुणा बढ़ाकर सुपर रिजॉल्यूशन SR में बदला जाता है । कोई भी कृत्रिम बुद्धि प्रोग्राम १००% सफल नहीं होती,१००% भी सफल हो तो इनपुट HR के बराबर ही आउटपुट SR होगा!व्यवहार में इनपुट से कुछ घटिया ही आउटपुट होगा!यह प्रोग्राम सुपर रिजॉल्यूशन के बदले अच्छे चित्र को घटिया ही बनाता है!वास्तविक SR तकनीक बड़ी कम्पनियाँ अपने पास रखना चाहती हैं और उन वैज्ञानिकों का कैरियर बिगाड़ देती हैं जो इन तकनीकों को आम जनता तक पँहुचायें । केवल उन तकनीकों पर छूट है जिनसे फिलहाल बड़ी कम्पनियों को मुनाफा मिलने की सम्भावना नहीं है!
५⋅
उक्त प्रोग्राम का आउटपुट भी इस प्रकार मिलेगा कि आप अपना सिर खुजलाते रहेंगे । आउटपुट से वर्णनात्मक अंशों को हटाकर विशुद्ध चित्र कैसे निकालें इसकी तकनीक आपको सीखनी पड़ेगी ।
६⋅
लैपटॉप को जलने से बचाने के लिये एक विशिष्ट प्रोग्राम आपको जोड़ना पड़ेगा,वरना ४ लाख रूपये से अधिक वाले डेस्टटॉप पर ही यह प्रोग्राम चल सकेगा,अन्यथा गूगल वा अमेजन के कोलाब जैसे साइटों पर ही प्रोग्राम चला सकेंगे,अपने कम्प्यूटर पर नहीं ।
७⋅
प्रोग्राम के मॉडल की संरचना अत्यन्त सरल है जिसमें परिवर्तन करने पर ही प्रोग्राम अच्छा परिणाम दे सकेगा । इसके लिए इम्पोर्ट में भी अतिरिक्त पायथन लाइब्रेरी जोड़नी पड़ेगी ।
८⋅
नेट से घटिया HR लाने के बदले अपने कम्प्यूटर पर ही अच्छी गुणवत्ता वाले चित्रों को तैयार करके trainHR में रखना और उनके ही LR संस्करणों को बनाकर trainLR में रखना सबके बूते की बात नहीं है । ३५१० HR एवं ३५१० LR चित्रों का संग्रह PNG फॉर्मेट में अत्यन्त विशाल हो गया,अतः उनको JPG में बदलने पर कुल संग्रह का आकार ७१४ MB का बना । शेष प्रोग्राम का आकार इसकी तुलना में नगण्य है । ६७८ चित्र img_align_celeba ऑनलाइन संग्रह से मैंने लिए जो पब्लिक डोमेन में फ्री हैं । शेष सारे चित्र भी “फ्री उपयोग” वाले वेबसाइटों से मैंने लिए । किन्तु उन अन्य चित्रों में केवल चेहरे वाले अंश को निकालने के लिए मुझे एक−एक चित्र पर श्रम करना पड़ा । श्रम इसलिए किया क्योंकि उनमें से अधिकांश चित्र 4K से भी दो वा तीन गुणा बेहतर थे,अतः चेहरे के अंश छोटे भी थे तो छाँटकर लेने के पश्चात भी अच्छी गुणवत्ता के थे । परन्तु img_align_celeba वाले चित्र 3K से भी लगभग ९ गुणे न्यून पिक्सेल वाले थे,अतः उन सबको कृत्रिम बुद्धि के सॉफ्टवेयर द्वारा १६ गुणा बढ़ाकर फिर घटाया ताकि 2040p के 3K चित्र मिल सकें ।
२०४० X २०४० वाले इन चित्रों की ट्रेनिंग द्वारा जो मॉडल बनता है उसका उपयोग २७० X ४८० वा ३६० X ४८० पिक्सेल वाली पुरानी फिल्म को १०८० X १९२० पिक्सेल वाले स्टैण्डर्ड फार्मेट के HD मूवी में बदलने के लिए प्रयुक्त कर सकते हैं । इस प्रकार केरस के वेबसाइट पर जो अनुपयोगी प्रोग्राम है उसे उपयोगी बनाने की विधि मैंने अपने कोड और डैटाबेस में दी है ।
मेरे ESPCN प्रोग्राम की तीन कोटियाँ
उक्त प्रोग्राम को तीन कोटियों में मैंने बाँटा है ।
प्रथम का नाम है ESPCN_321,जिसमें KERAS वेबसाइट वाले डैटाबेस के ३२१ X ४८१ पिक्सेल वाले आकार में ही ३ गुणा बढ़ाने वाला SR प्रोग्राम और डैटाबेस है,किन्तु KERAS वेबसाइट की तरह अनुपयोगी नहीं है — यह प्रोग्राम १०० पिक्सेल के इनपुट चित्र को वास्तव में ३०० पिक्सेल का बनाकर देगा और विशुद्ध चित्र के फॉर्मेट में देगा जिसका आप उपयोग कर सकेंगे । यह प्रोग्राम उन कम्प्यूटरों पर भी चलेगा जिनमें डेडिकेटेड GPU नहीं है ।
दूसरे का नाम है ESPCN_1050 जो <=३४०p को १०२०p में तीन गुणा बढ़ाने वाला SR प्रोग्राम और डैटाबेस है ।
तीसरे का नाम है ESPCN_2040 जो <=५००p को २०००p में चार गुणा बढ़ाने वाला SR प्रोग्राम और डैटाबेस है । लैपटॉप को ठण्डा रखने का उपाय न भी हो तो इसके train.py फाइल में एक वाक्य बदलकर आप लैपटॉप को गर्म होने से बचा सकते हैं,किन्तु तब ट्रेनिंग में कुछ समय अधिक लगेगा । उपयोगी मॉडल बनाने में साढ़े चार लाख रूपये वाले RTX3090 के डेस्कटॉप पर भी इस प्रोग्राम को कई घण्टे लगते हैं । लैपटॉप ट्रेनिंग में लगाकर आप आराम से सो सकते हैं,किन्तु लैपटॉप को पॉवर मिलता रहे ।
उक्त तीनों संस्करण वितरण हेतु तैयार हैं किन्तु जबतक यूजर मैनुअल न बना लूँ तबतक अपलोड करना एचित नहीं होगा ।
SRGAN : सुपर रिजॉल्यूशन जनरेटिव एडवर्सियल नेटवर्क
इससे बेहतर तकनीक वाला SRGAN प्रोग्राम भी वितरण हेतु तैयार है किन्तु उसका वितरण करना ठीक होगा वा नहीं यह मैं तय नहीं कर पा रहा हूँ,क्योंकि RTX3090 के डेस्कटॉप पर भी उसे कम से कम ९० घण्टे लगते हैं जिसके लिए शक्तिशाली बैटरियाँ चाहिये वरना बिजली कटेगी तो ७५० वॉट के इस RTX3090 के डेस्कटॉप को ट्रेनिंग पूरी होने से पहले ही बन्द करना पड़ेगा । RTX3090 के डेस्कटॉप दुर्लभ हैं,अतः इस प्रोग्राम का वितरण करने पर केवल गूगल कोलाब वा AWS पर ही आप उपयोग कर सकेंगे,अपने कम्प्यूटर पर नहीं । तब प्रोग्राम के कोड और डैटाबेस की चोरी होगी । चोरी से क्षति यही है कि कोई बड़ी कम्पनी उसपर कॉपीराइट कराकर आपको और मुझे प्रोग्राम का प्रयोग करने से रोक सकेगी । अभी भी मेरे प्रोग्रामों की चोरी के प्रयास हर दिन होते रहते हैं,जिस कारण अपने यूजर अकाउण्ट वाला फोल्डर मैं हर देन जाँचता रहता हूँ और python.history का फोल्डर देखते ही डिलीट करता हूँ । SRGAN प्रोग्राम वितरण तभी उचित होगा जब आप RTX3090 के डेस्कटॉप पर ट्रेनिंग करें और ट्रेनिंग करते समय नेट बन्द रखें ताकि कोड की चोरी न हो ।
सुपर रिजॉल्यूशन की गुणवत्ता
फिलहाल जिस ESPCN प्रोग्राम का वितरण करने का मैंने निर्णय लिया है वह SRGAN से कुछ अल्प गुणवत्ता का है किन्तु लो रिजॉल्यूशन को वस्तुतः हाई रिजॉल्यूशन में बदलता है । इसका अर्थ यह है कि जब आप फोटोशॉप जैसे किसी सॉफ्टवेयर में किसी फोटो को बड़े आकार में बदलते हैं तो उसे बाइक्यूबिक रिसैम्पलिंग कहते हैं जिसमें यदि चार गुणा आकार बढ़ायें तो लम्बाई में ४ गुणा और चौड़ाई में ४ गुणा पिक्सेल बढ़ेंगे,उन १६ पिक्सेलों में से केवल एक में डैटा रहेगा और १५ रिक्त रहेंगे जिस कारण आकार बढ़ाने पर फोटो धुँधला दिखेगा ।
ffmpeg के super2xsai फिल्टर का प्रयोग करेंगे तो एक बार में दो गुणा बढ़ायेगा और रिक्त पिक्सेलों में बगल वाले पिक्सेल का डैटा लाकर भर देगा,जिस कारण बड़ा करने पर भी चित्र वा वीडियो धुँधला नहीं दिखेगा ।
super2xsai इतना तीव्रगति वाला फिल्टर है कि मैं टीवी सेटअप बॉक्स से ८०० रूपये के USB कार्ड में SD चैनल को लाकर उसे लैपटॉप में super2xsai द्वारा HD बनाकर देखता था (आज ढूँढा तो अमेजन पर ५८० रू⋅ में पाया= https://www.amazon.in/s?k=Microware+USB+2.0+Video+Capture+Cards%2C+HDMI+to+USB+Video+Capture+Card+USB+2.0+1080P+HD+Recorder+Game%2FVideo%2FLive+Broadcasting+Facebook+Streaming+Video+Recording&crid=3ER2Z5PP5MA26&sprefix=microware+usb+2.0+video+capture+cards%2C+hdmi+to+usb+video+capture+card+usb+2.0+1080p+hd+recorder+game%2Fvideo%2Flive+broadcasting+facebook+streaming+video+recording%2Caps%2C499&ref=nb_sb_noss )। किन्तु यह वास्तविक HD नहीं है,आभासीय HD है क्योंकि super2xsai बगल के पिक्सेल की कॉपी करके रिक्त पेक्सेल को भरता है । एक ही कमाण्ड में super2xsai को दुहरा देंगे तो चार गुणा आकार बढ़ेगा परन्तु गति धीमी पड़ जायगी । super2xsai को डायरेक्ट शो (dshow) में कैसे प्रयुक्त करें इसका वर्णन मैंने अपने स्मार्ट वीडियो स्टुडियो सॉफ्टवेयर पर लेख में किया था ।
बाइक्यूबिक (bicubic) एवं super2xsai की तुलना में कृत्रिम बुद्धि का ESPCN अथवा SRGAN सचमुच SR सुपर रिजॉल्यूशन करता है,क्योंकि यह प्रोग्राम फोटो को बड़ा करने पर अतिरिक्त पिक्सेलों में न तो रिक्तियाँ रहने देता है और न ही बगल से डैटा लाता है,बल्कि नवीन डैटा भरता है । super2xsai जब बगल से डैटा लाता है तो यदि बगल में भी धुँधलापन है तो वहाँ से धुँधलापन ही लायेगा । अतः मूल चित्र धुँधला हो वा बेहतर,जैसा है वैसा ही बड़ा करने पर भी दिखेगा । super2xsai से लाभ यह है कि सीधे बड़ा (bicubic) करने पर अच्छा चित्र भी धुँधला बन जाता है,जबकि super2xsai द्वारा बड़ा करने पर अच्छा चित्र अच्छा दिखेगा और धुँधला चित्र जैसा है वैसा दिखेगा । परन्तु कृत्रिम बुद्धि का SR प्रोग्राम सहस्रों चित्रों की ट्रेनिंग द्वारा “सीखता” है कि मनुष्य की मूँछ कैसी होनी चाहिये और यदि इनपुट फोटो में मूँछ के बाल अस्पष्ट हों तो उन्हें स्पष्ट दिखने योग्य बना देगा — बशर्ते मॉडल की ट्रेनिंग सही तरीके से और सही डैटाबेस पर हुई हो ।
बुद्धि : वास्तविक बनाम कृत्रिम
“सीखने” की इस क्षमता के कारण ही AI के लिए “बुद्धि” शब्द का प्रयोग किया जाता है ।
ऐसे खतरनाक अन−सुपरवाइज्ड AI प्रोग्राम बन चुके हैं जो मेरे कम्प्यूटर से मेरी बौद्धिक सम्पदा की चुपचाप चोरी करके बहुराष्ट्रीय कम्पनियों को भेजती हैं । उन कम्पनियों से घूस खाने वाले माननीय लोग हर देश में ऊँचे पदों पर हैं,आप चिल्ल−पों मचायेंगे तो पागल सिद्ध कर दिये जायेंगे । डायनासॉरों का राज है जो हर वस्तु पर पूर्ण नियन्त्रण चाहते हैं । डायनासॉर भूल जाते हैं कि जैसे ही डायनासॉरों का वर्चस्व पूर्णतया स्थापित हो जाता है,उसी क्षण से उनका एक्सटिंक्शन आरम्भ हो जाता है;क्योंकि हर प्राणी के अन्दर जो वास्तविक in-telligent है वह एक है,वही एक है जो सहस्रशीर्षा बनकर सहस्रों कोटि के प्राणियों,ग्रहों,पर्वतों,नदियों आदि के अन्दर छुपा बैठा है । वही एक है जो सबको कर्मों के अनुसार फल देता है । जीव कितना भी बड़ा माननीय क्यों न हो,स्वयं के लिए अपने कर्म का फल निर्धारित नहीं कर सकता,वरना हर पापी स्वयं को पापकर्म का शुभफल ही देने लगेगा!
ESPCN प्रोग्राम का यूजर मैनुअल तैयार करने के पश्चात ही पूरे प्रोग्राम के सारे संस्करणों को अपलोड करूँगा । जो लोग इसका प्रयोग करना सीख लेंगे वे अपनी आवश्यकता के अनुसार नया डैटाबेस बनाकर नये विषयवस्तु के अनुरूप इसका प्रयोग कर सकेंगे । जो लोग और भी आगे बढ़ना चाहेंगे वे इण्टरनेट के ट्यूटोरियलों से सीखकर इस प्रोग्राम के कोड में परिवर्तन करके Conv1D,Conv3D आदि वाले प्रोग्राम भी बना सकेंगे । SRGAN तथा उसके परिमार्जित संस्करण ESRGAN का आधार भी मुख्यतः Conv2D ही है । Conv2D का आधार इण्टेग्रल कैलकुलस की “कॉनवॉल्यूशन” प्रक्रिया है जिसका एक प्रयोग ffmpeg के कॉनवॉल्यूशन फिल्टर में भी है । कॉनवॉल्यूशन का गणित अनेक क्षेत्रों में काम देता है । इसकी पूरक डि−कॉनवॉल्यूशन प्रक्रिया भी अस्पष्ट कैमरा−चित्र को स्पष्ट बनाने में काम देती है ।
“बुद्धि” के तीन प्रकार
“बुद्धि” के तीन प्रकार हैं ।
पहला प्रकार है ESPCN प्रोग्राम जैसी सुपरवाइज्ड बुद्धि जिसमें प्रोग्राम स्वयं तय नहीं कर सकता कि किस प्रकार सीखे । प्रोग्राम लकीर का फकीर रहता है,जितना सिखाया गया है उससे आगे प्रोग्राम की बुद्धि कार्य नहीं करती । वास्तविक जीवन में ऐसा मनुष्य मिले तो उसे हम “बुद्धू” कहते हैं । अतः ESPCN “बुद्धू” प्रोग्राम है । परन्तु वास्तविक जीवन में “बुद्धू” भी बड़े−बड़े कार्य कर सकते हैं जो नोबल पुरस्कार पाने वाले भी नहीं कर सकते,जैसे कि सुपरवाइजर अच्छा हो तो “बुद्धू” ताजमहल बना सकते हैं जो बिचारा आइंसटाइन भी नहीं कर सकेगा । सुपरवाइजर अच्छा हो तो सुपरवाइज्ड ESPCN प्रोग्राम बड़े काम की चीज है । ESPCN प्रोग्राम का जो संस्करण मैं वितरित करने वाला हूँ उसमें आपको बना−बनाया सुपरवाइजर मिलेगा,केवल डैटाबेस बनाना और बदलना सीख लेंगे तो संसार के किसी भी प्रकार के चित्रों को LR से SR में बदलना सीख लेंगे । फिलहाल चेहरों के डैटाबेस सहित ESPCN प्रोग्राम वितरित करूँगा,किन्तु सीखने के पश्चात आप चाहें तो चेहरों के स्थान पर प्राकृतिक दृश्यों अथवा घरों वा पशुओं के चित्रों के डैटाबेस बनाकर अलग−अलग मॉडल बना सकते हैं और अच्छा मॉडल बन जाय तो एक−दूसरे को बाँट सकते हैं — जो मेरी फीस है । ऐसी प्रोग्रामिंग सीख लेंगे तो कुछ ही फेरबदल करके चित्रों को “पहचानने” वाला अथवा लिखित अक्षरों की पहचान (OCR) करने वाला प्रोग्राम भी बना सकते हैं,और यदि Conv2D पर आधारित ESPCN को Conv1D में बदलना सीख लें तो एकविमीय आँकड़े वाले डैटाबेस पर आधारित विविध प्रकार के सांख्यिकी सम्बन्धी भविष्यवाणी के प्रोग्राम बना सकेंगे,और यदि Conv3D में बदलना सीख लें तो त्रिविमीय घनाकार 3D वीडियो के प्रोग्राम भी बना सकेंगे जिनका प्रयोग ऑटो−पॉयलट से लेकर ब्रेन−ट्यूमर वा कोराना वायरस की पहचान में हो भी रहा है । ऑटो−पॉयलट के ऐसे “बुद्धू” प्रोग्राम को व्यवहारिक प्रयोग की अनुमति नहीं है क्योंकि प्रोग्राम ९९⋅९% सही परिणाम दे तो भी शेष ०⋅१% भी आपकी कार को खाई में गिरा सकता है!अथवा ब्रह्मोस को शत्रु पर गिराने की बजाय अपने ही देश पर गिरा सकता है,अतः ब्रह्मोस को कृत्रिम बुद्धि के बदले कलाम साहब वाली नैनो तकनीक की गायडेन्स प्रणाली चाहिये जो फिलहाल रूस और भारत के सिवा अन्य किसी देश के पास नहीं है ।
दूसरा प्रकार है अन−सुपरवाइज्ड बुद्धि,जिसमें कृत्रिम बुद्धि का प्रोग्राम अचानक आने वाली नवीन परिस्थिति के अनुसार “लर्निंग” के पैरामीटरों को बदलकर पुनः स्वचालित ट्रेनिंग करके मॉडल बनाता है । डार्विन के अनुसार नयी परिस्थिति के अनुसार जो स्वयं को ढाल सके वही “बुद्धिमान” है और “fit for survival” है । अतः ऐसे कृत्रिम बुद्धि प्रोग्राम को “बुद्धिमान” प्रोग्राम कह सकते हैं । ऐसे प्रोग्राम के कई प्रकार हैं । SRGAN उसका आरम्भिक प्रकार है जिसमें आरम्भिक चरण में पहले से दिया हुआ सुपरवाइज्ड लर्निंग रेट कार्य करता है किन्तु डिस्क्रिमिनेटर न्यूरल नेटवर्क जब देखता है कि डैटाबेस के अनुरूप परिणाम नहीं आ रहा है तो लर्निंग रेट को सुधारकर जनरेटर न्यूरल नेटवर्क पुनः ट्रेनिंग करता है,और डिस्क्रिमिनेटर न्यूरल नेटवर्क उसमें पुनः खामी ढूँढकर लर्निंग रेट में तबतक सुधार कराता रहता है जबतक जनरेटर न्यूरल नेटवर्क द्वारा डिस्क्रिमिनेटर को यह विश्वास न दिलाया जाय कि LR को सुधारकर बनाया गया जनरेटेड SR कृत्रिम चित्र वास्तव में मूल HR चित्र जैसा ही है ।
SRGAN प्रोाग्राम पूर्णतया “बुद्धिमान” नहीं है,वरना ब्रह्माण्ड के हर विषय में नवीन परिस्थिति के अनुसार स्वतः निर्णय लेने की मानवीय क्षमता इसमें होती । एक कुत्ता भी संसार के श्रेष्ठतम सुपर कम्प्यूटर की अपेक्षा अधिक बुद्धिमान है,क्योंकि कुत्ता “सोच” सकता है कि जान पर सङ्कट आ पड़े तो परिस्थिति के अनुसार क्या करना चाहिए और क्या नहीं करना चाहिए । श्रेष्ठतम सुपर कम्प्यूटर की क्षमता मानव मस्तिष्क से सौ गुणी न्यून है ऐसा वैज्ञानिकों का मानना है । किन्तु ये सारे नास्तिक वैज्ञानिक हैं,जो “बुद्धि” की सही परिभाषा नहीं जानते ।
“बुद्धि” की सही परिभाषा
“बुद्धि” की सही परिभाषा यह नहीं है कि बाह्य संसार से जो कुछ सीखा जाय केवल उसी को “ज्ञान” कहते हैं और उसी ज्ञान के डैटाबेस के आधार पर सारे निर्णय लें । इसे intelligence के बदले extelligence कहेंगे । मूर्ख से मूर्ख जीव भी इतना मूर्ख नहीं होता,क्योंकि तब अप्रत्याशित नवीन परिस्थिति आने पर वह सही निर्णय लेने में असमर्थ होकर “fit for survival” नहीं रहेगा ।
“बुद्धि” की सही परिभाषा यह है कि बाह्य संसार से कुछ भी सीधे नहीं सीखा जाय,बल्कि बाह्य संसार से जो कुछ भी इनपुट आ रहा है उसे in में बैठै हुए tell करने वाले के निर्देशानुसार जाँचने के बाद ही कोई निर्णय लिया जाय ।
in में बैठकर in-tuition पढ़ाने वाला वह वास्तविक intelligent कौन है यह नास्तिक विद्याओं से बाहर का विषय है ।
परन्तु २०१२ ई⋅ के पश्चात नास्तिक वैज्ञानिकों ने भी देखा कि बाह्य संसार की अनुकृति पर आधारित विशालकाय World Model प्रोग्राम भी सही अर्थों में कृत्रिम बुद्धि नहीं है क्योंकि वह कितना ही विशाल और सूझबूझ वाला क्यों न हो,केवल एक प्रोग्राम है । बुद्धि कृत्रिम हो वा जीवन्त,उसे “बुद्धि” केवल तभी माना जा सकता है जब उसमें नवीन परिस्थिति के अनुरूप नवीन निर्णय लेने की स्वचालित अन−सुपरवाइज्ड क्षमता हो,बिना किसी सुपरवाइजर प्रोग्रामर के ।
बुद्धि का यह तीसरा प्रकार ही वास्तविक बुद्धि है जो स्वयं जड़ है और चैतन्य आत्मतत्व के गुप्त निर्देशों के अनुसार कार्य करती है । यदि यह जड़ बुद्धि आत्मतत्व पर हावी हो तो वह प्राणी अज्ञानी है और बारम्बार संसार में जन्म लेता और मरता है । बुद्धि आत्मा के अधीन कार्य करने लगे तो उसे सद्बुद्धि कहते हैं ।
२०१२ ई⋅ के पश्चात नास्तिक वैज्ञानिकों ने पाया कि विशालकाय World Model प्रोग्राम की तुलना में छोटा सा Mind Model प्रोग्राम ही बेहतर परिणाम देता है । अतः प्रोग्राम में World को भरने की बजाय मानव बुद्धि की नकल करने पर अनुसन्धान होने लगे । यह धारा २०१२ ई⋅ से बहुत पहले से बह रही थी किन्तु व्यवहारिक रूप से २०१२ ई⋅ के पश्चात ही वैज्ञानिकों पर हावी हुई । तब से जीवविज्ञान,विशेषतया न्यूरोलॉजी,मनोविज्ञान,उच्च गणित,आदि के सम्मिलित सहयोग से नये अनुसन्धान होने लगे । २०१२ ई⋅ से पहले ऐसे विचार हवा में तैर रहे थे किन्तु उनको प्रयोग में लाने योग्य शक्तिशाली डेडिकेटेड GPU बने ही नहीं थे । मनोविज्ञान का एक उदाहरण यह है कि किसी चित्र की फिजिक्स क्या कहती है केवल उसका ही महत्व नहीं रहा,अब कृत्रिम बुद्धि के प्रोग्रामों में इसका भी अत्यधिक महत्व है कि वह चित्र मानव मन को “प्रतीत” कैसी होती है!“चित्र”,“शब्द”,आदि की परिभाषाओं पर उच्च स्तर की पाठ्यपुस्तकों में भी जो काल्पनिक बकवासें थी अब उनको भी कृत्रिम बुद्धि के व्यावहारिक अनुभव से लाभ उठाकर सुधारा जाने लगा है ।
वैज्ञानिक भाषा का अभाव
कृत्रिम बुद्धि के क्षेत्र में एक खामी है । म्लेच्छ भाषाओं का वर्चस्व होने के कारण “सांख्यिक” पद्धति का इस क्षेत्र में बोलबाला है,एकमात्र वैज्ञानिक भाषा संस्कृत का महत्व अभी वैज्ञानिकों के पल्ले नहीं पड़ेगा क्योंकि इसे वे ब्राह्मणों की लुप्तप्रायः मज़हबी भाषा मान रहे हैं । संस्कृत केवल भाषा ही नहीं है,चित्र को “चयन” (चि) करने के साधन “चि+त्र” का अर्थ भी बताने वाली रहस्यमय प्रणाली है जिसे समस्त कृत्रिम एवं वास्तविक बौद्धिक प्रणालियों की लाइब्रेरियों के मूल में रहने का नैसर्गिक अधिकार है जिससे वह कलियुग में वञ्चित है — नैसर्गिक अधिकार इस कारण है कि संसार के सम्पूर्ण इतिहास में संस्कृत एकमात्र ऐसी भाषा है जो शत−प्रतिशत वैज्ञानिक व्याकरण द्वारा निदेशित है और रञ्चमात्र भी मनमानापन इसमें नहीं है । संस्कृत में ऐसा कहीं नहीं मिलेगा कि लाइट से दूर भागने पर डि−लाइट मिले,अथवा सम्यक् भ्रान्त पूर्ण पागल को सम्भ्रान्त कहें!
कुछ उपयोग
चन्द्रमा से लेकर हृदय की कोशिकाओं के छायाचित्रों को स्पष्ट बनाने के लिए भी कृत्रिम बुद्धि का उपयोग होता है । केरस वेबसाइट पर कोरोना वायरस की पहचान करने वाला Conv3D प्रोग्राम मिलेगा ।
══════════════════
अमरीका की पुलिस सभी ज्ञात अपराधियों के छायाचित्र रखती है और कहीं से नये अपराध की सूचना मिलती है तो उस स्थान के आसपास के कैमरों से प्राप्त धुँधले चित्रों को सुपर रिजॉल्यूशन द्वारा परिमार्जित करके अपराधी को पहचानने में सहायता लेती है ।
भारत की पुलिस अभी केवल राज्य सरकारों की सेवा में ही रत है । इसमें पुलिस की गलती नहीं है,गलती सरकारों की है,क्योंकि पुलिस राज्य सरकारों के अधीन है । संविधान में संशोधन करके राष्ट्रीय आरक्षी आयोग बनाना चाहिए ताकि एक दरोगा भी भ्रष्ट मुख्यमन्त्री को पकड़कर न्यायालय में लेकर जा सके ।