Sort Program

SortProgram.exe नाम का एक नया सॉफ्टवेयर रोमन लिपि में लिखित संस्कृत शब्दकोषों में मनचाहे शब्दों या अक्षर-समूहों को खोजकर उनके अनुसार नए फाइल बनाने के लिए मैंने तैयार किया है (यद्यपि चीनी लिपि के सिवा सभी लिपियों के लिए यह सॉफ्टवेयर कारगर है)|
उदाहरणार्थ, संस्कृत-अंग्रेजी में सबसे अच्छा शब्दकोष सर मोनिएर विलियम्स का है, जिसे टेक्स्ट फाइल के रूप में डिजिटाइज़ करके इन्टरनेट पर जर्मनी के एक विश्वविद्यालय ने उपलब्ध कराया है ( mw_orig.txt ), उसमें "cl." को खोजने पर सारे क्रियापद (root या धातु) नए फाइल में संगृहीत हो जायेंगे | फाइल का नाम और स्ट्रिंग जैसा चाहे वैसा कर सकते हैं | स्ट्रिंग की लम्बाई अधिकतम 65535 अक्षरों की हो सकती है, यद्यपि इतने लम्बे स्ट्रिंग की कभी आवश्यकता नहीं पड़ेगी |

मूल फाइल कोई टेक्स्ट फाइल ही हो यह आवश्यक नहीं है, यद्यपि यह प्रोग्राम टेक्स्ट फाइल के लिए ही बनाया गया है | यदि किसी दूसरे फॉर्मेट के फाइल पर कार्य करना हो तो नए आउटपुट फाइल का एक्सटेंशन ".txt से बदलकर उस फॉर्मेट के अनुसार कर दें और एक्स्ट्रा-लाइन वाला आप्शन न चुने, तब फॉर्मेट ज्यों का त्यों रहेगा |
मूल फाइल में पचास लाख से अधिक अलग-अलग लाइन हो तो यह प्रोग्राम कार्य नहीं करेगा, यद्यपि यह सीमा बढ़ाकर चार अरब लाइन तक की जा सकती है, अर्थात सैकड़ों GB का एक ही फाइल (जो सम्भव नहीं है) | मेरे लैपटॉप में एक सेकंड में लगभग 15 MB का मूल फाइल सॉर्ट हो जाता है, अर्थात लगभग एक लाख लाइन प्रति सेकंड से अधिक की गति है |
इन्टरनेट पर सर्वर से वायरस की संभावना exe फाइल में अक्सर हो जाती है, अतः एक्सटेंसन "kkk" रखकर अपलोड किया है, डाउनलोड करने के बाद उसे "exe" के रूप में rename कर लें और run करें | प्रोग्राम कैसे कार्य करेगा यह उसी में लिखा है |

संस्कृत धातुओं के दस "वर्ग" (class) होते हैं, जिन्हें उक्त शब्दकोष में "cl." दिखाया गया है | यदि "cl." के स्थान पर "mfn" स्ट्रिंग खोजेंगे तो ऐसे सभी संज्ञा-पदों की फाइल बन जायेगी जिनके तीनों लिंग होते हैं — उक्त शब्दकोष में ऐसे 62027 संज्ञा हैं | यदि केवल "mf" खोजेंगे तो 73810 शब्द मिलेंगे | इन शब्दों के अर्थसहित पूरे पैराग्राफ नए फाइल में आ जायेंगे | केवल पुल्लिंग शब्दों की सूची चाहिए तो स्ट्रिंग "m." होना चाहिए, केवल स्त्रीलिंग के लिए "f." | मूल फाइल की संरचना का ज्ञान हो तो इस सॉफ्टवेयर द्वारा कई अजूबे सम्भव हैं |

इस सॉफ्टवेयर से क्या-क्या सम्भव है यह पूरी तरह से दिखाना सम्भव नहीं | कुछ उदाहरण दे रहा हूँ
मोनिएर विलियम्स के उपरोक्त mw_orig.txt शब्दकोष से कुछ उदाहरण प्रस्तुत हैं :-
स्ट्रिंग यदि ‹¯R.› चुनेंगे तो वाल्मीकि रामायण से कुल 8232 शब्दों की सूची बन जायेगी जिनका इस शब्दकोष में अर्थसहित उल्लेख है | वाल्मीकि रामायण पर अनुसंधान में यह कार्य देगा |
स्ट्रिंग यदि 0{pari चुनेंगे तो ऐसे सभी 2022 शब्दों की सूची बन जायेगी जिनके आरम्भ में "परि-" उपसर्ग है | स्ट्रिंग के आरम्भ में "0" नहीं देंगे तो पैराग्राफ के बीच में पड़ने वाले ऐसे शब्द भी सूची में चले आयेंगे |
यदि स्ट्रिंग ‹¯RV.› है तो ऋग्वेद से लिए गए सभी 7856 शब्दों की सूची बन जायेगी !
महाभारत से इस शब्दकोष में कुल 20141 शब्द आये हैं जिन्हें चुनने के लिए स्ट्रिंग ‹¯MBh.› चाहिए |
आयुर्वेद के ग्रन्थ सुश्रुत संहिता (‹¯Sus3r.›) से 5452 शब्द हैं |
शुक्ल यजुर्वेद की वाजसनेयी संहिता से 2215 शब्द हैं (‹¯VS.›)|
श्रीमद्-भगवत-पुराण ( BhP. ) से 8044 उद्धरण हैं |
S3iva ("शिव") के 2077 उद्धरण हैं |
मनुस्मृति ( Mn. ) से 7002 उद्धरण हैं |
शब्दकोष में पृथक पैराग्राफ कुल 30034 हैं जिनका स्ट्रिंग है <H1> अर्थात "प्रथम Header" |
इसी प्रकार शिवराम वामन आप्टे के Practical Sanskrit English Dictionary के डिजिटल फाइल ap90_orig.txt को जर्मन वेबसाइट से डाउनलोड करें और उसकी संरचना को समझने के बाद समुचित स्ट्रिंग का प्रयोग करें | उदाहरणार्थ, उसमें स्ट्रिंग "Den." चुनने पर सारे 392 Denominative शब्द आ जायेंगे | उस शब्द को Denominative कहते हैं जो संज्ञा नहीं हैं किन्तु संज्ञा से बनते हैं और वर्तनी (स्पेल्लिंग) भी संज्ञा वाली ही रहती है, जैसे कि अंग्रेजी क्रिया "To mushroom" |
मेरा यह प्रोग्राम सारे किस्म के फाइल खोल सकता है, किन्तु सभी फाइलों को जाँच नहीं सकते हैं | उदाहरणार्थ, Monlam Grand Tibetan Dictinary.exe खुल तो जाएगा, उसमें से कुछ भी खोज नहीं पाइयेगा क्योंकि वह किसी मानवीय भाषा में नहीं है बल्कि executable प्रोग्राम की भाषा में है | महेश योगी जी के वेबसाइट पर संस्कृत का विशाल भण्डार है, किन्तु उनलोगों ने जानबूझकर अपने गोपनीय फॉण्ट में इस तरह से टाइप किया है कि उसे किसी दूसरे प्रोग्राम में पढ़ना सम्भव नहीं है, केवल PDF फाइल के रूप में उसे पढ़ सकते हैं |
गणितीय सारिणियाँ, वर्षा के आँकड़े, आदि के लिए भी इस प्रोग्राम का प्रयोग सम्भव है, बशर्ते फॉर्मेट सही हो |
भारतीय वाङ्गमय के लिए ही नहीं, किसी भी भाषा के ग्रन्थ हेतु यह सॉफ्टवेयर कारगर है जो तीन शर्तें पूरी करें — (1) कम्प्यूटर पर टाइप किया हुआ फाइल हो, अर्थात डिजिटल ग्रन्थ हो, (2) उसके भीतर की वस्तु अलग-अलग पंक्तियों (लाइन) में हो, अर्थात पूरा ग्रन्थ एक ही लाइन में नहीं हो, और (3) जिस फॉण्ट में टाइप किया गया है वह सामान्य कीबोर्ड वाला फॉण्ट हो, चीनी भाषा की तरह स्पेशल चिह्नों वाला फॉण्ट न हो | केवल साहित्यिक ही नहीं, गणितीय सारिणियाँ आदि हेतु भी यह सॉफ्टवेयर कारगर है |

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-Noncommercial 2.5 License.