طیبہ فاطمہ
محفلین
میں اردو کے لیئے سٹیمر کے سافٹ وئیر پر کام کر رہی ہوں جس کے لئے مجھے اردو کے مکمل حروفِ اصلی اور تمام سابقوں اور لاحقوں کی فہرست کی ضرورت ہے، اس سلسلے میں مدد درکار ہے۔
میرا خیال ہے انھیں الفاظِ اصلی کہہ سکتے ہیں۔حروفِ اصلی سے مراد 'روٹ ورڈز' یا 'سٹیم ورڈز' ہے۔ اور سٹیمر دیئے گئے الفاظ میں سے سٹیم یا روٹ نکالنے کے لئے ہے۔ جسے:
'صفات' میں 'صفت'
'اشکال' میں 'شکل'
'لطائف' میں 'لطیفہ'
ابھی تک تو کچھ مواد نہیں مل سکا۔ ۴۰۰۰ الفاظ اپنی مدد آپ کے تحت اکٹھے کئے ہیں۔ جو لوگ کام کر چکے ہیں وہ شیئر کرنے کو تیار نہیں۔میرا خیال ہے انھیں الفاظِ اصلی کہہ سکتے ہیں۔
جہاں تک میں سمجھا ہوں آپ ان الفاظِ اصلی کی مدد سے اردو کے دیگر الفاظ بنانے والا سافٹ ویئر بنانے کی کوشش کر رہی ہیں۔ بہت زبردست کام ہے!
امید ہے کہیں نہ کہیں سے اس سلسلے میں کچھ مواد مل جائے گا
اور ہاں اردو محفل میں خوش آمدید
نہایت مفید کام کرنے کی ٹھانی ہے اس کی کامیابی کے لئے دعائیں۔ اس سلسلے میں شائد میں آپ کی کچھ چیزوں میں مدد کر سکتا ہوں۔ کچھ فرصت ملے تو ایک تفصیلی پوسٹ لکھوں گا۔
پس نوشت: درج زیل ریسرچ پیپر آپ کے لئے کافی مفید ثابت ہو سکتا ہے:
Assas-Band, an affix-exception-list based Urdu stemmer
اسی پیپر کی بنیاد پر بنی اپلیکیشن اور الفاظ کی فہرستیں اس لنک پر موجود ہیں:
Urdu stemmer Assas-band
سب سے پہلے تو یہ بتا دوں کہ میں اردو انسائکلوپیڈیا والی لغت استعمال کرتا ہوں الفاظ تلاش کرنے کے لئے۔ اس میں واحد اور جمع الفاط دئیے گئے ہیں تو ان سب کو لغت میں شامل کیا گیا ہے۔
لغت میں الفاظ عام طور پر مصادر کی شکل میں یعنی 'کھانا'، 'پینا'، وغیرہ۔ اگر کوئی 'کھا'، 'پی' یا پھر 'کھایا'، 'پیا' لکھے گا تو یہ الفاظ لغت میں نہیں ملیں گے۔ اس کے لئے میں نے کچھ لاحقوں کی لسٹ بنائی ہے جو کہ عام طور پر استعمال ہوتے ہیں
اس لسٹ میں سے اگر کچھ لاحقے ملیں گے، تو پروگرام ان لاحقوں کو الفاظ کے آخر میں سے ہٹا دے گا اور پھر ڈکشنری میں وہ لفظ تلاش کرے گا، اس کے علاوہ اس لفظ کی کچھ اور شکلیں تلاش کرے گا۔ اس طرح سے اس لٖفظ کا روٹ اس کو مل جائے گا۔
ذیل میں لاحقوں کو لسٹ کیا ہوا ہے اور الفاظ کی مختلف شکلیں بنانے کے طریقے بھی درج ہیں ہر ایک لاحقے کے لئے۔
1۔ 'ں'
نون غنہ اگر کسی لفظ کے آخر میں آئے تو اس لفظ میں نون غنہ کو 'ن' سے تبدیل کر کے ڈکشنری میں تلاش کریں۔ مثالیں: مہماں، قرآں، ایراں، وغیرہ
2۔ اضافت: 'ئے'
آخر میں 'ئے' آئے تو لاحقے کو ہٹا کر باقی لفظ کو تلاش کریں، آخر میں 'نا' لگا کر تلاش کریں۔ مثالیں:کوئے، جوئے، کھائے (اگرچہ کھائے اضافت نہیں لیکن اس کا لاحقہ اصافت والے کیس سے ملتا جلتا ہے)
3- 'تا'،'تے'،'تی'،تیں'،'نا'،'نے''نی'،'ئیں'،'ا'،'ی'،'ے'،'و'،'ہ'،'ان'،'ئی'
ان سب کیسز میں لاحقے ہٹا کر لفظ تلاش کرنا ہے اور لاحقے ہٹا کر 'نا' لگانے کے بعد لفظ تلاش کرنا ہے۔ مثالیں: 'کھا'،'کھاتا'،'کھائیں'،'کھانے'، وغیرہ
4۔ 'ات'،'یات'،'ئیات'
اس میں تین طرح کی شکلیں بنتی ہیں:
ا: لاحقہ ہٹا دینے سے۔ مثالیں: 'تصورات' سے 'ات' ہٹا کر یعنی 'تصور'
ب: لاحقہ ہٹا کر آخر میں 'ہ' لگا دینے سے۔ مثالیں: 'نظریات' سے 'نظریہ'، 'کلیات' سے 'کلیہ'، وغیرہ
ج: آخر سے پہلے والا حرف ہٹا دینے سے۔ مثالیں: 'آیات' سے 'آیت'، 'صفات' سے 'صفت'، وغیرہ
5: 'وں'، 'اں'، 'ایں'
اس میں چار شکلیں بنتی ہیں:
ا: لاحقہ ہٹا دینے سے۔ مثال: 'لڑکیاں' سے 'لڑکی'
ب: لاحقہ ہٹا کر 'ہ' کا اضافہ کرنے سے۔ مثال: 'رستوں' سے 'رستہ'
ج: لاحقہ ہٹا کر 'ا' لگا دینے سے۔ مثال: 'سودوں' سے 'سودا'
د: لاحقہ ہٹا کر آخر میں 'نا' لگانے سے: 'دکھاوں' سے 'دکھانا'
یہ سب تو الفاظ کی مختلف شکلیں، جمع وغیرہ بنانے کے اصول ہو گئے۔ کچھ لاحقے بھی ہیں جو کہ کافی استعمال ہوتے ہیں۔ مثلاً 'ستان'۔ گلستان، شبنمستان جیسے الفاظ میں۔
چونکہ میری اپلیکیشن الفاظ کے وزن نکالتی ہے نہ کہ سپیل چیکر ہے تو ایسے لاحقے بھی میں الفاظ کی فہرست میں شامل کر دیتا ہوں۔ اور پھر یہ چیک کرتا ہوں کہ کوئی لفظ کمپاونڈ ورڈ تو نہیں ہے، یعنی دو الفاظ سے مل کر تو نہیں بنا۔ اس سے ایسے الفاظ کا بھی معلوم ہو جاتا ہے جو لوگوں نے غلطی سے سپیس کے بغیر ٹائپ کئے ہوتے ہیں۔
اس طرح کے لاحقوں کی فہرست اس پیپر میں موجود ہے جس کا میں نے اوپر ایک پوسٹ میں ذکر کیا تھا۔ نمونے کے طور پر اس فہرست میں سے چند سابقے اور لاحقے یہاں لکھ لیتا ہوں:
سابقے:
نا، پا، برائے، بازی، انڈر، نو، ادا، روئے، گراں، دل، باد، غم، گلو، شہ، نیل، صد، مابعد، بد، دم، ابو، ام، اشک، ناز، تنگ، بن، برائے، روبہ، آن، پر، غیر، تہ، مے، صاحب، بال، قبل، خرد، ظالع، آرام۔
لاحقے:
سوزی، نمائی، نفسی، انگیزی، نامی، تھانی، دلی، پوشی، بیانی، برادری، اتی، خوری، نگاہی، چاری، سنجی، فشانی، آرائی، رنگی، فروشی، سرائی، گردانی، رسانی، پروری، آمیزی، نشینی، ستانی، آزاری، گردی، بندی، آفرینی، سوز، آمیز، گرافر، اندوز، آموز، نواز، راز، پرداز، گاہی، دست، نامے، خانے، کدے، بندی، پروریاں، نوازیاں، نوازیوں، خیزیوں، گاہئیں، نوازیاں، بیانیاں، فشانیاں، اندوزوں، بریوں، گوئیوں، تراشیاں، نگیں، سراؤں، کاریوں، ریزیوں
قواعد کی مدد سے مادہ اخذ کرنا بہت جوکھم کا کام ہوگا اور کئی دفعہ ایک قاعدہ دوسرے قاعدے کو منسوخ کرے گا لہذا ان کے واقع ہونے کی ترتیب بدلنی ہوگی یا بعد قواعد کو زیادہ تخصیص کے ساتھ لکھنا پڑ جائے گا۔ اس سارے کام کے لیے آپ کو ایک اچھا ٹیسٹ سیٹ درکار ہوگا اور یہ یقینی بنانا ہوگا کہ نیا قاعدہ شامل کرنے پر پرانے ٹیسٹ کیسیز فیل نہیں ہو رہے۔جہاں تک طریقہ کار کی بات ہے تو میں نے الفاظ کا جائزہ لے کر قواعد مرتب کئے ہیں۔