نمرہ
محفلین
پہلا پیپر جو مجھے پڑھنے کا اتفاق ہوا:کیا آپ لٹریچر سروے کا آغاز کر سکتی ہیں۔ اگر ڈھونڈ سکیں تو اردو، عربی، فارسی کے او سی آر پر کی گئی تحقیق کے متعلق معلومات اکٹھی کر کے شیئر کریں۔
1۔ ایک عربی او سی آر۔ انھوں نے شروع میں ہی یقینی کریکٹر سگمنٹ بنانے سے جان چھڑا لی ہے۔ ایک خصوصیت جو انھوں نے نوٹ کی ہے وہ یہ ہے کہ ہر لفظ کے آخری حرف کا آخری کرو ایک بائیں سے دائیں افقی لائن ہے یا ایک عمودی کرو۔ اس طرح یہ پہچان لیتے ہیں کہ کسی لفظ کا آخری حرف ، اسی لفظ میں موجود کسی دوسرے کریکٹر کے ساتھ overlap کر رہا ہے ( جیسے 'مغ' میں غ کا کچھ حصہ م کے نیچے بھی آ تا ہے)۔ یہ کافی چالاکی دکھائی ہے انھوں نے۔ یہاں ہمیں شاید یہ مسئلہ ہو کہ نستعلیق میں آخری حرف کی آخری سٹروک سیدھی بھی آ سکتی ہے (سچے) اور کروڈ بھی (مع)۔
یہ لفظ کے ورڈ سگمنٹ بناتے ہیں ، جیسے مداخل سے 'مد ' ، 'ا' اور 'خل' ۔ پھر کریکٹر الگ الگ کرنے کے لیے کسی امین کاا لگوردم لگا کر کنیکٹویٹی پوائنٹ نکالتے ہیں اور اس کے بعد سی ڈی پی ۔
ایج ڈیٹیکشن کے بعد یہ contour ڈھونڈتے ہیں۔ پھر باہر والی باؤنڈری کے چین کوڈ نکالتے ہیں ( جو میرے خیال میں کافی اچھا آئیڈیا ہے)۔ اس سے اگلا مرحلہ کلاسیفیکیشن کا ہے اور اچھے fsm کوڈرز کی طرح انھوں نے نیکسٹ سٹیٹ اور آؤٹ پٹ فنکشن الگ الگ رکھے ہیں۔ کلاسیفائی بھی یہ چین کوڈز کی بنیاد پر ہی کرتے ہیں۔ مزید اس میں فیڈ بیک بھی ہے اور اور یہ پہلا tentative کریکٹر لے کر ڈیٹا بیس میں ڈھونڈتے ہیں، اگر نہیں ملتا تو اگلا فریگمنٹ بھی ساتھ جوڑ کر دوبارہ ڈھونڈتے ہیں۔ یہ ایک، دو ، تین یا زیادہ ٹکڑے ساتھ جوڑ کر حرف کی تلاش کرنا ، کریکٹر سگمنٹ بنانے کا متبادل ہے۔
ایک حرف کے لیے دائیں سے بائیں اور بائیں سے دائیں باری باری تلاش کرتے ہیں۔ شاید اوورلیپ کا مسئلہ بھی اسی سے حل ہوتا ہو۔
ڈیٹا بیس میں ان کے کوئی سو کے قریب اشکال ہیں ، یعنی عربی کے ہر حرف کی ہر ممکنہ پوزیشن کے لیے، جس سے میچنگ کی جاتی ہے۔
نتائج ان کے متاثر کن دکھائی دیتے ہیں خاص طور پر جبکہ یہ رئیل ٹائم کا دعوی کر رہے ہیں۔ لیکن یہ کانویکس ڈومینینٹ پوائنٹس پر کافی بھروسہ کر رہے ہیں تو شاید یہ چیز نسخ کے لیے تو ٹھیک ہے جو کافی angular ہے مگر نستعلیق کے لیے اتنی کارآمد نہ ہو ۔ یہاں دوبارہ انتباہ ضروری ہے کہ فانٹس کے بارے میں میری رائے ایک اناڑی کی رائے ہے۔ چین کوڈز البتہ ہم شاید استعمال کر سکیں، مگر وہ بھی نسخ میں کافی آسان ہیں ۔
پیپر میں تصویریں کافی کارآمد ہیں سمجھنے کے لیے۔