اردو او سی آر پر کام

arifkarim

معطل
کمپیوٹر سے جنریٹ کئے گئے الفاظ اور ترسیموں سے لے کر مختلف کتب کے صفحات کے سکین تاکہ بتدریج او سی آر کو آسان سے مشکل کام کرایا جا سکے
شکریہ زیک ۔آپ عموماً بہت مختصر بات کرتے ہیں۔ ہم چاہتے ہیں کہ تھوڑا تفصیل سے لکھیں کہ آپکا او سی آر پلان کیا ہے، تاکہ ہمیں بھی کچھ آئیڈیا ہو کہ آگے کیا کرنا ہے؟ نوری نستعلیق ترسیمہ جات کے امیجزجنریٹ ہو گئے ہیں، الفاظ بھی ہو جائیں گے۔ اسکے بعد کیا پہیا نئے سرے سے ایجاد کرنا ہوگا یا پہلے سے موجود مختلف تکنیکس اور الگوردھمز کو بروئے کار لاتے ہوئے اس ڈیٹا پر او سی آر ٹیسٹ کیا جائے گا؟
آئی ٹی کی فیلڈ میں آنے سے قبل ہم نے کالج سے 3D Model and Design کے کچھ کورس کئے تھے۔ وہاں ہمیں یہ باور کروایا گیا تھا کہ جب تک کسی ماڈل کا اندرونی ڈھانچہ پوری طرح مکمل نہ ہو جائے اس کی دیواروں پر آپ لاکھ ویژل ایفیکٹس ڈال دیں، آپ کی دال نہیں گلے گی۔ مطلب ابھی ہی سے بے تحاشا اسکین ڈیٹا جمع کرنے کی بجائے اگر ہم صرف نوری نستعلیق کی بنیاد یعنی اسکے ترسیمہ جات کو تختہ مشق بنا لیں۔ اور اسوقت تک ان پر تجربات جاری رکھیں جب تک 98-99 فیصد درستگی کیساتھ متن تلاش نہیں ہوجاتا،تو یقیناً یہ ایک بڑی کامیابی ہوگی۔
یہ میں اس لئے کہہ رہا ہوں کیونکہ اب تک جو نوری نستعلیق پر مبنی تجرباتی نوعیت کے او سی آرز منظر عام پر آئے ہیں، ان سب میں بنیادی نقص یہی ہے کہ اسکین شدہ متن تو درکنار، اگر آپ کمپیوٹر جنریٹڈ متن بھی اعلیٰ امیج کوالٹی میں اسکے حوالے کر دیں تو یہ گھٹنے ٹیک دیتے ہیں۔ مطلب ان سب کی ساخت بہت کمزور ہے جسے طاقت ور بنائے بغیر آگے بڑھنا جلد بازی ہوگی اور مستقبل میں ساری محنت کے ضائع ہونے کا اندیشہ بھی ۔
 

زیک

مسافر
خاکسار درج ذیل کوالٹی کے ترسیمہ جات الگ الگ امیج بمع صوتی نام کے فراہم کر سکتا ہے:
Jameel%20Noori%20Nastaleeq.png

زیک ابن سعید نبیل کیا اتنی امیج کوالٹی کافی ہوگی؟
سکین امیج کی ریزولوشن کیا ہونی چاہیے۔
300 ڈی پی آئی پر 12 سے 24 پوائنٹ فونٹ سائز ٹھیک رہے گا
 
مدیر کی آخری تدوین:

زیک

مسافر
نستعلیق متن کی سیگمینٹیشن کیسے کی جاتی ہے۔
لائن سیگمینٹیشن کے لیے
ہسٹو گرام
اور
لیگیچر سیگمینٹیشن کے لیے
Connected Component Labeling Algorithm
استعمال کیا جاتا ہے۔

دیکھیے:صفحہ 39-42
Satti, D.A. Offline Urdu Nastaliq OCR for Printed Text using Analytical Approach, Department of Computer Science Quaid-i-Azam University Islamabad, Pakistan, 2013.​

تحقیقی مقالہ شیئر کرنے کا شکریہ! دوست نے ایک دفعہ ملاقات میں بتایا تھا کہ ادارہ CRULP کے ڈاکٹر سرمد حسین صاحب اس سلسلہ میں کافی کام کر چکے ہیں۔ ادارے کی ویب سائٹ سے اس ضمن میں تین تحقیقی مقالوں کے روابط ملے ہیں جہاں مختلف انداز میں متن کے سیگمنٹس بنانے کا طریقہ وضع کیا گیا ہے:
http://www.cle.org.pk/Publication/theses/2010/OCRMUAZ.pdf
http://www.cle.org.pk/Publication/theses/2009/misbahtheses.pdf
http://www.cle.org.pk/Publication/theses/2007/OCRSOBIA.pdf
مزید:
http://www.cle.org.pk/research/theses.htm

سی ایل ای کا آنلائن او سی آر کافی حد تک مکمل نظام ہے۔ یہاں سے پتا چل رہا ہے کہ پراجیکٹ مکمل کر کے دے دیا گیا ہے 2014 میں۔
اس کا امیج کارپس بھی دستیاب ہے۔ لیکن یہ مفت نہیں ہے۔ نان کمرشل استعمال کے لیے فری کا بیان تو موجوو ہے لیکن پروسینگ فیس کا ذکر بھی ہے۔ اب یہ فیس کتنی ہے آیا پندرہ ہزار (جیسا کہ ہر آئٹم کی قیمت بحوالہ پاکستان 150 ڈالر ہے) یا کتنی؟
اگر یہ امیج ڈیٹا دستیاب ہو جائے تو کسی بھی او سی ار سسٹم کو ٹرین کروانا بہت ہی آسان ہو سکتا ہے۔ میں نے مارچ میں ڈاکٹر سرمد کی ایک پریزنٹیشن میں ان کے مختلف کاموں کے ساتھ اس کا تعارف بھی دیکھا تھا۔ وہ کشتیوں اور نقطوں کو الگ الگ مختلف رنگوں میں رنگتے ہیں اور پھر تیسرے مرحلے میں ہر نقطہ کشتی کے ساتھ ملا کر پروسیس کیا جاتا ہے۔ مجھے یاد پڑ رہا ہے کشتی کا منسلکہ نقطہ بالکل الٹ رنگ میں رنگا ہوا تھا جس کے بعد کمپیوٹر نے ان میں ربط پیدا کرنا تھا۔ یہ میرا خیال ہینڈ ٹیگڈ تصاویر تھیں۔ یعنی ٹریننگ امیج کارپس۔
اگر ایک ورک فلو بن جائے تو اس کے لیے ٹریننگ ڈیٹا کی فراہمی ہم ان ترسیموں سے کر لیں۔ یا پھر سی ایل ای سے بات کر لی جائے؟ اگر یہ ٹریننگ ڈیٹا یہ لینا ہے تو چندہ کر کے بھی لیا جا سکتا ہے۔ کیا خیال ہے آ پ کا؟
یہاں میں ذکر کرتا چلوں کہ میری یونیورسٹی (جامعہ گجرات) اور سی ایل ای کی یونیورسٹی (یو ای ٹی لاہور) میں ایک ایم او یو سائن ہو رہا ہے (یا ہو چکا ہے) جس کے ذریعے دونوں ادارے مرکز السنہ و علوم ترجمہ اور مرکز تحقیقات لسانیات مل کر کچھ منصوبوں پر کام کا ارادہ رکھتے ہیں۔ لیکن میرے خیال میں یہ کام شاید مشینی ترجمہ کے ذیل میں ہو گا زیادہ تر۔ خیر جو بھی ہوا وہ تو ادارہ جاتی سطح کا معاملہ ہے۔ یہاںمیں نے ذاتی حیثیت میں ٹریننگ ڈیٹا کے حوالے سے تجویز پیش کی ہے۔ چونکہ اردو او سی آر جو آزاد اور مفت ہو آج کی سب سے بڑی ضرورت ہے۔ اداروں کو تو کہیں نا کہیں سے کچھ مل ہی جاتا ہے لیکن صارفین بہت عرصے تک منتظر رہتے ہیں۔ اب شاید وقت آ گیا ہے کہ سنجیدگی سے ایک عام صارف کے کمپیوٹر پر اردو او سی آر مہیا کرنے پر کام کیا جائے۔

لٹریچر سروے کی بھی ضرورت ہے کہ کونسے نستعلیق اور نسخ او سی آر سسٹم دستیاب ہیں اور کیسے اور کتنا کام کرتے ہیں۔ کیا تکنیک استعمال کی گئی ہے اور کیسے ڈیٹا سیٹ حاصل کئے جا سکتے ہیں۔
 

زیک

مسافر
اس کا امیج کارپس بھی دستیاب ہے۔ لیکن یہ مفت نہیں ہے۔ نان کمرشل استعمال کے لیے فری کا بیان تو موجوو ہے لیکن پروسینگ فیس کا ذکر بھی ہے۔ اب یہ فیس کتنی ہے آیا پندرہ ہزار (جیسا کہ ہر آئٹم کی قیمت بحوالہ پاکستان 150 ڈالر ہے) یا کتنی؟
ان کا ڈیٹا سیٹ استعمال کرنے سے کئی آسانیاں ہوں گی مگر ایک سیٹ 250 ڈالر کا ہے۔ یہ زیادہ نہیں مگر اگر کئی سیٹ (مثلا مختلف فونٹ سائز) لینے ہوں تو قیمت کافی بڑھ جاتی ہے۔
 

زیک

مسافر
شاکر، میں نے اس او سی آر پر ہر ممکن سافٹوئیر سے نوری نستعلیق متن میں صفحہ اسکین کر کے اپلوڈ کیا ہے، یہاں تک کے خود ٹائپ کر کے اسکا امیج بنا کر بھی ٹرائی کیا ہے پر یہ ہر بار فیل ہوجاتا ہے۔ درج ذیل تصویر عام کورل ڈرا میں لکھا گیا متن ہے۔ اگر یہ اسکو بھی پڑھ نہیں سکتا تو اسکا کیا فائدہ؟
ocr.jpg
یہ کونسا فونٹ ہے؟ فونٹ سائز کیا ہے؟ کیا آپ نے او سی آر پیج پر صحیح فونت سائز منتخب کیا تھا؟
 
مدیر کی آخری تدوین:

زیک

مسافر
مدیر کی آخری تدوین:

arifkarim

معطل
یہ کونسا فونٹ ہے؟ فونٹ سائز کیا ہے؟ کیا آپ نے او سی آر پیج پر صحیح فونت سائز منتخب کیا تھا؟
فونٹ: جمیل نوری نستعلیق
فونٹ سائز: 36
گو کہ اس سے کم سائز پر بھی مختلف سطور لکھ کر اسکی امیج بنا کر اپلوڈ کیا تھا پر نتیجہ وہی صفر۔

کل ترسیمے کتنے ہیں؟ کیا ان کی اہمیت اور frequency کے حساب سے کوئی فہرست دستیاب ہے CLE کے علاوہ؟
کل ترسیمے 25000 کے قریب ہیں۔ جمیل نوری نستعلیق اور انپیج کے نوری نستعلیق میں یہی ترسیمے استعمال ہوئے ہیں اور انکی بدولت آپ 99 فیصد اردو زبان کے الفاظ تحریر کر سکتے ہیں۔ مطلب ایک قابل استعمال او سی آر تخلیق کرنے کیلئے ان سب کا بصری ڈیٹا شامل کرنا ضروری ہے۔ کرلپ والوں نے محض 5000 ترسیموں کا انتخاب کیا ہے کہ جو عام اردو تحاریر کیلئے ناکافی ہے۔ انکے مطابق اردو زبان میں ایک، ڈیڑھ لاکھ کے لگ بھگ الفاظ ہیں جو کہ سراسر غلط ہے۔
ہمار ے ایک عزیز دوست اور محفلین نعیم سعید صاحب نے مختلف اردو لغات سے منفرد الفاظ کا ذخیرہ جمع کرنا شروع کیا ہوا ہے تاکہ انکی بنیاد پر وہ ترسیمے جو انپیج اور جمیل نوری نستعلیق میں موجود نہیں کی تخلیق کی جا سکے تاکہ 99،9 فیصد اردو تحاریر ترسیموں ہی سے لکھی جا سکے۔ انکے مطابق اردو زبان میں الفاظ کی کُل تعداد کم و بیش 3 لاکھ ہے۔ ایسے میں 5000 کثیرالاستعمال ترسیموں کا ڈیٹا تجرباتی طور پر تو استعمال کیا جا سکتا ہے پر مستقل بنیادوں پر اسے کافی سمجھنا درست نہیں ہوگا۔ میرے خیال میں اگر ہم انپیج کے نستعلیق فانٹ اور جمیل نوری نستعلیق کے تمام ترسیموں کو بنیاد بنا لیں تو 99 فیصد اردو الفاظ کا احاطہ ہو جائے گا۔ بجائے اسکے کہ ہم پہلے محض 5000 ترسیمے استعمال کریں اور بعد میں انکی کمی کو محسوس کرتے ہوئے آہستہ آہستہ انکی تعداد کو بڑھائیں۔ یوں وقت کا ضیاع بھی کم ہوگا اور بنیادی کام زیادہ بہتر ہو سکے گا۔
 

arifkarim

معطل
300 ڈی پی آئی پر 12 سے 24 پوائنٹ فونٹ سائز ٹھیک رہے گا
زیک یہ 24 پوائنٹ پر 300 ڈی پی آئی کی کوالٹی میں جمیل نوری نستعلیق کے 23471 ترسیموں کے امیجز بمع انکے صوتی ناموں کے چیک کر لیں:
http://arifkarim.no/Public/Urdu/Ocr/Jameel_Noori_Nastaleeq_300DPI_24Pt.rar
چند مثالی نمونے:
b430.gif

اگر یہ ترسیمے کسی اور سائز و ریزولوشن میں درکار ہوں تو حکم کریں :)
 
مدیر کی آخری تدوین:

زیک

مسافر
مجھے بنیادی طور پر ایک paper worthy مسئلے کی ضرورت ہے، تو شاید میں اس او سی آر پر کام کرنے کے لیے دستیاب ہوں۔ فانٹس وغیرہ کا کوئی آئیڈیا نہیں البتہ امیج پروسیسنگ میں کام کیا ہوا ہے میں نے اور اوپن سی وی کا بھی تجربہ ہے۔
کیا آپ لٹریچر سروے کا آغاز کر سکتی ہیں۔ اگر ڈھونڈ سکیں تو اردو، عربی، فارسی کے او سی آر پر کی گئی تحقیق کے متعلق معلومات اکٹھی کر کے شیئر کریں۔
 
پیپر سروے کا کام ہم بھی کیے لیتے ہیں۔ پہلے کسی حد تک کام ہو جائے تو ٹیک رپورٹ اور بعد میں باقاعدہ پیپر بھی لکھ لیں گے۔ :) :) :)
 

arifkarim

معطل
ہم نے اس کام کے لیے ایک عدد گٹ ہب ریپوزیٹری ترتیب دی ہے، لہٰذا فائلیں یہاں وہاں بکھیرنے کے بجائے متعلقہ ریپوزیٹری میں پش کر دیں۔ جو لوگ ریپوزیٹری میں رائٹ ایکسس چاہتے ہیں وہ اپنا گٹ ہب اکاؤنٹ بتا دیں۔ :) :) :)
زیک اوپر ترسیموں والا لنک گیٹ ہب پہ ڈال دیا ہے۔ اگر کوئی رد و بدل کرنی ہو تو وہاں جا کر کر سکتے ہیں:
https://github.com/urduweb/UrduOCR/tree/master/Font/Jameel Noori Nastaleeq/Ligatures
 
آخری تدوین:

arifkarim

معطل
زیک ویسے تو آپ کمپیوٹر ویژن پر اتھارٹی رکھتے ہیں البتہ نیٹ گردی کے دوران کچھ ویب سائٹس پر امیج ویژن ایکسپرٹس ، ٹیکسٹ شیپس کی سیگمنٹ بنانے کیلئے convex hull ٹیکنیک استعمال کرنے کا مشورہ دیتے ہیں:
convex_hulls.png
یہ وہی ٹیکنیک ہے جسے ابن سعید بھائی نے نستعلیق ترسیمہ جات کی کرننگ تلاش کرنے کیلئے موزوں قرار دیا تھا۔ اسے عملی طور پر ٹیسٹ کرنے کیلئے ہم نے Matlab میں ایک آزمائشی خاکہ بھی بنایا تھا:
b383.gif
چونکہ ہم اس فیلڈ میں بالکل اناڑی ہیں اسلئے اس سے آگے مزید کچھ کہہ نہیں سکتے کہ کیا بہتر ہے اور کیا نہیں :)
 

زیک

مسافر
زیک ویسے تو آپ کمپیوٹر ویژن پر اتھارٹی رکھتے ہیں البتہ نیٹ گردی کے دوران کچھ ویب سائٹس پر امیج ویژن ایکسپرٹس ، ٹیکسٹ شیپس کی سیگمنٹ بنانے کیلئے convex hull ٹیکنیک استعمال کرنے کا مشورہ دیتے ہیں:
convex_hulls.png
یہ وہی ٹیکنیک ہے جسے ابن سعید بھائی نے نستعلیق ترسیمہ جات کی کرننگ تلاش کرنے کیلئے موزوں قرار دیا تھا۔ اسے عملی طور پر ٹیسٹ کرنے کیلئے ہم نے Matlab میں ایک آزمائشی خاکہ بھی بنایا تھا:
b383.gif
چونکہ ہم اس فیلڈ میں بالکل اناڑی ہیں اسلئے اس سے آگے مزید کچھ کہہ نہیں سکتے کہ کیا بہتر ہے اور کیا نہیں :)
Convex hull اردو کی سطر سے ترسیموں کو الگ الگ کرنے میں بذات خود صحیح کام نہیں کرے گا۔
 

arifkarim

معطل
Convex hull اردو کی سطر سے ترسیموں کو الگ الگ کرنے میں بذات خود صحیح کام نہیں کرے گا۔
کنفرم کرنے کا شکریہ زیک دراصل نستعلیق او سی آر پر متعدد اعلیٰ کوالٹی کے مقالے لکھے جا چکے ہیں پر ان میں موجود ریسرچ کو مستقل عملی بنیادوں پر ایک کامیاب سافٹوئیر کی شکل میں ابھی تک ڈھالا ہی نہیں گیا ہے۔ مجھے نہیں معلوم کہ آیا یہ اسکام کی عملی پیچیدگیوں کی وجہ سے ہوا ہے یا شاید اس قسم کے سافٹوئیرز کی مارکیٹ میں مانگ بہت کم ہےاور قیمت بے حد زیادہ۔ بہرحال، کم از کم عربی ، فارسی، اردو رسم الخط (نسخ) کیلئے کئی پروگرامز موجود ہیں جن میں سے یہ 'Sakhar' سافٹوئیر سر فہرست ہے:
ocr.ht1.jpg

اس کمپنی کا دعویٰ ہے کہ انکا ٹول 99 فیصد عربی -فارسی-اردو نسخ ٹیکسٹ کو تلاش کر سکتا ہے۔ اثبوت کیلئے انہوں نے بہت سے بڑےبین الاقوامی اداروں کو اپنا خریدار بتایا ہے۔
اسکے علاوہ ScanStore کا Readiris ہے۔ یہ عربی اسمیت 130 زبانوں کو اسپورٹ کرتا ہے۔ یہ نہیں معلوم ہو سکا کہ اسکی متن تلاش کرنے کی صلاحیت کیسی ہے؟
14138.imgcache

اسی کمپنی کا ایک اور تیار کردہ او سی آر Abby FineReader ہے جو کہ Readiris کے مقابلہ میں کمزور لگ رہا ہے:
hqdefault.jpg

انکے علاوہ بھی ایک سافٹوئیر ہے Verus کے نام سے جو پہلے صرف حکومتی ایجنسیز کے پاس ہوتا تھا۔ اسمیں بھی عربی-فارسی-اردو نسخ کی اسپورٹ شامل ہے۔ اسکے خالقین کا دعویٰ ہے کہ یہ خراب اور کمزور کوالٹی کی دستاویزات میں سے بھی realtime میں متن تلاش کر سکتا ہے:
ndveru2.jpg
 

موجو

لائبریرین
مجھے اس کام کا کچھ پتہ نہیں ہے مگر سیکھنے کی بہت دلچسپی ہے ۔ کوئی ٹاسک دیا گیا تو ضرور کروں گا
 

الف نظامی

لائبریرین
او سی آر پراسیس

1- پری پراسیسنگ
- سکین امیج بائینرائیزیشن
- نوائز ریموول
- سموتھنگ
- ڈی سکیوئنگ
- سیکنڈری کمپوننٹس ایکسٹریکشن
Secondary components include diacritic marks, dots and other components which are not part of the primary strokes of the text.​

- بیس لاین ڈیٹیکشن
- تھننگ یا سکیلیٹونائزیشن

2- سیگمینٹیشن

3- فیچر ایکسٹریکشن
feature extraction

4- کلاسیفیکیشین اینڈ ریکاگنیشن
Classification & Recognition

مزید تفصیل؛ دیکھیے:صفحہ 10-18
Satti, D.A. Offline Urdu Nastaliq OCR for Printed Text using Analytical Approach, Department of Computer Science Quaid-i-Azam University Islamabad, Pakistan, 2013​
 
Top