'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

فلسفی

محفلین
میری کوشش تھی کہ کوئی آفلائن اوپن سورس لائبریری اس کام کے لیے دستیاب ہوتی۔ (tesseract) کو ٹیسٹ کیا تھا۔ (iron ocr) میں اردو کی سپورٹ موجود نہیں۔ (Apache Tika) یا اور دوسری لائبریریز کو چیک کروں گا اگر کوئی کامیابی ملی تو وہ اس کی بنیاد پر بھی پروگرام میں ردوبدل کیا جاسکتا ہے۔ فی الحال فوری طور پر گوگل والی اے پی آئی ہی بآسانی اور مناسب طور پر دستیاب محسوس ہوئی اس لیے اس کو شامل کردیا۔

سی ایل ای والے پہلے (CRULP) کے نام سے کام کرتے تھے۔ یہ تحقیاتی شعبہ پہلے لاہور کی فاسٹ یونیورسٹی میں موجود تھا جس کی سربراہی غالبا ڈاکٹر سرمد کرتے تھے۔ میں جب گریجویشن سے فارغ ہوا تو اس وقت فونٹ اور اردو او سی آر کا بھوت سوار ہوا تھا۔ اس وقت کرلپ والوں نے تازہ تازہ فونٹ ریلیز کیا تھا۔ جس کی خطاطی کا کام محترم جمیل صاحب جو میرے شیخ (حضرت نفیس شاہ صاحب رحمہ اللہ، استاد الخطاط) کے بھانجے ہیں، نے انجام دیا تھا۔ اس وقت شیخ حیات تھے لیکن عمر رسیدہ، ہم نے شیخ سے بھی فونٹ بنانے کا ذکر کیا تھا، تب شیخ نے بتایا تھا کہ فونٹ کے لیے پہلے بھی کراچی کی کوئی کمپنی (شاید پاک ڈیٹا والے) شیخ کا خطاطی کا کام لے کر گئے تھے لیکن شیخ کے مطابق اس کو نہ ڈھال سکے۔ خیر ان دنوں ہم نے جمیل صاحب سے بھی ملاقات کی اور فاسٹ یونیورسٹی بھی گئے، ڈاکٹر سرمد صاحب سے ملاقات تو نہ ہوسکی البتہ تحقیقی ادارے کا تفصیلی دورہ کیا (جو غالبا اس وقت وہیں کے طالب علم جو فراغت کے بعد اس تحقیقاتی ادارے میں کام کر رہے تھے، نے کروایا، غالبا عاطف نام تھا ان کا)۔ وہیں یہ بات معلوم ہوئی کہ او سی آر پر کام ابھی ابتدائی مرحلے میں ہے۔

اپنا او سی آر بنانے کے لیے یو ای ٹی کی لائبریری تک بھی پہنچے جہاں سے ایک فائنل ائیر کے پروجیکٹ کی کاپی بھی نکلوائی جو اردو او سی آر پر بالکل ابتدائی تحقیق تھی۔ ارادہ یہ تھا کہ اس کی بنیاد پر آگے کام کیا جائے۔ لیکن ۔۔۔۔ آہ
فکرِ معاش نے مجھے برباد کردیا
ورنہ میں ہوتا ایک بڑا مشہور آدمی

فاسٹ یونیورسٹی کے دورے کے دوران ہمارے شیخ سے تعلق رکھنے والے ریاضی کے شعبے کے پروفیسر تھے غالبا ڈاکٹر بلال نام تھا، ان سے ملے تھے تو ان کے الفاظ ابھی بھی یاد ہیں۔ انھوں نے پوچھا تھا کہ یہ کام مشکل ہے تمہارے پاس سرمایہ کتنا ہے۔ ہم (میں اور میرا دوست) ایک دوسرے کی شکل دیکھنے لگے کہ بھائی جیب میں موٹرسائیکل کے پٹرول کے لیے پیسے نہیں آپ سرمائے کی بات کر رہے ہیں۔ انھوں نے کہا کے سرمائے کے بغیر مشکل ہے لیکن خیر اللہ تعالیٰ آپ کی مدد فرمائے۔ پھر وہی ہوا کہ ساری تحقیق دھری کی دھری رہ گئی اور ہم روزگار کی تلاش میں سرگرداں۔

طوالت کے لیے معذرت، اصل میں آپ حضرات کی گفتگو سے کچھ پرانی یادیں تازہ ہو گئیں، اس لیے بھڑاس نکال لی۔ خیر میں دیکھتا ہوں کہ اس ضمن میں مزید کیا بہتری لائی جاسکتی ہے۔

فلسفی دوبارہ ٹیسٹنگ سےیہ بات سامنے آئی ہے کہ امیج ٹو ٹیکسٹ ٹول میں پیج نمبر ٹیکسٹ اصل امیج فائل کا نام ہی رہناچاہئے۔ جبکہ ریختا ڈاؤنلوڈر میں اسے نمبر کیساتھ کر دیں تو بہتر رہے گا۔
جی ان شاءاللہ اگلی ریلیز میں خیال رکھوں گا۔
 

جاسم محمد

محفلین
میری کوشش تھی کہ کوئی آفلائن اوپن سورس لائبریری اس کام کے لیے دستیاب ہوتی۔ (tesseract) کو ٹیسٹ کیا تھا۔ (iron ocr) میں اردو کی سپورٹ موجود نہیں۔ (Apache Tika) یا اور دوسری لائبریریز کو چیک کروں گا اگر کوئی کامیابی ملی تو وہ اس کی بنیاد پر بھی پروگرام میں ردوبدل کیا جاسکتا ہے۔ فی الحال فوری طور پر گوگل والی اے پی آئی ہی بآسانی اور مناسب طور پر دستیاب محسوس ہوئی اس لیے اس کو شامل کردیا۔
میرے خیال میں خالی آف لائن لائبریری سے کام نہیں چلے گا۔ اسے کارآمد بنانے کیلئے بیش بہا ڈیٹا بھی فراہم کرنا ہوگا۔میں نے ٹیسٹنگ کےطور پر بہت سے آف لائن انگریزی او سی آرز چیک کر رکھے ہیں۔ سب میں ہی یہ پریشانی ہے کہ ان کو ڈیٹا خود فیڈ کرنا پڑتا ہے۔ انگریزی کے چونکہ حروف زیادہ نہیں اس لئے یہ کام جلدی ہو جاتا ہے۔ اردو میں یہ کام کیسے ہوگا؟
گوگل کلاؤڈ ویژن کا کم از کم یہ آرام ہے کہ وہ یہ ڈیٹا کلیکشن کا کام بیک اینڈ میں کر چکے ہیں۔ اور آپ کے پروگرام سے اے پی آئی کال کر کے بہترین نہ سہی قابل استعمال نتائج تو حاصل کئے جا سکتے ہیں۔
جی ان شاءاللہ اگلی ریلیز میں خیال رکھوں گا۔
آداب :)
 

فلسفی

محفلین
اردو او سی آر کئی برس سے دستیاب ہے۔ وہ الگ بات ہے کہ اس کا نتیجہ بھی کم و بیش یہی گوگل والا ہے، بیس پچیس ہزار کا سافٹویئر ہے۔ آنلائن سروسز بھی دیتے ہیں یہ سنٹر آف لینگوئج انجینئرنگ والے۔
میں تو خریدنے کے موڈ میں ہوں لیکن

CLE is making these linguistic resources available without cost for supporting academic, non-commercial research.

Only institutional licenses are currently available. Individual licenses are not available at this time

کسی نے خریدا ہے ابھی تک؟
 

MindRoasterMirs

محفلین
کچھ نہ ہونے سے بہتر ہے۔ یہ پہلا ٹول ہے جس میں براہ راست گوگل کی کلاؤڈ ویژن اے پی آئی استعمال کی گئی ہے۔
نیز یہ ان لاتعداد پی ایچ ڈی او سی آر پراجیکٹس سے بہت افضل ہے جو ہر سال ملک کی مختلف یونیورسٹیز سے نکلتے ہیں۔ میڈیا کی زینت بنتے ہیں اور پھر وہیں دفن ہو جاتے ہیں۔
دوسرا
 

MindRoasterMirs

محفلین
میرے خیال میں خالی آف لائن لائبریری سے کام نہیں چلے گا۔ اسے کارآمد بنانے کیلئے بیش بہا ڈیٹا بھی فراہم کرنا ہوگا۔میں نے ٹیسٹنگ کےطور پر بہت سے آف لائن انگریزی او سی آرز چیک کر رکھے ہیں۔ سب میں ہی یہ پریشانی ہے کہ ان کو ڈیٹا خود فیڈ کرنا پڑتا ہے۔ انگریزی کے چونکہ حروف زیادہ نہیں اس لئے یہ کام جلدی ہو جاتا ہے۔ اردو میں یہ کام کیسے ہوگا؟
گوگل کلاؤڈ ویژن کا کم از کم یہ آرام ہے کہ وہ یہ ڈیٹا کلیکشن کا کام بیک اینڈ میں کر چکے ہیں۔ اور آپ کے پروگرام سے اے پی آئی کال کر کے بہترین نہ سہی قابل استعمال نتائج تو حاصل کئے جا سکتے ہیں۔

آداب :)
ہمت مرداں مدد خدا
 

فلسفی

محفلین
"Tesseract" اوپن سورس ہے۔ اس میں اردو اور عربی کی سپورٹ بھی موجود ہے۔ اس کا اردو کا ڈیٹا تقریبا آٹھ ایم بی کا ہے۔ لیکن نتائج ۔۔۔۔ آپ خود ہی دیکھ لیجیے

inputocr.jpg


آئے ہوئے قمام لوگو ں کا شک یہ اداکر تا ہے اور مرحم با ر جوم ہکی رف ے معائیکا
طابگار ہوا ےکہ امہ حیات میں ان ےکوئی می ہو تی ہو۶ دوصحا کر دس اور شدا سے
دعاکمی۔ بر ملس برغاست ہو بی ہے۔ سارے لوگ اپنے اپ ےگھرو ںکی طرف ےہ
جاتے ہیں الہ جمساے اود برادر گی کے لوگ اس مودت کےگھ رپ ےہ جات ہیں جہاں
پر مسا ان کے لیے جا اور اس کے سا تجھ روٹیاں نے آآتے ہیں دہ یی لکی جاک ی
ہیں۔ وہاں پھر فا تمہ خ ای ہوکی ہے۔ اس دوران ہے سارے ر سوم غلیفہ کے ذر یچ ادا
ہو تے ہیں جہاں پر غلیفہ ہر وقت ان کے در میان موجودر بتاے اور جو لوگ فا تم خوالی
کے لیے آآتے ہیں لان کے لیے فا تجہ خوال یکر اما ہے۔

اس کے بعد تین دن کیک ا سکع میں یٹھہ بھی نجس بنا بلنہ تین دن بتک جھسائے کے
لوگی؟ تی کی خو اتین اور رشنہ دار روزانہ تن اد تمات یں جائے اور سالن ور وٹیاں
لات ینں۔ اس کے ماخ بی مر دلوک ھی آ س پاس سے اور دور دراز علاقؤل ے
محریت کے واسے ہت رجے ہیں۔ پھر ان کے سساسے جا نے دروٹی سے اط فذاضع
کی جاپی ہے تین دن کک برادر ی کے لوگ بھی ساتجھ رج ہیں اور سوگواروں
گا ہر رع سے دلو یکر تے رت ہیں۔ تقبسرے رو زکی شا مکوایک ھیٹروز کر کے
نزدو نا زکابند وبس تکیاجا نے جس میں برادر کی کے لوگوں کے علاوہ جھسائےے اور در
رشنہ دار شا لی ہہوتے ہیں انس رم سو مکی اذا بی کے بعد بھی مض خ تین اور مرد
چ اس دو زان یس7 کے ہیں ٴ ایک مل مک تخزیت کے لیے آتے رسے ہیں اور ۱
سرع بین کے لیے فا جمہ خوا یکرت ہیں۔ ود ٴ

بات بھی داش رم ےکہ الک مکی اداگی میس امیر وخ ریب کاکو گی اتیاز یں
سب کے لیے اسیک ش مکی رحم ہے اور سب کی دچوگ یکی جال ی ہے۔ اس طر مزدہ
ادا نکو جو صلہ ملتاے اور ایک شش مکی چھاکی ا رگ یکا احساس بر عتار بتاے۔ بے رواییت
اب کک باب جار سے او راس وفت ہن زددانے خواہباکستان سےکسی بھی شور یس را ے
ہوں اک رس مکی ادا گی میس پراب رکا بند ہیں اور اس طر غمزدہ ا ندا نک یل بھی بے
چا ری یا تھائیکااضاس نی ہو تا۔
 

فلسفی

محفلین
ٹیسرکٹ کا تو انگریزی نتیجہ بھی ترلے منتاں ہی ہے، وجہ اوپن سورس ہونا۔
جہاں تک میری ناقص معلومات ہیں بہت سے کمرشل (شاید گوگل بھی) ٹیسرکٹ کے انجن کو ہی استعمال کر رہے ہیں۔ اصل مسئلہ اس کے ٹرینگ ڈیٹا کا ہے۔ ذرا وقت نکالنا پڑے گا اس کے لیے، یا تو پہلے سے موجود ڈیٹے کو بہتر کیا جائے یا نئے سرے سے ٹرینگ ڈیٹا بنایا جائے۔ میرے خیال میں انجن ٹھیک ہے اگر کسی طرح ٹرینگ ڈیٹا تیار ہو جائے تو ایک اچھا آف لائن او سی آر تیار کیا جاسکتا ہے۔ جو بلاشبہ ایک کارآمد پروگرام ہو گا۔
 
آخری تدوین:

دوست

محفلین
ٹریننگ ڈیٹا تیار کرنے کے لیے سرمایہ کاری ہونی چاہیئے۔ اس سلسلے میں یہاں اگر کوئی سلسلہ شروع کیا جائے تو میں بساط بھر حصہ ڈالنے کے لیے تیار ہوں۔
 
جہاں تک میری ناقص معلومات ہیں بہت سے کمرشل (شاید گوگل بھی) ٹیسرکٹ کے انجن کو ہی استعمال کر رہے ہیں۔ اصل مسئلہ اس کے ٹرینگ ڈیٹا کا ہے۔ ذرا وقت نکالنا پڑے گا اس کے لیے، یا تو پہلے سے موجود ڈیٹے کو بہتر کیا جائے یا نئے سرے سے ٹرینگ ڈیٹا بنایا جائے۔ میرے خیال میں انجن ٹھیک ہے اگر کسی طرح ٹرینگ ڈیٹا تیار ہو جائے تو ایک اچھا آف لائن او سی آر تیار کیا جاسکتا ہے۔ جو بلاشبہ ایک کارآمد پروگرام ہو گا۔
فلسفی بھائی ٹریننگ ڈیٹا کس نوع کا درکار ہوگا؟
ڈکشنری کے الفاظ کا ان پٹ؟
یا لگیچرز اور الفاظ کے نمونہ جات وغیرہ؟
یا ان کی کوڈنگ وغیرہ؟
 
آخری تدوین:

عباس اعوان

محفلین
جہاں تک میری ناقص معلومات ہیں بہت سے کمرشل (شاید گوگل بھی) ٹیسرکٹ کے انجن کو ہی استعمال کر رہے ہیں۔ اصل مسئلہ اس کے ٹرینگ ڈیٹا کا ہے۔ ذرا وقت نکالنا پڑے گا اس کے لیے، یا تو پہلے سے موجود ڈیٹے کو بہتر کیا جائے یا نئے سرے سے ٹرینگ ڈیٹا بنایا جائے۔ میرے خیال میں انجن ٹھیک ہے اگر کسی طرح ٹرینگ ڈیٹا تیار ہو جائے تو ایک اچھا آف لائن او سی آر تیار کیا جاسکتا ہے۔ جو بلاشبہ ایک کارآمد پروگرام ہو گا۔
ٹریننگ ڈیٹا تیار کرنے کے لیے سرمایہ کاری ہونی چاہیئے۔ اس سلسلے میں یہاں اگر کوئی سلسلہ شروع کیا جائے تو میں بساط بھر حصہ ڈالنے کے لیے تیار ہوں۔
فلسفی بھائی ٹریننگ ڈیٹا کس نوع کا درکار ہوگا؟
ڈکشنری کے الفاظ کا ان پٹ؟
یا وائس اِن پٹ؟
یا ان کی کوڈنگ وغیرہ؟
یہ ایک بہت عمدہ پروجیکٹ ہو گا۔
میں بھی مقدور بھر حصہ ڈالوں گا، ان شاء اللہ تعالیٰ
 

فلسفی

محفلین
ٹریننگ ڈیٹا تیار کرنے کے لیے سرمایہ کاری ہونی چاہیئے۔ اس سلسلے میں یہاں اگر کوئی سلسلہ شروع کیا جائے تو میں بساط بھر حصہ ڈالنے کے لیے تیار ہوں۔
بھائی سرمایہ کاری سے زیادہ شاید وقت درکار ہو۔ میرے خیال میں محفلین میں مجھ سمیت ایسے حضرات ہیں جو خوشی سے بنا کسی لالچ کے یہ کام کرنا چاہیں گے۔ پھر بھی اگر سرمایہ ہی ضروری ہے تو میں وقت کے ساتھ ساتھ سرمایا لگانے کو بھی تیار ہوں۔ مقصد صرف یہ کہ جو بھی نتیجہ نکلے وہ بلامعاوضہ سب کے لیے ہو یعنی مفت :)
فلسفی بھائی ٹریننگ ڈیٹا کس نوع کا درکار ہوگا؟
ڈکشنری کے الفاظ کا ان پٹ؟
یا وائس اِن پٹ؟
یا ان کی کوڈنگ وغیرہ؟
بھائی تفصیل تو میں خود ابھی پڑھ رہا ہوں۔ لیکن مسئلہ یہ ہے کہ یکسوئی میسر نہیں ۔۔۔ آہ اب کیا بتائیں کہاں کہاں ٹاںگ پھنسا رکھی ہے۔ خیر یہ لنک دیکھیے شاید آپ بھی کچھ مدد کرسکیں۔

یہ ایک بہت عمدہ پروجیکٹ ہو گا۔
میں بھی مقدور بھر حصہ ڈالوں گا، ان شاء اللہ تعالیٰ

ابھی تک جو میں سمجھا ہوں اس میں دو طریقہ کار ہو سکتے ہیں۔ ایک جو پہلے سے موجود ڈیٹا ہے اس کو ایڈٹ کیا جائے یا نئے سرے سے ٹرینگ ڈیٹا تیار کیا جائے، میرے خیال سے اس کے ٹول موجود ہیں۔ فی الحال میری معلومات بہت ابتدائی نوعیت کی ہیں۔ میں شاید آہستہ آہستہ ہی تفصیل پڑھ سکوں۔ اگر کسی اور بھائی کے پاس وقت ہے اور وہ تفصیل بتا سکتا ہے تو کام کو تقسیم کر کے جلدی مکمل کیا جاسکتا ہے۔
 

جاسم محمد

محفلین
فلسفی اگر آف لائن اردو او سی آر پر سنجیدگی سے کام کرنا ہے تو اپنی ریسرچ مکمل کرنے کے بعد اس پر ایک نیا دھاگہ بنا لیں۔ یہاں فی الحال ریختہ اور اس سے منسلکہ گوگل او سی آر پر گفتگو کرنا بہتر رہے گا۔ وگرنہ بات اصل موضوع سے ہٹ جائے گی۔
 

عباس اعوان

محفلین
ایک غیرمتعلق لڑی میں آف لائن اردو او سی آر پر بات چلی تو اس پر الگ لڑی کھولنے کی تجویز دی گئی، لہٰذا لڑی حاضر ہے۔
مذکورہ مراسلہ جات کو یہاں منتقل کیا جائے گا۔
 

فلسفی

محفلین
ٹیسرکٹ کا لنک
tesseract-ocr

اس او سی آر انجن کو ایچ پی نے 2005 میں اوپن سورس کردیا تھا۔ 2006 سے گوگل اس پروجیکٹ کو سپورٹ کر رہا ہے۔

Tesseract was originally developed at Hewlett-Packard Laboratories Bristol and at Hewlett-Packard Co, Greeley Colorado between 1985 and 1994, with some more changes made in 1996 to port to Windows, and some C++izing in 1998. In 2005 Tesseract was open sourced by HP. Since 2006 it is developed by Google.
 

فلسفی

محفلین
اردو کا تربیتی مواد اس لنک پر موجود ہے۔ جس کو بہتر بنانا ہے۔ امید ہے کہ تربیتی مواد کو بہتر بنا کر اس او سی آر انجن سے بہتر نتائج حاصل کیے جاسکتے ہیں۔

نئے ورژن (4) میں تربیتی مواد کو تیار یا بہتر بنانے کے حوالے سے تفصیل اس لنک پر موجود ہے۔ جو حضرات اس میں دلچسپی رکھتے ہیں وہ کچھ تفصیل کا مطالعہ فرما لیں اور اپنی تجاویز اسی لڑی میں باقی حضرات سے ضرور شئیر کریں۔
 

عباس اعوان

محفلین
اردو کا تربیتی مواد اس لنک پر موجود ہے۔ جس کو بہتر بنانا ہے۔ امید ہے کہ تربیتی مواد کو بہتر بنا کر اس او سی آر انجن سے بہتر نتائج حاصل کیے جاسکتے ہیں۔

نئے ورژن (4) میں تربیتی مواد کو تیار یا بہتر بنانے کے حوالے سے تفصیل اس لنک پر موجود ہے۔ جو حضرات اس میں دلچسپی رکھتے ہیں وہ کچھ تفصیل کا مطالعہ فرما لیں اور اپنی تجاویز اسی لڑی میں باقی حضرات سے ضرور شئیر کریں۔
یہ کہتے ہیں کہ ان لوگوں نے لاطینی نسل کی زبانوں کے لیے چار لاکھ سطروں کے ساتھ ماڈل کو ٹرین کیا ہے۔
یہ کام لاطینی زبانوں کے لیے تو آسان ہے، اردو کے لیے کچھ مشکل پیش آئے گی۔
بہرحال، میرے ذہن میں ایک تجویزہے، جو کہ اردو کے ٹریننگ ڈیٹا اور فیڈ بیک کو دیکھنے کے بعد پیش کروں گا۔
 

جاسم محمد

محفلین
میرے خیال میں پہیا ہر بار دوبارہ ایجاد کرنے کی بجائے یہیں محفل پر موجود ماضی کے کئی او سی آر دھاگوں سے پہلے استفادہ کر لیا جائے تو کام زیادہ تیزی سے آگے بڑھ سکے گا:
ٹیسیریکٹ او سی آر - عربی سپورٹ - اور اردو؟؟؟
اردو او سی آر پر کام
نستعلیق حرف شناس (OCR) ڈیسک ٹاپ ورژن ریلیز کر دیا گیا
اردو او سی ۔ ایک اہم پیش رفت
اردو میں کوئی شناخت برائے بصری الفاظ Ocr کا سوفٹویئر موجود ہے؟؟؟
"اردو نستعلیق حرف شناس" -- ایک نیا اردو او سی آر نظام
خیال رہے کہ محفل پر ڈیٹا کلیکشن، کمپیوٹر ویژن اور سگنل پراسیسنگ میں ماسٹرز و پی ایچ ڈیز موجود ہیں۔ اس آف لائن او سی آر پراجیکٹ کو اگر سنجیدگی اور ثابت قدمی کے ساتھ پایہ تکمیل تک پہنچانا ہے تو ان مقامی ماہرین سے رہنمائی لی جا سکتی ہے۔
ابن سعید زیک سید ذیشان
 
آخری تدوین:

زیک

مسافر
ٹریننگ ڈیٹا کافی محنت طلب کام ہے۔

ٹیسیریکٹ سے او سی آر کرانے سے پہلے امیج کو صحیح طور سے پراسس بھی کرنا پڑتا ہے۔ اس کے بغیر یہ اچھے نتائج نہیں دیتا۔
 
Top