'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

عباس اعوان

محفلین
یہ کہتے ہیں کہ ان لوگوں نے لاطینی نسل کی زبانوں کے لیے چار لاکھ سطروں کے ساتھ ماڈل کو ٹرین کیا ہے۔
یہ کام لاطینی زبانوں کے لیے تو آسان ہے، اردو کے لیے کچھ مشکل پیش آئے گی۔
بہرحال، میرے ذہن میں ایک تجویزہے، جو کہ اردو کے ٹریننگ ڈیٹا اور فیڈ بیک کو دیکھنے کے بعد پیش کروں گا۔
مینوں لگدا اج اپنا کم نہیں یہی کروں گا، مشورے بازی
لو فیر اگلا مشورہ
بنیادی مقصد امیجز اور ٹیکسٹ کے سطری جوڑے ہیں۔ تو ٹیکسٹ (اردو محفل فورم کی لائبریری سے حاصل کردہ کتب والا) لیں اور جمیل نوری نستعلیق میں رینڈر کرا کے جملہ بہ جملہ امیجز جنریٹ کر لیں۔ اس بات کا ذکر ٹیسرکٹ دستاویزات میں بھی کہیں ہے، فونٹ سے حاصل شدہ امیجز۔
شیخ چلی کی پیروی میں ایک قدم اور آگے بڑھتے ہوئے مزید مشورہ ہے کہ جمیل نوری نستعلیق کی لگیچر فائلیں اس کام کے لیے استعمال ہو سکتی ہیں۔ اس حوالے سے ایک پروگرام بھی بنایا گیا تھا لگیچر لسٹ سے خودبخود امیجز جنریٹ کرنا۔ لگیچر بیسڈ نفیس نستعلیق تیار گیا تھا اس کے استعمال سے۔
مندرجہ بالا کوئک اینڈ ڈرٹی سلوشن ہے۔
نمبر دو تو بالکل ہی گیا گزرا ہو گا کیونکہ اس میں بائی گرامز (دو دو الفاظ کے جوڑے) حاصل نہیں ہوں گے، کہ ان پٹ ہی ان، پٹ، پٹی جیسے لگیچرز یا ترسیموں پر مبنی ہو گی۔
نمبر ایک میں جملوں کی وجہ سے یہ تو نہیں ہو گا ، البتہ ٹریننگ ڈیٹا ظاہر ہے مصنوعی ہو گا۔ گندی مندی سکین امیجز سے پاک۔ اور پروگرام چلے گا بھی صرف نوری نستعلیق پر، چونکہ اسی پر ٹرین کیا گیا ہو گا۔ دستی کتابت گئی تیل لینے۔
البتہ مختلف نستعلیق فونٹ استعمال کر کے ڈیٹا کو متنوع بنایا جا سکتا ہے۔
سچ پوچھیں تو یہ ٹیکسٹ سے فونٹ استعمال کر کے امیج جنریٹ کروانے والا آئیڈیا سب سے سستا پڑے گا، ہر لحاظ سے۔
میری تجویز بھی تقریباً یہی تھی۔
ہمارے پاس بہت سی کتابیں اور دیگر مواد یونی کوڈمیں موجود ہے، ان کا متن رینڈر کر کے امیج اور ڈیٹا کا جوڑا حاصل کیا جا سکتا ہے۔
اس تکنیک کے کچھ فوائد مندرجہ ذیل ہیں:
  • ڈیٹا: ہمارے پاس بہت کم وقت میں کافی سارا ڈیٹا دستیاب ہو گا۔
  • درستی: امیج اور ڈیٹا آپس میں عین مطابقت رکھتے ہوں گے، بغیر کسی اغلاط کے۔
  • وقت اور محنت کی بچت: اس تکنیک سے ہمارے پاس بہت کم وقت اور محنت سے بہت سارا ڈیٹا دستیاب ہو گا۔
  • مختلف فونٹس کی سہولت: یونی کوڈ ڈیٹا کو ہم اپنی مرضی کے کسی بھی فونٹ میں رینڈر کر سکتے ہیں، یوں ہمارا ماڈل بیک وقت کئی فونٹس کو سپورٹ کرے گا۔
  • متن کا بگاڑ: ہم اپنے ڈیٹا کو مصنوعی طریقے سے بگاڑ کر رینڈر کر سکتے ہیں، مثلاً لکھائی کا مدہم ہونا، متن کا بیک گراؤنڈ میں ضم ہونا، دھندلا متن، صفحے پر چائے کافی کے نشانات، صفحے کا یوں نظر آنا جیسے سکین کرتے ہوئی صفحہ ہِل گیا ہو، وغیرہ وغیرہ
 

دوست

محفلین
میرے حساب سے اگر تصدیق ہو جاتی ہے کہ ٹریننگ ڈیٹا سطر بہ سطر ٹیکسٹ اور امیج فائلیں ہی ہیں، تو پیچھے صرف ایک کام ہے: ایک عدد سافٹویئر جو اردو ٹیکسٹ فائلیں لے، متن کو جملوں میں توڑے (ریگولر ایکسپریشن) اور ہر ٹکڑے کو ٹِف (ٹی آئی ایف) امیج بنا دے جس میں ٹیکسٹ جمیل نوری نستعلیق میں رینڈر کیا گیا ہو۔ ہر ٹکڑا اور متعلقہ امیج کا نام ایک باقاعدہ انداز میں بنتا چلا جائے اور ایک آؤٹ پٹ ڈائریکٹری میں محفوظ ہو جائے۔
 

عباس اعوان

محفلین
اپنے فائنل نتائج کو مزید بہتر بنانے کے لیے ہم یہ کر سکتے ہیں کہ آخری متن کو سپیل چیکر سےگزار کر ایک عدد لغت کے ذریعے مزید نکھار دیا جائے۔
 

دوست

محفلین
ہاں جی یہی قابلِ اعتماد حل لگ رہا ہے۔ اس کے بعد ماڈل ٹریننگ کے لیے ایک مشین سیٹ اپ کرنا ہو گی۔
لاہوری نستعلیق کے لیے نفیس نستعلیق اور اگر متلاشی کا زیرِ تعمیر فونٹ بھی ہو جائے تو نستعلیق میں کافی ورائٹی مل سکتی ہے۔ چونکہ متلاشی والا فونٹ دستیاب نہیں تو ان کو پروگرام (جو لکھا جائے گا اور جس میں فونٹ سلیکشن کی سہولت میسر ہو گی) مہیا کر کے حاصل شدہ ٹریننگ ڈیٹا واپس کرنے کی استدعا کی جا سکتی ہے۔
نسخ فونٹ کی ضرورت ہو گی؟
 

دوست

محفلین
سب سے زیادہ مسئلہ دستی کتابت سے ہو گا، پرانی کتب پر او سی آر جواب دے جائے گا۔ لیکن دستی کتابت کو جنرلائز کرنا بھی ایک سیاپا ہے۔
 

عباس اعوان

محفلین
اپنے فائنل نتائج کو مزید بہتر بنانے کے لیے ہم یہ کر سکتے ہیں کہ آخری متن کو سپیل چیکر سےگزار کر ایک عدد لغت کے ذریعے مزید نکھار دیا جائے۔
اعجاز اختر صاحب کی تدوین کردہ کتب کو سپیل چیکر کی ضرورت نہیں پڑے گی انشاءاللہ۔
میری مراد آؤٹ پٹ سے تھی، جو او سی آر سے نکل کر آئے گی۔
 
یہ خرید کر اس کی بنیاد پر ٹریننگ ماڈل عام استعمال کے لیے مفت جاری کرنے کی اجازت شاید یہ نہ دیں۔ بہرحال سطر بہ سطر ٹیکسٹ اور امیج فائلیں تو پھر بھی بنانی پڑیں گی۔ اور مختلف پوائنٹ سائز سے مجھے شک ہو رہا ہے کہ یہ کام کتابیں ٹائپ کر کے ان کا ٹیکسٹ مختلف پوائنٹ سائز پر ان پیج میں رینڈر کر کے امیجز جنریٹ کی گئی ہیں۔ ہمارے پاس کوئی سو ڈیڑھ سو کتب تو اردو لائبریری میں موجود ہیں۔ بلکہ بہت زیادہ ہیں۔ افسانے ناول بچوں کا ادب تفسیر ترجمہ شاعری ہر صنف کا مواد تدوین کردہ موجود ہے۔ اس سے ٹریننگ ڈیٹا بنائیں بس۔ ابھی تک مجھے ایسا کوئی اشارہ نہیں ملا جس میں پیچیدہ رسم الخط کے لیے نقطے اور نقطوں کے بغیر ترسیموں کا کوئی چکر ہو (جیسا کہ ڈاکٹر سرمد کی ایک پریزنٹیشن میں ان کے او سی آر کی تیاری کے مراحل میں دیکھا تھا)۔
شاکر بھائی آپ کی بات سے میں کچھ اس قسم کا کام سمجھا ہوں۔
اگر ٹریننگ ڈیٹا کی کچھ اس قسم کی شکل ہے تو میرے پاس بہت سی تصویری کتب ایسی موجود ہیں جن کا او سی آر شدہ متن بھی کمپوز شدہ ہے۔ اور یہ ہزاروں صفحات ہیں۔
صرف اس کی ضرورت ہوگی کہ سطر بہ سطر ان میجز کو ٹکڑے کرکے ان کی الگ الگ فائلز بنالی جائیں۔ اور ان کے مطابق او سی آر شدہ متن الگ کرلیا جائے۔
اور مطلوبہ فارمیٹ میں اسے کنورٹ کرلیا جائے۔ کیا میں ٹھیک سمجھ رہا ہوں؟
فلسفی بھائی آپ کہاں تک پہنچے؟
 

فلسفی

محفلین
شاکر بھائی آپ کی بات سے میں کچھ اس قسم کا کام سمجھا ہوں۔
اگر ٹریننگ ڈیٹا کی کچھ اس قسم کی شکل ہے تو میرے پاس بہت سی تصویری کتب ایسی موجود ہیں جن کا او سی آر شدہ متن بھی کمپوز شدہ ہے۔ اور یہ ہزاروں صفحات ہیں۔
صرف اس کی ضرورت ہوگی کہ سطر بہ سطر ان میجز کو ٹکڑے کرکے ان کی الگ الگ فائلز بنالی جائیں۔ اور ان کے مطابق او سی آر شدہ متن الگ کرلیا جائے۔
اور مطلوبہ فارمیٹ میں اسے کنورٹ کرلیا جائے۔ کیا میں ٹھیک سمجھ رہا ہوں؟
فلسفی بھائی آپ کہاں تک پہنچے؟
بھائی، پہلے سے لوگوں نے کافی کام کر رکھا ہے اس لیے میں صرف ریڈنگ موڈ میں ہوں۔ ویسے مجھے ایک ٹول ملا ہے میں ذرا اس پر ہاتھ صاف کر رہا ہوں۔ جس کے ذریعے ٹف فائلز اور متن دونوں تیار ہوسکتے ہیں۔ پھر انھیں فائلز کے ذریعے باکس فائلز اور دوسری ضروری فائلز بھی تیار ہوجاتی ہیں جو او سی آر انجن کے ٹرینگ ڈیٹا تیار کرنے کے لیے ضروری ہیں۔ فائنل ٹرینگ فائل بھی یہی ٹول تیار کردیتا ہے۔ سب سے مزے کی بات یہ ہے کہ یہ سارا کام ونڈوز پر آسانی سے ہوسکتا ہے۔ لیکن جب تک میں ایک مکمل تجربہ نہ کر لوں دعوے سے کچھ کہنا مناسب نہیں۔ اس لیے میں اپنے کام میں لگا ہوں اور باقی حضرات کی قیمتی آراء بھی سمجھنے کی کوشش کررہا ہوں۔
 

دوست

محفلین
عبید انصاری میرا خیال ہے یہ دستی کتابت والی فائلیں بھی ایک الگ ماڈل بن سکتی ہیں۔ اگرچہ ٹف فائل اور متن فائل جنریٹ کرنا اچھا خاصا کام ہو گا۔
فلسفی ونڈوز 10 پر لینکس سب سسٹم شاید ٹیسرکٹ ٹریننگ کے حوالے سے مددگار ہو سکے۔
 

جاسم محمد

محفلین
شیخ چلی کی پیروی میں ایک قدم اور آگے بڑھتے ہوئے مزید مشورہ ہے کہ جمیل نوری نستعلیق کی لگیچر فائلیں اس کام کے لیے استعمال ہو سکتی ہیں۔
یہ کام بھی کوئی تین سال قبل مکمل کر کے پبلک کیا جا چکا ہے۔ فلسفی بھائی ٹیسٹنگ کے دوران ان پر زور آزمائی کر سکتے ہیں۔ یہاں نوری نستعلیق کی ۲۴ اور ۱۲۰ پوائنٹ سائز میں امیجز بمع متن دستیاب ہیں
urduweb/UrduOCR
 

فلسفی

محفلین
ونڈوز پر تربیتی مواد تیار کرنے کے لیے serak-tesseract-trainer ٹول ہے جو ڈاٹ نیٹ میں لکھا گیا ہے۔ اس کا سورس کوڈ بھی گٹ ہب پر موجود ہے۔ اس کا یوزر مینویل بہت بہترین ہے۔ اس میں تربیتی مواد بنانے کا پورا طریقہ لکھا ہوا ہے۔ میں نے ابھی فی الحال ایک لائن یعنی ایک امیج سے استعمال شدہ تربیتی مواد کی فائل بنائی ہے۔ لیکن مسئلہ میرے پاس یہ آرہا تھا کہ اس ٹول کے ذریعے تربیت والا سٹیپ مکمل کر کے "normproto" نام کی ایک فائل تیار نہیں ہورہی تھی۔ تھوڑی بہت تلاش کے بعد یہ پتہ چلا کہ اگر ڈیٹا باکس فائل میں ہے تو یہ فائل تیار نہیں ہوگی۔ لہذا ڈاٹ نیٹ کا کوڈ ڈاونلوڈ کر کے اس میں "normproto" والی لائن کمنٹ کرکے تربیتی مواد کی فائل "urd.traineddata" تیار کی۔ لیکن دوسرا مسئلہ یہ آرہا تھا کہ ونڈوز پر جو انسٹالیشن میں نے "tesseract" کی کی تھی اس پر یہ تربیتی مواد کام نہیں کررہا تھا۔ میں نے اوریجنل تربیتی مواد کی فائل حاصل کر کے دیکھی وہ بھی کام نہیں کر رہی تھی۔

خیر اس سب سے پہلے میں نے ایک ورچول مشین پر لنکس انسٹال کر لیا تھا اور اس پر ٹیسریکٹ بھی انسٹال کر چکا تھا۔ لہذا اپنی بنائی ہوئی تربیتی مواد کی فائل کو وہاں لے جا کر ٹیسٹ کی تو الحمداللہ وہ کام کرگئی۔ گو ایک لائن کی وجہ سے نتیجہ درست نہیں لیکن کم از کم یہ معلوم ہو گیا کہ اس طریقے سے تربیتی مواد بنایا جا سکتا ہے۔ آپ حضرات میں سے جو دلچسپی رکھتے ہیں وہ بھی تھوڑا ہاتھ صاف کرسکتے ہیں ان ٹولز پر۔

میری دوسری کوشش یہ ہوگی کہ "jtessboxeditor" والے کام کو آٹومیٹ کردیا جائے۔ اس سے تھوڑے وقت میں متن کے ذریعے ٹف اور باکس فائلز بنائی جاسکتی ہیں۔ ایسا ہوجائے تو فقط مناسب متن (ایک ایک لائن میں، جو پروگرام کے ذریعے کیا جاسکتا ہے) کے ذریعے تربیتی متن کے لیے تمام لوازمات تیار کی جاسکتی ہیں۔

یہ ابھی تک کی میری کاروائی ہے، اپنی تھوڑی بہت معلومات کی بنیاد پر۔ آپ حضرات میں سے اگر کوئی تصحیح کرنا چاہے تو مہربانی کرے کے راہنمائی ضرور فرمایے گا۔ آج کے لیے اتنا ہی، کچھ اور ضروری کام ہیں۔ کل ان شاءاللہ اس کو مزید دیکھوں گا۔
 

MindRoasterMirs

محفلین
وہ تو اے پی آئے ہے نظر نہیں آتا ہے کہ کیسے کرتے ہیں لیکن یہ ٹیسا رکٹ جب سے ایچ پی نے اوپن سورس کیا ہے گوگل اس کو مینیج کر رہا ہے ۔ ظاہری سی بات ہے گوگل نے اس کے ڈیٹا اور تکنیک کو اپنی اے پی آئی میں استعمال کیا ہو گا۔
 

MindRoasterMirs

محفلین
اس کام کے لیے سی ایل ای والوں نے بھی ڈیٹا تیار کیا تھا، اور شاید فروخت کے لیے پیش بھی کیا تھا۔ لیکن اب مجھے کوئی ربط نہیں مل رہا اس کا۔ بس ان کی آنلائن سروسز ہیں اور او سی آر ڈیسکٹاپ۔ اچھی خاصی محنت والا کام تھا، تصاویر میں لگیچر نقطوں کے ساتھ، بغیر، جوڑ واضح کر کے وغیرہ وغیرہ۔
ان کا او سی آر جمیل نستعلیق 16 پوائنٹ سائز پر ٹھیک کام کرتا ہے۔
اس حوالے سے میں مالی امداد مہیا کر سکتا ہوں، جس قدر میرے بس میں ہوا۔ امیج پراسیسنگ کے لیے نہ وقت ہے اور نہ ماؤس کلکس اور ٹائپنگ کی اجازت اب ہاتھ دیتے ہیں۔
اگر اس کا طریقہ کار ایک ویڈیو کی صورت میں واضح کر کے اسلحہ فراہم کیا جائے تو یہ کلک وغیرہ والا کام خاکسار انجام دے سکتا ہے ۔
 

MindRoasterMirs

محفلین
ورک فلو وضع کیا جائے، ایک ڈیٹا انٹری آپریٹر کی خدمات حاصل کی جائیں، معاوضہ چندہ کیا جائے، پراجیکٹ کی نگرانی کی جائے۔ نتائج کو پرکھ کر اوپن سورس طریقے سے فراہم کر دیا جائے۔
خاکسار اس سلسلے میں پیسوں کے بغیر خدمات سر انجام دے سکتا ہے ۔ کرنا کیا ہے ؟
 

MindRoasterMirs

محفلین
اس کے لیے سادہ طریقہ تو گوگل اور ریختہ کا استعمال ہے۔
نوری نستعلیق اور دستی کتابت والی کتب 1947 سے پہلے اور بعد والی منتخب کریں، امیجز اور ٹیکسٹ حاصل کریں (گوگل او سی آر سے)۔ (کوئی محفلین یہ کام کرے)
ٹیکسٹ فائلز کو درست کریں، بمطابق تصاویر۔ (کوئی طالبعلم جسے اردو، لسانیات اور کمپیوٹر کی سوجھ بوجھ ہو، معاوضے پر رکھ لیا جائے)۔
ٹریننگ فائلز تیار کریں۔ (سکرپٹ لکھ کر یا دستی، تکنیکی طور پر خواندہ شخص ہی کر سکتا ہے)۔
سب سے زیادہ محنت آزما گوگل سے عمل کاری شدہ تصاویر اور متن کی تطبیق ہے۔
یہ سب کام ایک ہی بندہ کر سکتا ہے ؟ مجھے لگتا ہے مشکل ہی ہے
 

دوست

محفلین
میری دوسری کوشش یہ ہوگی کہ "jtessboxeditor" والے کام کو آٹومیٹ کردیا جائے۔ اس سے تھوڑے وقت میں متن کے ذریعے ٹف اور باکس فائلز بنائی جاسکتی ہیں۔ ایسا ہوجائے تو فقط مناسب متن (ایک ایک لائن میں، جو پروگرام کے ذریعے کیا جاسکتا ہے) کے ذریعے تربیتی متن کے لیے تمام لوازمات تیار کی جاسکتی ہیں۔
یہی بنیادی کام ہے۔ ٹف اور باکس فائلز بنانے کے لیے ٹول ہے یا خود سے بنایا جائے۔ امیج پراسیسنگ کا میرا تجربہ تو صفر ہے۔ سی شارپ اور آر میں کچھ شدھ بدھ ہے، امیج میجک لائبریری سے کام تو ہو سکتا ہے۔
 
"Tesseract" اوپن سورس ہے۔ اس میں اردو اور عربی کی سپورٹ بھی موجود ہے۔ اس کا اردو کا ڈیٹا تقریبا آٹھ ایم بی کا ہے۔ لیکن نتائج ۔۔۔۔ آپ خود ہی دیکھ لیجیے
یہ صرف نسخ فونٹس پر ٹرین کیا گیا ڈیٹاہے اور ان پر بخوبی کام کرتا ہے، اس کو نستعلیق فونٹس پر ٹرین کرنے کی ضرورت ہے۔
اردو کی ٹریننگ کے لیے یہ ڈیٹا اور یہ فونٹس استعمال کیے گئے اور تقریباََ تمام نسخ فونٹس کو درست شناخت کیا جا سکتا ہے۔
اگر اسی طرح نستعلیق فونٹس اور بہتر ڈیٹا استعمال کیا جائے تو امید ہے نستعلیق کے لیے قابل استعمال نتائج حاصل ہوں گے۔
 
آخری تدوین:

دوست

محفلین
میرا خیال ہے فونٹ اور ذرا بندے کے پُتروں والا ڈیٹا یعنی کتب کا ڈیٹا استعمال کر کے یہ کام کر لیا جائے۔ لینکس پر کمانڈ لائن میں باآسانی ہو جائے گا۔ الگ سے باکس فائل وغیرہ بنانے کی ضرورت نہیں ہے۔ کاش میرے پاس لینکس سسٹم ہوتا، میں تے انھی پا دینی تھی۔ ورچوئل مشین انتہائی ذلالت والا کام ہے، فائل ٹرانسفر کا سیاپا ہی حل نہیں ہوتا مین سسٹم اور ورچوئل مشین میں۔ اگے امب کرنا
فرہنگ:
انھی پا دینا: اندھیر نگری مچا دینا
امب: آم
 
آخری تدوین:
Top