'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

دوست

محفلین
لینکس ورچول مشین سیٹ اپ کر لی ہے اور اس پر بھی وہی ایرر آنے کی وجہ سے اب متعلقہ ویب سائٹ پر ایک عدد ایشو کھول دیا ہے شاید اس مسئلہ کا کوئی حل نکل آئے۔
 

فلسفی

محفلین
لینکس ورچول مشین سیٹ اپ کر لی ہے اور اس پر بھی وہی ایرر آنے کی وجہ سے اب متعلقہ ویب سائٹ پر ایک عدد ایشو کھول دیا ہے شاید اس مسئلہ کا کوئی حل نکل آئے۔
مجھے کچھ اس قسم کا ایرر OCR-D والے سکرپٹ میں آیا تھا۔ تو ایک پوسٹ پڑھ کر پائتھون کے سکرپٹ میں یوٹی ایف کو شامل کیا تو مسئلہ حل ہو گیا تھا۔ شاید یہ بھی اسی سے متعلق ہو

کوڈ:
# encoding=utf8
import sys
reload(sys)
sys.setdefaultencoding('utf8')
 

دوست

محفلین
ٹھیک ہو گیا۔ اب لینکس سب سسٹم تو نہیں چلا، فائل ایڈٹ نہیں کر سکتے ونڈوز میں، کباڑا ہو جاتا ہے۔
ورچوئل میں چلا رہا ہوں، یہ لمبی لائنز اور میری جگاڑ 25 الفاظ والی۔ دیکھتے ہیں کس کا ایرر ریٹ کم ہے، یا کوئی فرق نہیں پڑتا۔
 

دوست

محفلین
پیراگراف جتنی لمبی امیجز تو ٹرین ایبل نہیں، یہ تو گیا۔
بہرحال نتیجہ دیکھتے ہیں۔
 

دوست

محفلین
انھے وا ان ٹرین ایبل کے ایررز کے بعد اب پھر 25 الفاظ والی لگائی ہے۔ دیکھو کیا بنتا ہے۔
 

دوست

محفلین
دائیں سے بائیں زبان کے کیریکٹر بھی بائیں سے دائیں ہونے چاہئیں۔ حوالہ
ایک: کہیں ہم یہ امیجز غلط تو نہیں بنا رہے؟
دو: او سی آر ڈی کا سیٹ اپ کافی غیر لچکدار لگ رہا ہے، ہمیں شاید اردو کی ٹرینڈ ڈیٹا فائل اٹھا کر اس سے شروع کرنا چاہیئے۔
تین: ایک عدد ٹریننگ ڈیٹا فائل بن جانی چاہیئے، جس میں unicharset وغیرہ ڈیفائن ہو۔ یہ پرانی ٹرینڈ ڈیٹا فائل سے نکالا جا سکتا ہے۔ اور اس میں مزید اضافہ وغیرہ کیا جا سکتا ہے، پچھلا کام کرنے والوں نے وکی پیڈیا سے ڈیٹا اٹھایا تھا اور وہ عربی رسم الخط کی زبانوں سے واقف نہیں۔
 

دوست

محفلین
یہاں جو کچھ موجود ہے وہ بالا خدشات کی تصدیق ہے۔
رموزِ اوقاف (پنکچویشن) میں سوالیہ نشان اور کوما ندارد۔۔:?
 
دائیں سے بائیں زبان کے کیریکٹر بھی بائیں سے دائیں ہونے چاہئیں۔ حوالہ
ایک: کہیں ہم یہ امیجز غلط تو نہیں بنا رہے؟
tesstrain.sh سے بننے والی ٹف فائل میں بھی اردو امیجز میں متن حسب معمول دائیں سے بائیں ہی ہوتا ہے۔ میں نے اس طریقے سے کوشش کی تھی ٹریننگ تو نہیں ہوئی البتہ ٹف اور باکس فائلیں جنریٹ ہو گئی تھیں۔
 

دوست

محفلین
سوال یہ ہے کہ 4200 پھیروں کے بعد (10000 تک ہوتے ہیں عموماً) بدترین کیریکٹر ایرر 95 فیصد ہے۔ کیا گڑبڑ ہے۔ٹیس ٹرین والے طریقے میں یونیکوڈ کیریکٹرز کی حد بھی بتاتے ہیں کسی سب فائل میں، دائیں سے بائیں زبان بتانے کا ایک آپشن بھی تھا۔
اگر امیجز ایسے ہی ہیں تو باکس فائل الٹ بنی ہو گی۔ اگر پروگرام سٹرنگ کو بائیں سے دائیں پڑھے اور پھر لائن امیج کو بائیں سے دائیں پڑھے، یہ تو اُلٹ ہے۔
 
سوال یہ ہے کہ 4200 پھیروں کے بعد (10000 تک ہوتے ہیں عموماً) بدترین کیریکٹر ایرر 95 فیصد ہے۔ کیا گڑبڑ ہے۔ٹیس ٹرین والے طریقے میں یونیکوڈ کیریکٹرز کی حد بھی بتاتے ہیں کسی سب فائل میں، دائیں سے بائیں زبان بتانے کا ایک آپشن بھی تھا۔
اگر امیجز ایسے ہی ہیں تو باکس فائل الٹ بنی ہو گی۔ اگر پروگرام سٹرنگ کو بائیں سے دائیں پڑھے اور پھر لائن امیج کو بائیں سے دائیں پڑھے، یہ تو اُلٹ ہے۔
جی بھائی باکس فائل الٹ ہے، ابھی دیکھا تو پہلی لائن کے آخری کریکٹر کی انفارمیشن سب سے پہلےدی گئی ہے۔ پھر اس سے پچھلے کی ۔۔۔ ۔۔۔
 
میں نے اس طریقے سے کوشش کی تھی ٹریننگ تو نہیں ہوئی البتہ ٹف اور باکس فائلیں جنریٹ ہو گئی تھیں۔
ٹیس ٹرین سے مہر نستعلیق اور پیامی نستعلیق کی مدد سے ڈیٹا بنانے کی کوشش کی تھی اس طرح جنریٹ ہونے والی ٹف اور باکس فائلیں یہ ہیں۔ اگر چہ ان میں دونوں فونٹ بہت حد تک بولڈ ہیں۔
 

دوست

محفلین
پھر ٹیکسٹ فائل جو اس طریقے میں بن رہی ہے وہ سٹرنگ کو الٹ کر لکھی جائے؟
کیریکٹر لیول پر یا لفظ کے لیول پر۔
 

دوست

محفلین
مرنا یہ ہے کہ میری قبل از مسیح کی کھوپڑی میں اس کا ورک فلو نہیں آ رہا۔ مثالیں بھی نہیں ہیں ٹیوٹوریل میں۔ او سی آر ڈی والا آسان لگا تھا ٹریننگ ڈیٹا کی مثال دیکھ کر۔ بنیادی طور پر جرمن زبان کے لیے ہے اس پراجیکٹ کی فنڈنگ ایجنسی جرمن ہے۔
 
ایک طریقہ تو یہ ہے جس میں ورک فلو کچھ بہتر طریقے سے بتایا گیا ہے۔ میں نے اوبنٹو کے آفیشل ٹیسیریکٹ کے ساتھ یہ طریقہ کرنے کی کوشش کی لیکنlstm.train والی فائل ٹیس ٹرین کو نہ مل سکی نتیجے میں ٹرین ڈیٹا والی فائل نہ بن سکی۔
 

دوست

محفلین
اسے کمپائل کیا جائے، تب ٹریننگ ٹولز بھی انسٹال ہوتے ہیں۔ آفیشل پتہ نہیں کیا چول ہے۔ سمجھ ہی نہیں آتی۔
 

دوست

محفلین
unicharset ضروری ہے، یہ انگریزی اور عربی کے لیے تو ہے، اردو کے لیے نہیں ہے۔ صبح اس پر بات کرتے ہیں۔ بنیادی طور پر ٹیسرکٹ تین کی باکس فائلوں سے یہ بنے گی (ٹولز بھی تین کے ساتھ ہی آتے ہیں اسے بھی انسٹال کرنا ہو گا)۔ لیکن ڈیٹا میں سارے کیریکٹرز بشمول اردو ہندسے اعراب، مذہبی علامات، رموزِ اوقاف سب کی موجودگی یقینی بنانا ہو گی۔
اس کے بعد اگلے مرحلے میں کمپریسڈ یونی کریسٹ بنے گی۔
ایک ورڈ لسٹ بھی مہیا کرنی ہے جو بنا کر اپلوڈ کر دوں گا۔
آفیشل ٹیوٹوریل میں موجود سارے لوازمات پورے کر کے سکریچ سے ماڈل ٹرین ہو گا۔
جگاڑ لگانے والا کام ختم، انشاءاللہ ۔
 
Top