جاسم محمد
محفلین
ٹھیک ہے کرننگ والا استعمال کر لیں۔بیشتر اردو کتب ان پیج میں بن کر شائع ہوتی ہیں جس کی کرننگ اپنی مثال آپ ہے۔ کرننگ والا ورژن بہتر رہے گا۔
فونٹ - جمیل نوری نستعلیق 3 ریلیز!
فلسفی
ٹھیک ہے کرننگ والا استعمال کر لیں۔بیشتر اردو کتب ان پیج میں بن کر شائع ہوتی ہیں جس کی کرننگ اپنی مثال آپ ہے۔ کرننگ والا ورژن بہتر رہے گا۔
مجھے کچھ اس قسم کا ایرر OCR-D والے سکرپٹ میں آیا تھا۔ تو ایک پوسٹ پڑھ کر پائتھون کے سکرپٹ میں یوٹی ایف کو شامل کیا تو مسئلہ حل ہو گیا تھا۔ شاید یہ بھی اسی سے متعلق ہولینکس ورچول مشین سیٹ اپ کر لی ہے اور اس پر بھی وہی ایرر آنے کی وجہ سے اب متعلقہ ویب سائٹ پر ایک عدد ایشو کھول دیا ہے شاید اس مسئلہ کا کوئی حل نکل آئے۔
# encoding=utf8
import sys
reload(sys)
sys.setdefaultencoding('utf8')
گمان تھا کہ ایسا شاید ممکن نہیںپیراگراف جتنی لمبی امیجز تو ٹرین ایبل نہیں
tesstrain.sh سے بننے والی ٹف فائل میں بھی اردو امیجز میں متن حسب معمول دائیں سے بائیں ہی ہوتا ہے۔ میں نے اس طریقے سے کوشش کی تھی ٹریننگ تو نہیں ہوئی البتہ ٹف اور باکس فائلیں جنریٹ ہو گئی تھیں۔دائیں سے بائیں زبان کے کیریکٹر بھی بائیں سے دائیں ہونے چاہئیں۔ حوالہ
ایک: کہیں ہم یہ امیجز غلط تو نہیں بنا رہے؟
جی بھائی باکس فائل الٹ ہے، ابھی دیکھا تو پہلی لائن کے آخری کریکٹر کی انفارمیشن سب سے پہلےدی گئی ہے۔ پھر اس سے پچھلے کی ۔۔۔ ۔۔۔سوال یہ ہے کہ 4200 پھیروں کے بعد (10000 تک ہوتے ہیں عموماً) بدترین کیریکٹر ایرر 95 فیصد ہے۔ کیا گڑبڑ ہے۔ٹیس ٹرین والے طریقے میں یونیکوڈ کیریکٹرز کی حد بھی بتاتے ہیں کسی سب فائل میں، دائیں سے بائیں زبان بتانے کا ایک آپشن بھی تھا۔
اگر امیجز ایسے ہی ہیں تو باکس فائل الٹ بنی ہو گی۔ اگر پروگرام سٹرنگ کو بائیں سے دائیں پڑھے اور پھر لائن امیج کو بائیں سے دائیں پڑھے، یہ تو اُلٹ ہے۔
ٹیس ٹرین سے مہر نستعلیق اور پیامی نستعلیق کی مدد سے ڈیٹا بنانے کی کوشش کی تھی اس طرح جنریٹ ہونے والی ٹف اور باکس فائلیں یہ ہیں۔ اگر چہ ان میں دونوں فونٹ بہت حد تک بولڈ ہیں۔میں نے اس طریقے سے کوشش کی تھی ٹریننگ تو نہیں ہوئی البتہ ٹف اور باکس فائلیں جنریٹ ہو گئی تھیں۔
ریختہ ڈاؤنلوڈر (گوگل او سی آر)سے بھی اردو متن بائی ڈیفالٹ لیفٹ ٹو رائٹ جنریٹ ہوتا ہے لفظ لیول پر۔پھر ٹیکسٹ فائل جو اس طریقے میں بن رہی ہے وہ سٹرنگ کو الٹ کر لکھی جائے؟
کیریکٹر لیول پر یا لفظ کے لیول پر۔