مناسب اور فیزبل الگوردم سوجھ جائے تو یوٹیلیٹی کوئی مسئلہ نہیں۔لغت کو استعمال کرتے ہوئے ٹیکسٹ پارسنگ کرنا کچھ زیادہ مشکل نہیں ہو گا، کچھ گھنٹوں میں ایک یوٹیلیٹی تیار ہوجانی چاہیے۔
ٹیکسریٹ کی ہائی لیول اے پی آئی میں امیج فائل کو پروسیس کرنے کی سہولت ہے، اس میں پورا صفحہ بھی دے سکتے ہیں یا پری پروسیسنگ کے ذریعے سطروں کو علیحدہ کر کے ایک ایک سطر کا مواد بھی حاصل کیا جاسکتا ہے۔فلسفی
یہ او سی آر ہوتا کن مرحلوں میں ہے؟ مکمل سطر ایک ساتھ؟ حروف؟ یا ترسیمے؟
پوچھنے کا مقصد یہ کہ کیا ہم ہر ترسیمے کی شناخت کے بعد کچھ کوڈ ڈال سکتے ہیں؟ اگر ہاں تو براہ راست الفاظ کو لغت کے مقابل چیک کرنے کے بعد write کیا جا سکتا ہے۔
یہ اس کمانڈ کا نتیجہ ہےیہ ٹیسٹ سیمپل آپ نے بہتر نتائج کیلئے ایسا بنایا ہے؟
text2image --text "/traintext.txt" --outputbase "/traintext" --fontconfig_tmpdir "/fontconfig" --fonts_dir "/usr/share/fonts" --font "Jameel Noori Nastaleeq" --leading 32
بہت شکریہ میں سکرپٹ سے سطریں بنا کر تربیتی مواد بناتا ہوں۔میرے پاس جو کچھ تھا کافی سال پہلے یہاں اپلوڈ کیا تھا۔ پاس ورڈ انگریزی حروف اے بی سی ڈی
بہت شکریہ سر۔ اصل میں کچھ کتابیں آپ کے بلاگ سے بھی ڈاؤنلوڈ کیں تھی۔ کیا تمام مواد ٹیکسٹ فائل میں (چاہے علیحدہ علیحدہ ہو) ایک زپ فائل یا کچھ زپ فائلز میں مل سکتا ہے؟میری لائبریری کی کتب سے مواد حاصل کریں تو بہتر ہے، محفل اور جنگ سے جمع کردہ مواد میں پہلے ہی سے بے تحاشا اعلاط ہیں، ورڈ لسٹ بھی مجھے اپنی ہی پسند ہے کہ مقتدرہ کی فہرست میں بھی ایسے ہی Non-words شامل ہیں( اس کا پہلا لفظ ہی' آآکر' تھا۔)
اس ربط کو بھی ملاحظہ کیجیے گا کیونکہ اردو ادب سے متعلقہ ویب سائٹس سے مواد لینے کی صورت میں اغلاط کا خدشہ کم سے کم ہو گا۔ اس صفحہ پر موجود روابط پر کلک کرنے پر آپ کو یونی کوڈ مواد دستیاب ہو گا۔بہت شکریہ فرقان بھائی، پہلا ربط دیکھتا ہوں۔ دوسرا والا تو پہلے ہی کنگھال چکا ہو
ویسے دوست بھائی والا ڈیٹا سکرپٹ پر لگایا ہوا ہے۔ ابھی تک ایک لاکھ پچاس ہزار سطریں بن گئیں ہیں۔ لیکن ان کو مزید ایک فلٹر سے گزارنا ہوگا۔ پھر فائنل مواد تیار کر کے آپ حضرات سے شئیر کروں گا۔
بہت شکریہ فرقان بھائی۔اس ربط کو بھی ملاحظہ کیجیے گا کیونکہ اردو ادب سے متعلقہ ویب سائٹس سے مواد لینے کی صورت میں اغلاط کا خدشہ کم سے کم ہو گا۔ اس صفحہ پر موجود روابط پر کلک کرنے پر آپ کو یونی کوڈ مواد دستیاب ہو گا۔
دراصل، پی ڈی ایف کے ساتھ ساتھ انہوں نے یونیکوڈ میں بھی مواد دیا ہوا ہے تاہم سائیڈ بائی سائیڈ ۔۔۔! ان روابط پر کلک کر کے یہ مواد کاپی پیسٹ کرنا ہو گا۔ وقت تو لگے گا، محترم ۔۔۔!بہت شکریہ فرقان بھائی۔
اس میں ڈیٹا تو پی ڈی ایف میں ہے۔ سارا مواد ڈاؤنلوڈ اور پروسیس کرنے کے لیے علیحدہ سے جگاڑ لگانی پڑے گی۔
فی الحال تو میں ڈیٹا ٹیکسٹ فائل میں حاصل کرنے کے موڈ میں ہوں۔ کیونکہ سطریں بنانے والا سکرپٹ سادہ ٹیکسٹ فائلز کو پروسیس کرتا ہے۔ خیر مواد کافی جاندار لگا رہا ہے۔ اس کو بھی وقت نکال کر دیکھتا ہوں۔ ان شاءاللہ۔
اچھا ہے فرقان بھائی، یہ میں نے نوٹ نہیں کیا تھا۔ یونیکوڈ ڈیٹا سکرپٹ کے ذریعے آسانی سے نکل سکتا ہے۔ کرتا ہوں اس کا کچھدراصل، پی ڈی ایف کے ساتھ ساتھ انہوں نے یونیکوڈ میں بھی مواد دیا ہوا ہے تاہم سائیڈ بائی سائیڈ ۔۔۔! ان روابط پر کلک کر کے یہ مواد کاپی پیسٹ کرنا ہو گا۔ وقت تو لگے گا، محترم ۔۔۔!