'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

فیر کی کریے اے وی تے دسو
بھائی آپ نے جو آخری نتیجہ شیئر کیا ہے وہ پہلی لائن کی حد تک کافی تسلی بخش ہے اور اس میں کمی یا خامی اسپیسز کا غلط تعیین ہے جو کہ باکس فائل میں بھی غلط تھا۔
اب یا تو باکس فائلز کو مینوئلی درست کیا جائے یا کوئی ایسا طریقہ اختیار کیا جائے جس کے تحت خود کار باکس فائل میں اسپیس کی معلومات درست ہوں۔
خود کار طریقے میں ایک طریقہ ٹیکسٹ ٹو امیج میں --render_ngrams کا استعمال ہے۔ اس کے نتیجے میں بننے والی فائل میں اسپیس کی معلومات درست ہیں لیکن اس میں دو مزید باتیں دیکھنے کی ہیں:
ایک تو اس باکس لگیچر یا حرف کی بجائے الفاظ کی بنیاد پر بنتے ہیں تو بہتر نتیجے کے لیے زیادہ آئٹریشنز درکار ہوں گی۔
دوسرا یہ کہ اس طریقے سے بننے والی باکس فائل میں لگیچر کے برعکس الفاظ میں حروف کی ترتیب سیدھی ہی ہے۔
آپ آٹھ دس لائنیں لے کر ان پر اس طریقہ سے ٹریننگ کر سکتے ہیں یہ دیکھنے کے لیے کہ نتیجہ میں حاصل ہونے الفاظ درست ہیں یا الٹ۔
اگر الفاظ درست حاصل ہوتے ہیں تو اسی طریقے سے مزید ٹریننگ کی جائے اور اگر حروف کی ترتیب الٹ حاصل ہوتی ہے تو مزید ٹریننگ سے پہلے باکس فائل میں الفاظ میں حروف کی ترتیب الٹ کی جائے گی۔
اگر یہ طریقہ درست ثابت نہیں ہوتا تو باکس فائل کو مینوئلی درست کیا جائے گا۔
 

فلسفی

محفلین
بھائی آپ نے جو آخری نتیجہ شیئر کیا ہے وہ پہلی لائن کی حد تک کافی تسلی بخش ہے اور اس میں کمی یا خامی اسپیسز کا غلط تعیین ہے جو کہ باکس فائل میں بھی غلط تھا۔
اب یا تو باکس فائلز کو مینوئلی درست کیا جائے یا کوئی ایسا طریقہ اختیار کیا جائے جس کے تحت خود کار باکس فائل میں اسپیس کی معلومات درست ہوں۔
خود کار طریقے میں ایک طریقہ ٹیکسٹ ٹو امیج میں --render_ngrams کا استعمال ہے۔ اس کے نتیجے میں بننے والی فائل میں اسپیس کی معلومات درست ہیں لیکن اس میں دو مزید باتیں دیکھنے کی ہیں:
ایک تو اس باکس لگیچر یا حرف کی بجائے الفاظ کی بنیاد پر بنتے ہیں تو بہتر نتیجے کے لیے زیادہ آئٹریشنز درکار ہوں گی۔
دوسرا یہ کہ اس طریقے سے بننے والی باکس فائل میں لگیچر کے برعکس الفاظ میں حروف کی ترتیب سیدھی ہی ہے۔
آپ آٹھ دس لائنیں لے کر ان پر اس طریقہ سے ٹریننگ کر سکتے ہیں یہ دیکھنے کے لیے کہ نتیجہ میں حاصل ہونے الفاظ درست ہیں یا الٹ۔
اگر الفاظ درست حاصل ہوتے ہیں تو اسی طریقے سے مزید ٹریننگ کی جائے اور اگر حروف کی ترتیب الٹ حاصل ہوتی ہے تو مزید ٹریننگ سے پہلے باکس فائل میں الفاظ میں حروف کی ترتیب الٹ کی جائے گی۔
اگر یہ طریقہ درست ثابت نہیں ہوتا تو باکس فائل کو مینوئلی درست کیا جائے گا۔

جمیل خوشخطی والے فونٹ سے فقط "آہنی" کی ایک غلطی نظر آئی اس کے علاوہ تو باکس فائل اور ٹف دونوں ہی حروف کے اعتبار سے بالکل درست بنتی ہیں (جیسے میں نے درست کی جمیل نوری نستعلیق کے لیے)۔

uc


میرے خیال میں ایک تجربہ سارے متن کے ساتھ اس فونٹ کو استعمال کر کے بھی دیکھ لیتے ہیں۔ ورنہ پھر ابھی تو دو حل سامنے آئے ہیں۔

۱- جمیل نوری نستعلیق سے کی حروف والی باکس فائلز مینویلی بنائیں جائیں۔
۲- خودکار طریقے سے جو باکس فائلز بنیں (لگیچر والی) ان میں سپیسس کو درست کیا جائے۔

میں آخری تجربہ جمیل خوشخطی والے فونٹ سے کرتا ہوں پھر آگے چلتے ہیں۔

نوٹ : اس طریقہ الفاظ کی ترتیب ان پٹ فائل والی نہیں رہتی بلکہ رینڈم انداز میں الفاظ لے کر لائنیں جنریٹ ہوتی ہیں۔
ترتیب بھی دائیں سے بائیں ہے۔
 
جمیل خوشخطی والے فونٹ سے فقط "آہنی" کی ایک غلطی نظر آئی اس کے علاوہ تو باکس فائل اور ٹف دونوں ہی حروف کے اعتبار سے بالکل درست بنتی ہیں (جیسے میں نے درست کی جمیل نوری نستعلیق کے لیے)۔

uc
حروف کی حد تک تو ٹھیک ہے لیکن سپیس والا مسئلہ یہاں بھی لگ رہا ہے۔
اسی تصویر کے ٹیبل میں دیکھیں تو "روایت سے ہٹ کر" اس میں" ہٹ" اور" کر" کے درمیان سپیس کا باکس نہیں ہے جبکہ" ہ" اور" ٹ" کے درمیان یا "ک" اور "ر" کے درمیان سپیس دکھائی گئی ہے۔
تجربے کے بعد نتائج سے ہی درست اندازہ ہو سکے گا کہ یہ کس حد تک اثر انداز ہوتا ہے۔
 

جاسم محمد

محفلین
حروف کی حد تک تو ٹھیک ہے لیکن سپیس والا مسئلہ یہاں بھی لگ رہا ہے۔
اسی تصویر کے ٹیبل میں دیکھیں تو "روایت سے ہٹ کر" اس میں" ہٹ" اور" کر" کے درمیان سپیس کا باکس نہیں ہے جبکہ" ہ" اور" ٹ" کے درمیان یا "ک" اور "ر" کے درمیان سپیس دکھائی گئی ہے۔
تجربے کے بعد نتائج سے ہی درست اندازہ ہو سکے گا کہ یہ کس حد تک اثر انداز ہوتا ہے۔
مجھے بھی یہی نظر آ رہا ہے کہ خراب باکس فائل کی وجہ سے متوقع نتائج نہیں مل رہے۔ اسپیس کا کوئی جگاڑ نکالنا پڑے گا
 

فلسفی

محفلین
حروف کی حد تک تو ٹھیک ہے لیکن سپیس والا مسئلہ یہاں بھی لگ رہا ہے۔
اسی تصویر کے ٹیبل میں دیکھیں تو "روایت سے ہٹ کر" اس میں" ہٹ" اور" کر" کے درمیان سپیس کا باکس نہیں ہے جبکہ" ہ" اور" ٹ" کے درمیان یا "ک" اور "ر" کے درمیان سپیس دکھائی گئی ہے۔
تجربے کے بعد نتائج سے ہی درست اندازہ ہو سکے گا کہ یہ کس حد تک اثر انداز ہوتا ہے۔
سپیس کی جگہ الفاظ کے درمیان میں نہیں، بلکہ جڑے ہوئے الفاظ کے اوپر اور نیچے ہے۔مثلا "ہٹ کر" میں ہ کے بعد سپیس ٹ کے اوپر ہے کیونکہ "کر" ٹ کے اوپر اپنا سایا کیے ہوئے ہے :)
میرے خیال میں یہ چیز لیگیچر کے لیے مسئلہ کر سکتی ہے لیکن حروف کے لیے نہیں۔ (یہ میرا اندازہ ہے)۔

جاسم محمد جمیل نوری نستعلیق اور جمیل خوشخطی دونوں لیگیچر بیس ہیں؟ دونوں میں بنیادی فرق (خطاطی کے علاوہ) تکنیکی لحاظ سے کیا ہے؟
 

فلسفی

محفلین
خوشخطی لگیچر فونٹ نہیں ہے۔ البتہ خطاطی وہی نوری نستعلیق جیسی ہے

جمیل خوشخطی کریکٹر بیس ہے۔
یہی مسئلہ ہے پھر تو۔ فونٹ صحیح بنایا نہیں اور ہمیں کام پر لگا دیا ۔۔۔ اللہ پوچھے تمھیں جاسم :beat-up:

خیر میں جمیل خوشخطی والے پر تجربہ کرتا ہوں۔
 

جاسم محمد

محفلین
یہی مسئلہ ہے پھر تو۔ فونٹ صحیح بنایا نہیں اور ہمیں کام پر لگا دیا ۔۔۔ اللہ پوچھے تمھیں جاسم :beat-up:

خیر میں جمیل خوشخطی والے پر تجربہ کرتا ہوں۔
اس پراجیکٹ پر تجربات شروع کرنے سے قبل ہی تنبیہہ کر دی تھی کہ نستعلیق دنیا کا پیچیدہ ترین خط ہے۔ اور اسے ہماری بدقسمتی کہہ لیں کہ اردو کا زیادہ تر مواد اس کے لگیچر ڈ ورژن یعنی نوری نستعلیق خط میں ہے۔
اب بالفرض آپ ٹیسیریکٹ میں کسی دوسرے کیریکٹر خط کو ٹرین کر بھی لیتے ہیں تو کیا اس سے نوری نستعلیق کا او سی آر بن جائے گا؟
 

فلسفی

محفلین
اس پراجیکٹ پر تجربات شروع کرنے سے قبل ہی تنبیہہ کر دی تھی کہ نستعلیق دنیا کا پیچیدہ ترین خط ہے۔ اور اسے ہماری بدقسمتی کہہ لیں کہ اردو کا زیادہ تر مواد اس کے لگیچر ڈ ورژن یعنی نوری نستعلیق خط میں ہے۔
اب بالفرض آپ ٹیسیریکٹ میں کسی دوسرے کیریکٹر خط کو ٹرین کر بھی لیتے ہیں تو کیا اس سے نوری نستعلیق کا او سی آر بن جائے گا؟
ورک فلو واضح ہو جائے گا۔ اگر جمیل خوشخطی کے نتائج درست ہوئے تو ہم جمیل نوری نستعلیق کے کریکٹر بیس ورژن پر کام شروع کریں گے۔ ان شاءاللہ (یہاں ہم سے مراد جاسم ہے ;))
 

جاسم محمد

محفلین
ورک فلو واضح ہو جائے گا۔ اگر جمیل خوشخطی کے نتائج درست ہوئے تو ہم جمیل نوری نستعلیق کے کریکٹر بیس ورژن پر کام شروع کریں گے
ٹھیک ہے کیریکٹر فانٹ پر بھی تجربہ کرکے دیکھ لیں۔ لگیچر فانٹ میں شاید باکس فائل اس لئے خراب بنتی ہے کیونکہ انجن لگیچر کو ایک حرف سمجھتا ہے۔ واللہ اعلم
 

فلسفی

محفلین
ٹھیک ہے کیریکٹر فانٹ پر بھی تجربہ کرکے دیکھ لیں۔ لگیچر میں شاید باکس فائل اس لئے خراب بنتی ہے کہ انجن لگیچر کو ایک حرف سمجھتا ہے۔ واللہ اعلم
میرا بھی یہی خیال ہے۔ اس سارے قضیے میں فونٹ بہت اہم ہے۔ سپیس کے حوالے سے بھی اور لیگیچر، کریکٹر کے حوالے سے بھی۔ خیر نتائج دیکھتے ہیں۔
 

دوست

محفلین
جمیل خوشخطی کا تو مجھے معلوم نہیں البتہ فجر نوری نستعلیق کو کیریکٹر بیسڈ جمیل نستعلیق سمجھ لیں۔ اس سے بھی ٹرائی کر کے دیکھ لیں۔
دستی کام کی جہاں تک بات ہے، تو طریقہ کار وضع کر لیں، آگے دیکھتے ہیں۔ میں فنڈنگ کے حوالے سے اپنے وعدے پر قائم ہوں، چالیس ہزار مہینہ پر اگر کوئی 1 مہینہ کُل وقتی کام کرے، تو اتنے بلکہ قدرے زیادہ روکڑا مہیا کر سکتا ہوں۔ بندہ ڈھونڈنا پڑے گا۔ ایک دو بندوں سے پہلے کام کروایا تھا، لیکن اب دستیابی کا علم نہیں۔ پوچھنا پڑے گا۔ یہیں سے امید ہے کوئی مل جائے گا۔
 

جاسم محمد

محفلین
"روکڑے" کی باری تو تب آئے گی جب پائلٹ پراجیکٹ کامیاب ہو چکا ہو اور اب اسے سکیل ایبل بنانا مقصود ہو۔ ابھی تک تو صرف تجرباتی فیس ہی چل رہا ہے۔ لگیچر فانٹ مشکل لگ رہا ہے۔ کیریکٹر فانٹ پر دیکھتے ہیں کہ کیا نتیجہ نکلتا ہے۔
 

فلسفی

محفلین
لیں جی نتائج

تصویر کی پہلی اور آخری ٖلائن نوری نستعلیق میں، جبکہ درمیان والی نسخ میں
کوڈ:
کوھی کے آہنگی ٹفک یکھٹرکی میں ادرقدم رکتے
کر نبیا انسے ن زیان بہشر ب ا
کٹرکی مں موھی کے

جبکہ یہ تصویر جمیل خوشخطی میں ہے

کوڈ:
اسام علیم یہ سط رمیں وشیفوٹ سے ذریےلکیکئی ے تکہ ا سکواردوکے اوسیآرکے ذری تجربات طوربرٹی ٹکیاجا ے
1 لسلس عیم بہ سط رتمیل خ تخی فونٹ کے ذر ےلکھ یگئی ے اکہ 1 سکو اردوکے اوس آر کے ر یے تجرب ق طورپر
ٹی ٹکیا جا سے

حکخوفزدہ ہوگئے اور ا سکی وجہ اظہار ای نکی عدالت می ں پہنچاتونواب صاب

یہ پچیس ہزار آئٹریشنس کا نتیجہ ہے۔ لیکن اہم بات یہ ہے کی تربیت کے دوران یہ وارننگز آتی رہی ہیں

کوڈ:
Stripped 4 unrenderable words
Stripped 3 unrenderable words
Stripped 2 unrenderable words

اور آخر میں تربیتی سکرپٹ کریش کر گیا تھا
کوڈ:
Finished! Error rate = 12.802
num_docs > 0:Error:Assert failed:in file imagedata.cpp, line 650
Makefile:131: recipe for target 'data/checkpoints/urd1_checkpoint' failed
make: *** [data/checkpoints/urd1_checkpoint] Illegal instruction (core dumped)
make: *** Deleting file 'data/checkpoints/urd1_checkpoint'

وہ تو بھلا ہو سکرپٹ بنانے والے کا کہ سکرپٹ چیک پوائنٹس کی صورت میں بیک اپ لیتا رہتا ہے۔ اس لیے جو آخری بیک اپ اختتام سے پہلے اس کے ذریعے سے فائنل تربیتی مواد بنایا گیا ہے۔

میرے خیال میں تو فونٹ کی بہت اہمیت ہے ہمیں یہ دیکھنا پڑے گا کہ عام فونٹ یعنی نسخ والے جس پر عربی کی تربیت درست ہوتی ہے اس میں اور ہمارے نستعلیق والے فونٹس میں کیا فرق ہے تکنیکی لحاظ سے۔
حروف کے ساتھ باکس فائلز کو مینویلی درست کرکے مزید کچھ تجربات کیے جاسکتے ہیں جس سے یہ بات تو واضح ہو کہ یہی ایک راستہ ہے یا وہ بھی غلط کیونکہ اس تجربے میں فقط ایک سطر کا تربیتی مواد لیا گیا تھا۔
 

فلسفی

محفلین
ابھی ایک چھوٹا سا تجربہ کیا ہے۔ جمیل نوری نستعلیق اور جمیل خوشخطی والے فونٹس سے۔ جمیل نوری نستعلیق پر یہ ایرر نہیں آتا
کوڈ:
Stripped 2 unrenderable words
جبکہ جمیل خوشخطی والے فونٹ پر یہ مسئلہ دکھاتا ہے۔

متن یہ ہے

کوڈ:
تلملا اٹھا۔  اسے محسوس ہوا کہ وہ رسیوں
 میں جکڑا ہوا تھا اور اس کی آنکھوں پر
 بھی پٹی بندھی ہوئی تھی۔  اس احساس نے
 اس کا خون خشک کر دیا۔  بیتے واقعات
 ایک فلم کی طرح اس کی آنکھوں کے سامنے
اب کیا ہو گا۔۔۔؟ حالات کی نزاکت کا احساس ہوتے
 ہی اس کے وجود میں خوف کی ایک لہر
 دوڑ گئی۔  اسے یقین تھا کہ اس کے
 یونٹ کا کوئی فرد بھی زندہ نہ بچا ہو
 گا اور جو دھماکے میں بچ گیا ہو گا
 طالبان کی گولیوں کا نشانہ بن چکا ہو گا۔
  وہ مترجم تھا اور طالبان کے ہاتھوں مترجموں
 کی اذیت ناک موت کی وہ ساری کہانیاں اسے
 یاد آ گئیں جو اس نے ٹریننگ کے دوران
 سنی تھیں۔  طالبان کی دانست میں اتحادی فوجوں
 کے ساتھ کام کرنے والے مترجم غدّار تھے اور
 ہر غدّار کو عبرت ناک انجام تک پہچانے کے
 لیئے وہ ہر قسم کی اذّیت جائز سمجھتے تھے۔
  قیدی کی آنکھیں نکالنا اور ہاتھ پاؤں الگ
 کر دینا تو نہایت عام سی بات تھی طالبان
 تو قیدی کا چہرہ اتارنے سے بھی دریغ نہیں
 کرتے تھے۔  بلکہ اسلام اور جہاد کے نام
 پر مر مٹنے کا دعویٰ کرنے والے مذہب کے
 یہ ٹھیکیدار لاش کی بے حرمتی کرنے سے بھی
اس کے لئے یہ احساس ہی روح فرسا تھا کہ
 وہ طالبان کے ہتھے چڑھ چکا تھا اور لمحہ
 بہ لمحہ اس خوف میں اضافہ ہو رہا تھا
 کہ اچانک اسے یوں لگا جیسے کسی نے اسے
 پکارا ہو۔  اس نے غور کیا تو کوئی
 واقعی اس کا نام لے کر اسے پکار رہا
 تھا اور پھر کسی نے اس کے چہرے پر
 گھنٹی بجانے کے لئے ہاتھ اٹھایا تو اس کی
 نظر دروازے کی بائیں جانب آویزاں باپ کے نام
 کی تختی پر پڑ گئی ‘ماسٹر عنایت اللہ’ اس
 کے ہونٹوں پر مسکراہٹ کھیل گئی۔  اسے وہ
 دن کل کی طرح یاد تھا جب اس کے
 باپ نے وہ تختی اس جگہ پر لگائی تھی۔
  اس دن اس کا باپ کتنا خوش تھا۔
  اس کی نئی نئی ترقی ہوئی تھی اور
 تنخواہ بھی بڑھ گئی تھی۔  اسے اپنی وہ
 معصوم خواہش بھی یاد تھی جب اس نے باپ
 سے ضد کر کے اپنے نام کی بھی تختی
 لگوا دی تھی ‘ہدایت اللہ منزل’ وہ تختی بھی
برخوردار! ماسٹر جی تو گاؤں شفٹ ہو چکے ہیں۔
 اس نے چونک کر نظر نیچے کی تو دروازے
گاؤں شہر سے کوئی چالیس کلو میٹر دور تھا۔
 
Top