'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

فلسفی

محفلین
پانچ لاکھ پانچ ہزار سطروں کے ساتھ تربیت کروانے کے بعد نتائج کچھ یوں ہیں

uc


موجودہ نسخ والے بیسٹ ماڈل کو بیس ماڈل کے طور پر استعمال کرکے
کوڈ:
یف راے ان تمام باتو ںکاتجز کرتے ہو ئے کہتے ہیںکہ یسبکچھ اس لے ہورہا ہےکہاہم
نے احتجا عکرنابندکردیا ہے شایدسیف را ےگھر سہیں نلتے ورنہوہ د یکھنےککس طرح آج کےنو جوان
امریکی بکگروں اورکن ریسٹورنٹ کے سا نےکھڑے ہوکر لوگو ںکولقینکررہے تھےکہہم دیی روٹییہغ
دیی مرغ اور رو ٹیکھائیں گے ہ ہم نہوہ بقلیں پیں گے اورنہ وہ مغیا ںکھائیں گے حنیف راسے جی اِ
آ پکومعلوم ہے ان نمامنو جوان بیےبچیوں کے ساتھکیا ہوا تیسرے دن حکیکارند ےآئے ہیں اٹھاکر
گاڑیوں میں ڈا لکرشہرسئے با ہرچھوڑآ ئے ۹ُ

بغیر بیس ماڈل کے
کوڈ:
حنیف رامے انتمم باتو کاتجز کرتے ہو ئےکہتے ہیںکہ یسبکچھ اس لیے ہور با ہےکہہم
نے احتجا نکرنا بنذکر داہے شایدنیف را نے کھرہیں نگتے ورہوہ د کتےککساگر آج کےخ جوان
امریکی بکروں او رچڑن ریگورنٹ کے سا نےکھرے ہورؤکو کقینکر رہے ےکہ ہم دیی روئی پنے
دیی مرغ اوررو نیکھائئیں گے ب ہ ن و پلیں چہیں گے اورنہو ممنی ںکھائیں ئے صیف راسے جی ا
آ پکومعلوم ہے ان تمام نو جوان نچے چیوں کےسا تھکیا و تیسرے دن حلتیکارند ےآئے ہیں ا ٹکر
گاڑیوں میں ڈا لکرشہرسے پارچھو ڑآ ئےب

آپ حضرات کی کیا رائے ہے؟

میں نے سی ایل ای کا سافٹ وئیر بھی خرید لیا ہے۔ اس میں ان پٹ کے بارے میں کچھ بندشیں ہیں اور سپیڈ بھی بہت آہستہ ہے۔ مثلا
uc

اس لیے اس میں انٹرنیٹ پر موجود کتب کے مواد کا نتیجہ انتہائی ناقص ہے۔ لیکن اوپر دی گئی تصویر کا نتیجہ یوں ہے
کوڈ:
حنیف رامے ان تمام باتوں کا تجزیہ کرتے ہوئے کہتے ہیں کہ یہ سب کچھ اس لیے ہو ربا ہے کہ ہم
نے احتجاج کرنا بند کر دیا ہے۔ شاید حنیف رامے گھر سے نہیں نکلتے ورنہ وہ دکھیتے کہ کس طرح آج کے نوجوان
امریکی برگروں اور چکن ریسٹورنٹ کے سامنے کھڑے ہو کر لوگوں کو تلقین کر رہے تھے کہ ہم دیعی‌روٹی' چنے'
دیسی مرغ اور روٹی کھائیں گے۔ ہم نہ وہ بوتلیں پئیں گے اور نہ وہ مرغیاں کھائیں گے۔ حنیف‌رامےجی‌!
آپ کو معلوم ہے ان تمام نوجوان بچے بچیوں کے ساتھ کیا ہوا' تیسرے دن حکومتی کارندے آئے' انہیں اٹھا کر
گاڑیوں میں ڈال کر شہر سے باہر چھوڑ آئے۔
ابھی تک جو میں سمجھ پایا ہوں اس کے مطابق ان کے تربیتی مواد سے تصویر سے کچھ کوڈز حاصل ہوتے ہیں۔ مثلا اوپر دی گئی تصویر کو اگر ان کے تربیتی مواد سے پروسیس کروایا جائے تو یہ نتیجہ نکلتا ہے
کوڈ:
A01589A00616A03742A50684A00624A04066A50513A50670A00602A50553A02318A01080A51240A02994A00602A02490A03421A03742A51226A03293A50073A51240A50553A01589A03163A50513A50559A04045A51240A01981A03446A04955A50626A50735A04309A51218A04310A00602A04303A00703A00615A03893A04303A03873A04592A00703A04956A00613
A04955A00703A02313A03441A03868A01841A04309A01841A02943A04046A03742A00790A02316A09152A04303A05189A01480A01644A01680A04275A05073A01839A02557A50215A01842A01097A00602A04861A50748A50684A04047A03598A04279A50516A03598A01841A04310A01918A00703A50553
A50652A04956A01974A03867A50545A05189A02317A50830A02316A01589A00616A03742A02311A50684A04303A03598A04955A03991A01562A51240A00935A04955A04303A02799A04047A03911A00625A01839A04882A04309A04903A02321A03868 A03165A04160A50823A04897A02317A01644A01976A04303A04955A05189A04045A50629 A04857A04596A04097
A03155A50551A00615A04160A01571A03417A50506 A50557A05157A03770A04955A03032A04596A04956A05189A03426A04303A05189A00703A50506 A50557A50629A03981A00606A04956A05189A03426A05097A02217A50506 A50831A01098A03770A50545A05189A04303A04111A01976A04596A50830A02316
A03573A02236A00703A04184A01985A04956A01645A01839A50663A04303A03446A02078A02106A04955A02316A01839A03189A50107A00624A50513A50647A02235A02319A03868A04955A51079A50040A04210A02313A50823A04309A51218A04955A00624A50684A04309A04123A03867A50748A04047A01645
A50514 A00946A01839 A00616A50771A05189A51109A01525A50011A01892A03573A03871A03252A50557A04955A51151A50771A50507

جس کو پوسٹ پروسیس کیا جاتا ہے۔ جس میں کیوٹو لینگویچ ماڈل استعمال کیا گیا ہے۔ مزید تفصیل کے وقت درکار ہوگا۔ ایک اور اہم بات کہ سی ایل ای والے "tesseract 3.01" استعمال کر رہے ہیں۔

اب اگر ہم اپنے تربیتی مواد اور اس کے نتیجے کی بات کریں تو کیا پوسٹ پروسیسنگ کے ذریعے بہتری کی گنجائش نکل سکتی ہے؟
 

دوست

محفلین
نسخ والے پر جو ٹریننگ کروائی ہے اس میں ٹ ٹھیک ہے، اور رینڈم اعراب کے نتیجے میں ایک اضافی زیر اور ۹ُ عربی نو پر پیش نظر آ رہی ہے۔ کیا کہنے۔
اس کے بغیر والے میں تقریباً وہی مسائل ہیں۔
دونوں میں سپیس رینڈم ہے اور وقفہ ندارد، قرائن سے لگتا ہے کہ دیگر رموزِ اوقاف کے ساتھ بھی یہی صورتحال درپیش ہو گی۔ رموزِ اوقاف بڑھانے ہوں گے تربیتی مواد میں۔
کرلپ والا 3.01 کا ہی شک تھا، اور صحیح نکلا۔ جتنا ٹریننگ کروائی ہے اس کے مطابق تو کام پورا کر رہا ہے۔ ان کا تربیتی مواد ٹیسرکٹ 3 پر ہی چلا ہو گا نا؟
یہ نتائج بہترین درجے میں بھی اسی فیصد ہیں، اتنے کی پوسٹ پروسیسنگ کتنی کارآمد ہو گی۔
 

جاسم محمد

محفلین
فلسفی دوست ایک اور موازنہ پیش ہے۔

اصل:
uc


گوگل او سی آر:
حنیف راے ان تمام باتوں کا تجزیہ کرتے ہوئے کہتے ہیں کہ یہ سب کچھ اس لیے ہورہا ہے کہ ہم
نے احتجاج کرنا بند کر دیا ہے۔ شاید حنیف رائے گھر سے نہیں نکلتے ورنہ وہ دیکھتے کہ کس طرح آج کے نوجوان
امریکی برگروں اور چکن ریسٹورنٹ کے سامنے کھڑے ہو کر لوگوں کو تلقین کر رہے تھے کہ ہم دیکی روٹی چنے
دیسی مرغ اور روٹی کھائیں گے۔ ہم نہ وہ بولیں پئیں گے اور نہ وہ مرغیاں کھائیں گے۔ حنیف راے بی!
آپ کو معلوم ہے ان تمام نوجوان نے بچیوں کے ساتھ کیا ہوا تیسرے دن حکومتی کارندے آئے انہیں اٹھا کر
گاڑیوں میں ڈال کر شہر سے باہر چھوڑ آئے۔

سی ایل ای او سی آر:
حنیف رامے ان تمام باتوں کا تجزیہ کرتے ہوئے کہتے ہیں کہ یہ سب کچھ اس لیے ہو ربا ہے کہ ہم
نے احتجاج کرنا بند کر دیا ہے۔ شاید حنیف رامے گھر سے نہیں نکلتے ورنہ وہ دکھیتے کہ کس طرح آج کے نوجوان
امریکی برگروں اور چکن ریسٹورنٹ کے سامنے کھڑے ہو کر لوگوں کو تلقین کر رہے تھے کہ ہم دیعی‌روٹی' چنے'
دیسی مرغ اور روٹی کھائیں گے۔ ہم نہ وہ بوتلیں پئیں گے اور نہ وہ مرغیاں کھائیں گے۔ حنیف‌رامےجی‌!
آپ کو معلوم ہے ان تمام نوجوان بچے بچیوں کے ساتھ کیا ہوا' تیسرے دن حکومتی کارندے آئے' انہیں اٹھا کر
گاڑیوں میں ڈال کر شہر سے باہر چھوڑ آئے۔

محفل او سی آر:
حنیف رامے انتمم باتو کاتجز کرتے ہو ئےکہتے ہیںکہ یسبکچھ اس لیے ہور با ہےکہہم
نے احتجا نکرنا بنذکر داہے شایدنیف را نے کھرہیں نگتے ورہوہ د کتےککساگر آج کےخ جوان
امریکی بکروں او رچڑن ریگورنٹ کے سا نےکھرے ہورؤکو کقینکر رہے ےکہ ہم دیی روئی پنے
دیی مرغ اوررو نیکھائئیں گے ب ہ ن و پلیں چہیں گے اورنہو ممنی ںکھائیں ئے صیف راسے جی ا
آ پکومعلوم ہے ان تمام نو جوان نچے چیوں کےسا تھکیا و تیسرے دن حلتیکارند ےآئے ہیں ا ٹکر
گاڑیوں میں ڈا لکرشہرسے پارچھو ڑآ ئےب
 

دوست

محفلین
گوگل کا نتیجہ بہتر ہو گا کیونکہ ان کے پاس تربیت کے لیے بہت کچھ ہے، اور ان کا الگورتھم اس اوپن سورس سے کہیں آگے کی چیز ہے۔ بہتریاں کی گئی ہیں لازماً۔
 

فلسفی

محفلین
ایک بات اور نوٹ کی ہے کہ جیسا شکیب بھائی نے پوچھا تھا کہ سی ایل ای کا پروگرام متن کو سطروں میں تقسیم کر کے ایک ایک سطر کا متن نکالتا ہے۔ پھر لینگویج ماڈل کے ذریعے اس کو درست کرتا ہے۔ یہ کیونکہ نیورول نیٹورک کے بغیر کام کرتا ہے اس لیے ایک سطر سے مواد نکالنے کے لیے جیسا دوست نے کہا تھا کہ بغیر نقطوں اور اعراب کے بنیادی حروف کے ساتھ متن نکالا جاتا ہے۔ اس میں شاید سپیس والے کو کسی حد تک کم کیا جاتا ہے۔ سطروں میں متن کی تقسیم، فانٹ سائز کے حساب سے کی جاتی ہے پھر کوڈز اخذ کرنے کے بعد ان کو پروسیس کیا جاتا ہے۔ فی الحال یہ بات سمجھ نہیں آئی کہ کوڈز سیکیورٹی (تربیتی مواد کی حفاظت کے پیش نظر) کی وجہ سے بنائے گئے ہیں یا پرفارمنس کی وجہ سے یا کسی اور وجہ کی بنیاد پر۔

ایک اور بات جس کا پہلے شاید کسی نے تذکرہ بھی کیا تھا، 100 فیصد طریقہ کار معلوم نہیں لیکن شاید سطروں کو لینگویج ماڈل کے ذریعے ممکنہ طور جانچا جاتا ہے یعنی کہ ہر دو یا اس سے زیادہ الفاظ کی ممکنہ درست ترتیب کیا ہوسکتی ہے۔ ایسا کسی بہت بڑے ڈیٹا سیٹ کی بنیاد پر کرنے سے بہتر نتائج حاصل ہوسکتے ہیں۔ معلوم نہیں اس طریقہ کار کو کیا کہتے ہیں۔ ویسے یہ دلچسپ ہے، میں اس پر مزید کام کروں گا۔

خیر آپ حضرات کی کیا رائے ہے، مزید متن بنایا جائے؟
پوسٹ پروسیسنگ کے مختلف الگورتھم پر کام کیا جائے؟ یقینا آپ حضرات کی رائے اس میں اہم ہے۔ یا؟
 

عباس اعوان

محفلین
کچھ آبزرویشنز ہیں میری:
پانچ لاکھ پانچ ہزار سطروں کا تربیتی مواد ایک اچھے لیول کا مواد ہے۔
نئے ڈیٹا کی ٹیزرکٹ کے ساتھ ٹریننگ میں باکس فائلز کی کیا صورت حال ہے؟ کیا ان میں بہتری لائی جا سکتی ہے؟؟؟؟، چاہے مینوئلی ہی کیوں نہ کرنی پڑے۔
کیا تمام کیریکٹر درست ڈیٹیکٹ ہو رہے ہیں؟ اگر نہیں تو اس کو بہتر بنانے کی ضرورت ہے۔
ٹریننگ ڈیٹا کے امیجز کو تھوڑا بدل کر مزید ٹرین کروایا جائے۔ میرا مطلب ہے کہ تمام امیجز کا بیک گراؤنڈ وغیرہ تبدیل کیا جائے تا کہ وہ امیجز کچھ ایسے نظر آئیں:
uc


پوسٹ پروسیسنگ بہت ضروری ہے۔اگر تمام کیریکٹرز درست ڈیٹیکٹ ہو رہے ہیں تو سپیس ڈال کر الفاظ بنانا مشکل نہیں ہے، اس چیز کا الگورتھم جلد ہی شئیر کروں گا، ان شاء اللہ تعالیٰ
آفیشل فورم سے کچھ جواب وغیرہ آیا؟
باقی آپ کی کاوش بہت ہی لائق تحسین ہے فلسفی برادر۔
 

فلسفی

محفلین
بہت شکریہ عباس صاحب۔

نئے ڈیٹا کی ٹیزرکٹ کے ساتھ ٹریننگ میں باکس فائلز کی کیا صورت حال ہے؟ کیا ان میں بہتری لائی جا سکتی ہے؟؟؟؟، چاہے مینوئلی ہی کیوں نہ کرنی پڑے۔
اس پر پچھلے مراسلوں میں بات ہوچکی ہے کہ جمیل نوری نستعلیق سے باکس فائلز لیگیچر کے ساتھ درست بنتی ہیں۔ اور اگر فانٹ کریکٹر بیس ہے تب بھی باکس فائل درست ہیں۔ ہاں یہ بات ضرور ہے کہ باکس فائل میں کرننگ کی وجہ سے اسپیس کے لیے جگہ بہت مختصر ہوگی مثلا فقط ایک پکسل۔ شاید اس وجہ سے الفاظ کے درمیان سپیس درست نہیں بن پار رہی۔

کیا تمام کیریکٹر درست ڈیٹیکٹ ہو رہے ہیں؟ اگر نہیں تو اس کو بہتر بنانے کی ضرورت ہے۔
جیسا تربیتی مواد ہے اس کے حساب سے نتائج تو بہت بہتر ہیں۔ لیکن کہیں کہیں مسئلہ ہے۔ مثلا "مے" کا "ے" یا "ہے" کا "ے" بن جاتا ہے۔

ٹریننگ ڈیٹا کے امیجز کو تھوڑا بدل کر مزید ٹرین کروایا جائے۔ میرا مطلب ہے کہ تمام امیجز کا بیک گراؤنڈ وغیرہ تبدیل کیا جائے تا کہ وہ امیجز کچھ ایسے نظر آئیں:
اس کے بجائے جس امیج سے متن نکالنا ہے اس کو بلیک اینڈ وائٹ کر کے استعمال کیا جائے۔ سی ایل ای والے بھی یہی کر رہے ہیں۔

پوسٹ پروسیسنگ بہت ضروری ہے۔اگر تمام کیریکٹرز درست ڈیٹیکٹ ہو رہے ہیں تو سپیس ڈال کر الفاظ بنانا مشکل نہیں ہے، اس چیز کا الگورتھم جلد ہی شئیر کروں گا،
جی بالکل اس کا انتظار رہے گا۔
آفیشل فورم سے کچھ جواب وغیرہ آیا؟
ایک جواب آیا تھا اس میں مزید دو سوال پوچھے تھے۔ ان کا میں نے اسی دن (تین دن پہلے) جواب دے دیا تھا۔ اس کے بعد سے ابھی تک خاموشی ہے۔
 

فلسفی

محفلین
امیج کو بلیک اینڈ وائٹ کرنے سے او سی آر کی ایکوریسی کتنے فیصد بہتر ہوتی ہے؟
یہ طریقہ کار ابھی ٹیسریکٹ 4 یعنی اپنے والے تربیتی مواد کے ساتھ چیک نہیں کیا۔ کچھ مصروفیت ساتھ ساتھ چل رہی ہے۔ ایک یہ اور دوسرا پوسٹ پروسیسنگ والا کام لسٹ میں ہے ان شاءاللہ جلد اس کو دیکھتا ہوں۔
 

جاسم محمد

محفلین
معزز محفلین یہ ربط بھی دیکھ لیجیے گا؛ شاید کسی کام آ سکے ۔۔۔!
جزاک اللہ۔ فلسفی دوست عباس اعوان اس سیگمینٹیشن کےحوالہ سے ٹیزریکٹ انجن میں کام کیا جا سکتا ہے؟ یقینا یہ نستعلیق اسپیس (کرننگ) والا مسئلہ بھی حل کر سکتا ہے۔ اور اوی سی آر کی ایکوریسی بڑھانے میں معاون بھی ہے۔
Capture.jpg
 

دوست

محفلین
مزید تربیت اور تربیتی مواد کے حوالے سے اوپر اپنا مشاہدہ بیان کیا تھا رموزِ اوقاف کے حوالے سے ہاتھ تنگ لگ رہا ہے، وہ بڑھا دئیے جائیں سطروں میں۔ دو جملے درمیان سے ٹوٹے ہوئے۔ کوما، وقفہ، کولن، سیمی کولن، سوالیہ نشان، انشائیہ۔۔۔ ڈھونڈ کر ان کے اطراف کے دس دس الفاظ اٹھا کر سطور تشکیل دے دی جائیں۔ یہی کام دیگر اعراب کے ساتھ ہو سکتا ہے۔
پوسٹ پروسیسنگ یعنی سپیس ڈٹیکشن تو چلو ہو جائے گی۔
پری پروسیسنگ کے لیے ایک کمپوننٹ لکھنا پڑے گا، (مندرجہ بالا طریقے کے مطابق) جو صفحے کو سطور، سطور کو الفاظ اور پھر ترسیموں میں توڑ کر او سی آر انجن کو فیڈ کروائے۔ یہ کام تو ٹیسرکٹ کے بنیادی ورک فلو سے باہر کی چیز بن جائے گا؟ یا انفرادی ترسیموں کی بنیاد پر باکس فائلیں بنائی جائیں، انہیں سے ٹریننگ کروائی جائے، اور پھر ان پُٹ بھی اسی طریقے کے مطابق مہیا کی جائے؟ (اور آؤٹ پُٹ پر پروسیسنگ کر کے ٹکڑے جوڑے جائیں)۔؟
 

دوست

محفلین
اس تھیسز میں انگریزی کی ہاتھ کی لکھائی کی پہچان کا ذکر ہے۔ خصوصاً تاریخی کتب اور ڈائریوں میں رسم الخط ایسا ہے حروف باہم جڑے ہوتے ہیں۔ اور ان کی پہچان کافی حد تک درست طریقے سے کروا لی جاتی ہے۔ ڈیجیٹل ہیومینیٹیز کا موضوع ہے یہ۔
خیر یہ ورکنگ پیپر مل گیا۔ پوسٹ، پیپر، او سی آر۔ یہ حضرات عربی رسم الخط پر آزما رہے ہیں، تاریخی متون پر۔
 

فلسفی

محفلین
معزز محفلین یہ ربط بھی دیکھ لیجیے گا؛ شاید کسی کام آ سکے ۔۔۔!

ربط

جزاک اللہ۔ فلسفی دوست عباس اعوان اس سیگمینٹیشن کےحوالہ سے ٹیزریکٹ انجن میں کام کیا جا سکتا ہے؟ یقینا یہ نستعلیق اسپیس (کرننگ) والا مسئلہ بھی حل کر سکتا ہے۔ اور اوی سی آر کی ایکوریسی بڑھانے میں معاون بھی ہے۔
Capture.jpg

اس کو وقت نکال کر پڑھتا ہوں۔

مزید تربیت اور تربیتی مواد کے حوالے سے اوپر اپنا مشاہدہ بیان کیا تھا رموزِ اوقاف کے حوالے سے ہاتھ تنگ لگ رہا ہے، وہ بڑھا دئیے جائیں سطروں میں۔ دو جملے درمیان سے ٹوٹے ہوئے۔ کوما، وقفہ، کولن، سیمی کولن، سوالیہ نشان، انشائیہ۔۔۔ ڈھونڈ کر ان کے اطراف کے دس دس الفاظ اٹھا کر سطور تشکیل دے دی جائیں۔ یہی کام دیگر اعراب کے ساتھ ہو سکتا ہے۔
پوسٹ پروسیسنگ یعنی سپیس ڈٹیکشن تو چلو ہو جائے گی۔
پری پروسیسنگ کے لیے ایک کمپوننٹ لکھنا پڑے گا، (مندرجہ بالا طریقے کے مطابق) جو صفحے کو سطور، سطور کو الفاظ اور پھر ترسیموں میں توڑ کر او سی آر انجن کو فیڈ کروائے۔ یہ کام تو ٹیسرکٹ کے بنیادی ورک فلو سے باہر کی چیز بن جائے گا؟ یا انفرادی ترسیموں کی بنیاد پر باکس فائلیں بنائی جائیں، انہیں سے ٹریننگ کروائی جائے، اور پھر ان پُٹ بھی اسی طریقے کے مطابق مہیا کی جائے؟ (اور آؤٹ پُٹ پر پروسیسنگ کر کے ٹکڑے جوڑے جائیں)۔؟

بالکل ٹیسریکٹ کے علاوہ کچھ کام کرنا پڑے گا جو ٹیسریکٹ کی حدود سے باہر ہے۔ سی ایل ای والوں نے پوسٹ پروسیسنگ ایسا ہی کیا ہے۔ میرا خیال ہے کہ شاید گوگل والے بھی یہی کررہے ہیں۔ لیکن ان کے پاس ڈیٹا سیٹ اور پروسیسنگ پاور بہت ہے اس لیے نتیجہ بہتر بھی ہے اور فاسٹ بھی۔
 

فلسفی

محفلین
اس تھیسز میں انگریزی کی ہاتھ کی لکھائی کی پہچان کا ذکر ہے۔ خصوصاً تاریخی کتب اور ڈائریوں میں رسم الخط ایسا ہے حروف باہم جڑے ہوتے ہیں۔ اور ان کی پہچان کافی حد تک درست طریقے سے کروا لی جاتی ہے۔ ڈیجیٹل ہیومینیٹیز کا موضوع ہے یہ۔
خیر یہ ورکنگ پیپر مل گیا۔ پوسٹ، پیپر، او سی آر۔ یہ حضرات عربی رسم الخط پر آزما رہے ہیں، تاریخی متون پر۔
یہ دلچسپ ہے
which mimics the way we learn—to recognize letters in the images of entire lines of text without trying first to segment lines into words and then words into letters.
 

فلسفی

محفلین
اس تھیسز میں انگریزی کی ہاتھ کی لکھائی کی پہچان کا ذکر ہے۔ خصوصاً تاریخی کتب اور ڈائریوں میں رسم الخط ایسا ہے حروف باہم جڑے ہوتے ہیں۔ اور ان کی پہچان کافی حد تک درست طریقے سے کروا لی جاتی ہے۔ ڈیجیٹل ہیومینیٹیز کا موضوع ہے یہ۔
خیر یہ ورکنگ پیپر مل گیا۔ پوسٹ، پیپر، او سی آر۔ یہ حضرات عربی رسم الخط پر آزما رہے ہیں، تاریخی متون پر۔
یہ واقعی دلچسپ لگ رہا ہے۔ مزید وقت نکال کر پڑھتا ہوں۔ آپ کا کیا خیال ہے کہ ٹیسریکٹ والے کام کو یہی روک کر اس پر طبع آزمائی کی جائے؟ یعنی اپنے تربیتی مواد اور نستعلیق فانٹ سے اس انجن کے لیے تربیت کروائی جائے؟
 

دوست

محفلین
بنیادی طور پر یہ بھی پروڈکشن سکیل کا پراجیکٹ نہیں لگ رہا۔ دوسرے یہ کہ اس کا ورک فلو سمجھنے میں بھی وقت لگے گا، لیکن اگر اس میں پری اور پوسٹ پروسیسنگ ملوث نہیں ہے تو آزمانے میں کیا حرج ہے۔
کرلپ والے اگر ایک امیج کے سینکڑوں ٹکڑے کر کے پہچان کرواتے ہیں، اگر وہی ہمیں کروانا پڑا تو پروسیسنگ اور وقت تو بہت صرف ہو جائے گا۔
طےشدہ طور پر ٹیسرکٹ 4 پوری سطر دیکھتا ہے۔
فی الوقت اگر رموزِ اوقاف کی پہچان درست ہو جاتی ہے تو پوسٹ پروسیسنگ کی جگاڑ لگا کر دیکھ لی جائے (یا اس کے بغیر بھی آزما لیا جائے)۔ جہاں لفظ پوسٹ پروسیسنگ کے دوران ڈکشنری میں نہیں ملتا، اس کے گرد کوئی ستارے وغیرہ ڈال دئیے جائیں تاکہ صارف خود درستی کر سکے۔ بہرحال پوسٹ پروسیسنگ سطر بہ سطر ہونی چاہیئے ورنہ ہر سطر کے غلط شناخت شدہ الفاظ اور ان پر پوسٹ پروسیسنگ سے بعد والی سطور میں ایرر ریٹ بڑھتا چلا جائے گا۔ ڈکشنری تو حروف کا کمبی نیشن دیکھے گی، جو میچ ہو گیا وہاں سپیس ڈال دی۔ لیکن لفظ میں سے لفظ نکل آنے کا امکان نظر انداز نہیں کیا جا سکتا۔ فی الوقت کوئی مثال ذہن میں نہیں آ رہی۔
 
Top