'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

دوست

محفلین
ہمارا تو نیم حکیم خطرہ جان والا کام ہے۔ پہلے پروگرام مٹا مٹا کر لکھتے رہے اب اس کے مکمل چلنے کا انتظار ہے۔ ابھی ستاون ہزار الفاظ باقی ہیں۔ وہی نیم حکیم سادہ کام کرنے کی بجائے اوکھا کام کیا ہے، تین کروڑ الفاظ پر سے سوا لاکھ الفاظ لوپ، اگے تسیں سمجھدار او۔
میں کسی دیوار میں ٹکر بھی نہیں مار سکتا کہ سر اپنا اور دیوار سرکار کی ہے خرچہ دونوں طرف سے میرا ہی ہونا ہے۔
 

جاسم محمد

محفلین

دوست

محفلین
منفرد الفاظ ہیں جو لگیچرز اور ہن سپیل کی ڈکشنری والی لسٹ سے اٹھائے ہیں۔ یہ لسٹ آٹھ برس قبل کرلپ کی سپیل چیکر لسٹ اور اسی ٹیکسٹ آرکائیو سے حاصل کردہ منفرد الفاظ کو ملا کر بنائی گئی تھی۔ پروف ریڈنگ کر کے مہمل بے کار املا کی غلطیاں نکالی گئی تھیں۔ سطور نکالنے کے پروگرام اور ورڈ لسٹ یہاں موجود ہیں۔
 

دوست

محفلین
تب تک یہ انجوائے کریں۔
giphy.gif
 

فلسفی

محفلین
یہ کیا چکر ہے؟ الفاظ یا سطور کی تعداد میں اتنا فرق؟
منطق سے۔ آپ کی مہیا کردہ فائل میں 23580 لیگیچرز ہیں۔ سولہ مرتبہ لوپ چلایا اور ان لیگیچرز کو دو مختلف لسٹوں میں رکھا۔ ایک سیدھی ترتیب سے ایک الٹی ترتیب سے۔ پھر آٹھ لیگیچر رینڈم انداز سے اکھٹے کیے اور ایک سطر بنائی۔ اس طرح کل 377280 سطریں بنیں۔ مثلا

یٔ شست کیتلی لیثی منبت پتئے طنّو بھینٹئے سمجھتیں
یِ ستنثا گٹھنو پھنی شیشیا پنگت صفحو قبیس طیبہ
 

فلسفی

محفلین
منفرد الفاظ ہیں جو لگیچرز اور ہن سپیل کی ڈکشنری والی لسٹ سے اٹھائے ہیں۔ یہ لسٹ آٹھ برس قبل کرلپ کی سپیل چیکر لسٹ اور اسی ٹیکسٹ آرکائیو سے حاصل کردہ منفرد الفاظ کو ملا کر بنائی گئی تھی۔ پروف ریڈنگ کر کے مہمل بے کار املا کی غلطیاں نکالی گئی تھیں۔ سطور نکالنے کے پروگرام اور ورڈ لسٹ یہاں موجود ہیں۔
آپ کا تیار کردہ متن زیادہ بہتر ہوگا۔
 

فلسفی

محفلین
منفرد الفاظ ہیں جو لگیچرز اور ہن سپیل کی ڈکشنری والی لسٹ سے اٹھائے ہیں۔ یہ لسٹ آٹھ برس قبل کرلپ کی سپیل چیکر لسٹ اور اسی ٹیکسٹ آرکائیو سے حاصل کردہ منفرد الفاظ کو ملا کر بنائی گئی تھی۔ پروف ریڈنگ کر کے مہمل بے کار املا کی غلطیاں نکالی گئی تھیں۔ سطور نکالنے کے پروگرام اور ورڈ لسٹ یہاں موجود ہیں۔
یہ برتن تو خالی ہے

namespace UrduTessTrainingText
{
class Program
{
static void Main(string[] args)
{
}
}
}
 

جاسم محمد

محفلین
منطق سے۔ آپ کی مہیا کردہ فائل میں 23580 لیگیچرز ہیں۔ سولہ مرتبہ لوپ چلایا اور ان لیگیچرز کو دو مختلف لسٹوں میں رکھا۔ ایک سیدھی ترتیب سے ایک الٹی ترتیب سے۔ پھر آٹھ لیگیچر رینڈم انداز سے اکھٹے کیے اور ایک سطر بنائی۔ اس طرح کل 377280 سطریں بنیں۔
آپ کا تیار کردہ متن زیادہ بہتر ہوگا۔
او سی آر انجن نے چونکہ اردو نستعلیق متن کو کرننگ اسمیت پڑھنا ہے۔ اس لئے شاید یہ زیادہ بہتر ہوگا اگر رینڈم جنریشن کی بجائے نیچرل فریکونسی کے مطابق حروف، لگیچرز اور الفاظ کی جوڑیاں نکال کر پہلے ٹرین کروا لی جائیں۔
دوست کیا خیال ہے اس بارہ میں؟
 

دوست

محفلین
وہی نیم حکیم، پہلی مرتبہ یہ کام کیا ہے۔ 12 برس ہو گئے سی شارپ میں کوڈنگ کرتے، کوڈنگ کیا کرتے بس ترلے کرتے۔ اب چیک کریں۔
اردو ورڈ لسٹ کا لنک بدل دیا ہے۔
 

دوست

محفلین
میرا مقصد اس سلسلے صرف اتنا تھا کہ ایک ایسی ٹریننگ ڈیٹا فائل تیار ہوجائے جس میں اردو کے زیادہ سے زیادہ دستیاب اور درست کردہ الفاظ اپنے سیاق و سباق سمیت موجود ہوں۔ اس لئے میں نے ترسیموں اور سپیل چیکر سے حاصل کردہ الفاظ، اور اردو کی بورڈ سے تقریباً تمام علامات، اعراب وغیرہ کو یکجا کر کے کئی برسوں کے دوران حاصل کردہ ڈیٹا (جنگ اور نوائے وقت اخبارات اور اعجاز اختر صاحب کی کتب) سے سطور جنریٹ کروانے کا قصد کیا۔ اور ہر لفظ کی 3 سطور نکالنے کی کوشش کی ہے تاکہ تقریباً چار لاکھ سطور ہو سکیں۔ میرے محدود علم کے مطابق اور دستیاب وسائل کے حساب سے یہ سطور فائل اگر تیار ہو گئی تو اردو کے متنوع ترین ڈیٹا پر مشتمل ہو گی۔
مزید برآں میں نے پروگرام بھی لکھ دیا ہے جو کہ اوپر مراسلے میں موجود ربط پر ہے اور یہ ورڈ لسٹ بھی۔ کوئی بھی اس ورڈ لسٹ اور اپنے ڈیٹا کو استعمال کرکے اپنی مرضی کے مطابق طوالت کی حامل سطور جنریٹ کرسکتا ہے۔ شاید انگریزی میں کہیں تو اوور کِل یعنی بلا ضرورت اضافی کام ہے، تاہم میری فہم اس حوالے سے یہی تھی جیسا کہ میں نے اوپر وضاحت کی ہے۔
 

دوست

محفلین
اردو کے زیادہ فریکوئنسی والے الفاظ ان سطور میں موجود سیاق و سباق کی وجہ سے بار بار دوہرائے جائیں گے۔ دراصل صرف چند سو الفاظ ہی بہت زیادہ فریکوئنسی کے حامل الفاظ ہوتے ہیں، اس کے بعد الفاظ کی فریکوئنسی گرتی چلی جاتی ہے اور بڑے سے بڑے ڈیٹا سیٹ میں بھی آپ کو دسیوں ہزار ایسے الفاظ ملتے ہیں جن کی فریکوئنسی دو تین یا چار ہوتی ہے۔
فریکوئنسی: کسی لفظ کے زیرِ مطالعہ ٹیکسٹ میں ظاہر یا استعمال ہونے کی تعداد۔
 

فلسفی

محفلین
میری ناقص فہم کے مطابق سطور کے بجائے صفحات سے انجن کو تربیت دی جانی چاہیے تاکہ اصل تصاویر سے متن حاصل کرنے میں اس کو آسانی ہو۔ ابھی تک کچھ لوگوں نے گٹ ہب پر عربی اور فارسی کے جو سیمپلز شئیر کر رکھے ہیں ان میں صفحات ہی استعمال کیے ہیں۔ والله اعلم
 

دوست

محفلین
اگر فونٹس سے مصنوعی امیجز تیار کرنا ہیں تو یہی طریقہ ہے۔ ورنہ اصلی والے صفحات یعنی سکینز استعمال کیے جائیں۔
یہ بھی دھیان رہے کہ اردو جیسی زبانوں کے پیچیدہ رسم الخط کی وجہ سے ٹریننگ کرواتے ہوئے 10000 پھیروں کی بجائے بیس ہزار پھیروں تک کے مشورے بھی دیے گئے ہیں۔ مزید براں ڈیٹا جتنا مرضی ہو اس بات کی کوئی ضمانت نہیں ہے کہ جنریٹ ہونے والی باکس فائل بالکل درست ہو گی۔ سب سے زیادہ مسئلہ اعراب اور مذہبی علامات جیسے رضی اللہ عنہ کی (یونی کیر سیٹ فائل میں) درست پوزیشننگ کے حوالے سے ہو گا۔ سونے پر سہاگہ نستعلیق فونٹ کی کرننگ سے ہو جائے گا۔ عربی اس معاملے میں بہت آسان زبان ہے کیونکہ اس کا فونٹ نسخ ہے اور الفاظ کے درمیان سپیس بہت حد تک واضح ہوتی ہے۔ٹیسرکٹ 4 ایک سطر میں سپیس کا پتا لگا کر الفاظ اور حروف کے گرد باکس بناتا ہے۔ اردو نستعلیق فونٹ میں سطر کی اونچائی اس معاملے پر پیچیدگی کی ایک اور تہہ ڈال دیتی ہے۔ تاہم یہ ٹریننگ کروانے کے بعد ہی پتہ چلے گا کہ نتائج کیا ہیں۔ فی الحال ہم اسلام آباد جانے کی بجائے وہاں جانے والی بس کا پتہ ہی پوچھ رہے ہیں۔
 

جاسم محمد

محفلین
ابھی تک کچھ لوگوں نے گٹ ہب پر عربی اور فارسی کے جو سیمپلز شئیر کر رکھے ہیں ان میں صفحات ہی استعمال کیے ہیں۔
سونے پر سہاگہ نستعلیق فونٹ کی کرننگ سے ہو جائے گا۔
عربی و فارسی خطوط میں کرننگ نامی خوفناک بلا نہیں ہوتی۔ نستعلیق کرننگ کی وجہ سے حروف و الفاظ ایک دوسرے پر چڑھ جاتے ہیں۔ مثال کے طور پر آپ کا فراہم کردہ سیمپل او سی آر انجن کو ایسے نظر آئے گا:
 

فلسفی

محفلین
اگر فونٹس سے مصنوعی امیجز تیار کرنا ہیں تو یہی طریقہ ہے۔ ورنہ اصلی والے صفحات یعنی سکینز استعمال کیے جائیں۔
یہ بھی دھیان رہے کہ اردو جیسی زبانوں کے پیچیدہ رسم الخط کی وجہ سے ٹریننگ کرواتے ہوئے 10000 پھیروں کی بجائے بیس ہزار پھیروں تک کے مشورے بھی دیے گئے ہیں۔ مزید براں ڈیٹا جتنا مرضی ہو اس بات کی کوئی ضمانت نہیں ہے کہ جنریٹ ہونے والی باکس فائل بالکل درست ہو گی۔ سب سے زیادہ مسئلہ اعراب اور مذہبی علامات جیسے رضی اللہ عنہ کی (یونی کیر سیٹ فائل میں) درست پوزیشننگ کے حوالے سے ہو گا۔ سونے پر سہاگہ نستعلیق فونٹ کی کرننگ سے ہو جائے گا۔ عربی اس معاملے میں بہت آسان زبان ہے کیونکہ اس کا فونٹ نسخ ہے اور الفاظ کے درمیان سپیس بہت حد تک واضح ہوتی ہے۔ٹیسرکٹ 4 ایک سطر میں سپیس کا پتا لگا کر الفاظ اور حروف کے گرد باکس بناتا ہے۔ اردو نستعلیق فونٹ میں سطر کی اونچائی اس معاملے پر پیچیدگی کی ایک اور تہہ ڈال دیتی ہے۔ تاہم یہ ٹریننگ کروانے کے بعد ہی پتہ چلے گا کہ نتائج کیا ہیں۔ فی الحال ہم اسلام آباد جانے کی بجائے وہاں جانے والی بس کا پتہ ہی پوچھ رہے ہیں۔


عربی و فارسی خطوط میں کرننگ نامی خوفناک بلا نہیں ہوتی۔ نستعلیق کرننگ کی وجہ سے حروف و الفاظ ایک دوسرے پر چڑھ جاتے ہیں۔ مثال کے طور پر آپ کا فراہم کردہ سیمپل او سی آر انجن کو ایسے نظر آئے گا:
بلاشبہ آپ حضرات اس ضمن میں زیادہ معلومات رکھتے ہیں۔ عاجز نے اس بہانے آپ سے بہت کچھ سیکھا یے اور ان شاءاللہ مزید سیکھوں گا۔ اللہ پاک آپ کو جزائے خیر عطا کرے۔ آمین
 

فلسفی

محفلین
/bin/bash: data/ground-truth/Jameel_Noori_Nastaleeq_12_214958.box: No space left on device
Makefile:119: recipe for target 'data/ground-truth/Jameel_Noori_Nastaleeq_12_214958.box' failed
make: *** [data/ground-truth/Jameel_Noori_Nastaleeq_12_214958.box] Error 1

:cry2::cry2::cry2::cry2:

ابھی بھی پانچ جی بی ڈسک سپیس موجود ہے لیکن کمبخت نہ جانے کیوں کریش کرگیا۔ دوبارہ چلایا ہے لیکن شاید اس کو بھی نیند آ رہی ہے اس لیے اٹک گیا ہے۔ مزید انتظار میں بیٹھا تو لیپ ٹاپ توڑ بیٹھوں گا۔ لہذا کل دیکھوں گا اس کو۔
 
Top