فلسفی
محفلین
کل تک امید ہے ہو جائے گا ان شاءاللہ ۔ 2 لاکھ باکس فائلز تو بن گئی ہیں۔ان شاء اللہ تعالیٰ
تقریباًً کتنی دیرلگے گی ؟
کل تک امید ہے ہو جائے گا ان شاءاللہ ۔ 2 لاکھ باکس فائلز تو بن گئی ہیں۔ان شاء اللہ تعالیٰ
تقریباًً کتنی دیرلگے گی ؟
ان شاء اللہ تعالیٰ۔کل تک امید ہے ہو جائے گا ان شاءاللہ ۔ 2 لاکھ باکس فائلز تو بن گئی ہیں۔
میں نے اس فائل سے لیگیچر اٹھا کر اس کی سطریں بنائیں ہیں۔ تقریبا چار لاکھ۔
یہ کیا چکر ہے؟ الفاظ یا سطور کی تعداد میں اتنا فرق؟تین کروڑ الفاظ پر سے سوا لاکھ الفاظ لوپ
منطق سے۔ آپ کی مہیا کردہ فائل میں 23580 لیگیچرز ہیں۔ سولہ مرتبہ لوپ چلایا اور ان لیگیچرز کو دو مختلف لسٹوں میں رکھا۔ ایک سیدھی ترتیب سے ایک الٹی ترتیب سے۔ پھر آٹھ لیگیچر رینڈم انداز سے اکھٹے کیے اور ایک سطر بنائی۔ اس طرح کل 377280 سطریں بنیں۔ مثلایہ کیا چکر ہے؟ الفاظ یا سطور کی تعداد میں اتنا فرق؟
آپ کا تیار کردہ متن زیادہ بہتر ہوگا۔منفرد الفاظ ہیں جو لگیچرز اور ہن سپیل کی ڈکشنری والی لسٹ سے اٹھائے ہیں۔ یہ لسٹ آٹھ برس قبل کرلپ کی سپیل چیکر لسٹ اور اسی ٹیکسٹ آرکائیو سے حاصل کردہ منفرد الفاظ کو ملا کر بنائی گئی تھی۔ پروف ریڈنگ کر کے مہمل بے کار املا کی غلطیاں نکالی گئی تھیں۔ سطور نکالنے کے پروگرام اور ورڈ لسٹ یہاں موجود ہیں۔
یہ برتن تو خالی ہےمنفرد الفاظ ہیں جو لگیچرز اور ہن سپیل کی ڈکشنری والی لسٹ سے اٹھائے ہیں۔ یہ لسٹ آٹھ برس قبل کرلپ کی سپیل چیکر لسٹ اور اسی ٹیکسٹ آرکائیو سے حاصل کردہ منفرد الفاظ کو ملا کر بنائی گئی تھی۔ پروف ریڈنگ کر کے مہمل بے کار املا کی غلطیاں نکالی گئی تھیں۔ سطور نکالنے کے پروگرام اور ورڈ لسٹ یہاں موجود ہیں۔
namespace UrduTessTrainingText
{
class Program
{
static void Main(string[] args)
{
}
}
}
منطق سے۔ آپ کی مہیا کردہ فائل میں 23580 لیگیچرز ہیں۔ سولہ مرتبہ لوپ چلایا اور ان لیگیچرز کو دو مختلف لسٹوں میں رکھا۔ ایک سیدھی ترتیب سے ایک الٹی ترتیب سے۔ پھر آٹھ لیگیچر رینڈم انداز سے اکھٹے کیے اور ایک سطر بنائی۔ اس طرح کل 377280 سطریں بنیں۔
او سی آر انجن نے چونکہ اردو نستعلیق متن کو کرننگ اسمیت پڑھنا ہے۔ اس لئے شاید یہ زیادہ بہتر ہوگا اگر رینڈم جنریشن کی بجائے نیچرل فریکونسی کے مطابق حروف، لگیچرز اور الفاظ کی جوڑیاں نکال کر پہلے ٹرین کروا لی جائیں۔آپ کا تیار کردہ متن زیادہ بہتر ہوگا۔
یہ کیا بلا یے؟نیچرل فریکونسی
یہ کیا بلا یے؟
فریکوئنسی: کسی لفظ کے زیرِ مطالعہ ٹیکسٹ میں ظاہر یا استعمال ہونے کی تعداد۔
ابھی تک کچھ لوگوں نے گٹ ہب پر عربی اور فارسی کے جو سیمپلز شئیر کر رکھے ہیں ان میں صفحات ہی استعمال کیے ہیں۔
عربی و فارسی خطوط میں کرننگ نامی خوفناک بلا نہیں ہوتی۔ نستعلیق کرننگ کی وجہ سے حروف و الفاظ ایک دوسرے پر چڑھ جاتے ہیں۔ مثال کے طور پر آپ کا فراہم کردہ سیمپل او سی آر انجن کو ایسے نظر آئے گا:سونے پر سہاگہ نستعلیق فونٹ کی کرننگ سے ہو جائے گا۔
اگر فونٹس سے مصنوعی امیجز تیار کرنا ہیں تو یہی طریقہ ہے۔ ورنہ اصلی والے صفحات یعنی سکینز استعمال کیے جائیں۔
یہ بھی دھیان رہے کہ اردو جیسی زبانوں کے پیچیدہ رسم الخط کی وجہ سے ٹریننگ کرواتے ہوئے 10000 پھیروں کی بجائے بیس ہزار پھیروں تک کے مشورے بھی دیے گئے ہیں۔ مزید براں ڈیٹا جتنا مرضی ہو اس بات کی کوئی ضمانت نہیں ہے کہ جنریٹ ہونے والی باکس فائل بالکل درست ہو گی۔ سب سے زیادہ مسئلہ اعراب اور مذہبی علامات جیسے رضی اللہ عنہ کی (یونی کیر سیٹ فائل میں) درست پوزیشننگ کے حوالے سے ہو گا۔ سونے پر سہاگہ نستعلیق فونٹ کی کرننگ سے ہو جائے گا۔ عربی اس معاملے میں بہت آسان زبان ہے کیونکہ اس کا فونٹ نسخ ہے اور الفاظ کے درمیان سپیس بہت حد تک واضح ہوتی ہے۔ٹیسرکٹ 4 ایک سطر میں سپیس کا پتا لگا کر الفاظ اور حروف کے گرد باکس بناتا ہے۔ اردو نستعلیق فونٹ میں سطر کی اونچائی اس معاملے پر پیچیدگی کی ایک اور تہہ ڈال دیتی ہے۔ تاہم یہ ٹریننگ کروانے کے بعد ہی پتہ چلے گا کہ نتائج کیا ہیں۔ فی الحال ہم اسلام آباد جانے کی بجائے وہاں جانے والی بس کا پتہ ہی پوچھ رہے ہیں۔
بلاشبہ آپ حضرات اس ضمن میں زیادہ معلومات رکھتے ہیں۔ عاجز نے اس بہانے آپ سے بہت کچھ سیکھا یے اور ان شاءاللہ مزید سیکھوں گا۔ اللہ پاک آپ کو جزائے خیر عطا کرے۔ آمین
/bin/bash: data/ground-truth/Jameel_Noori_Nastaleeq_12_214958.box: No space left on device
Makefile:119: recipe for target 'data/ground-truth/Jameel_Noori_Nastaleeq_12_214958.box' failed
make: *** [data/ground-truth/Jameel_Noori_Nastaleeq_12_214958.box] Error 1