var filename = uiFileName.Text + item.SubItems[0].Text + item.SubItems[1].Text + item.SubItems[2].Text + (i++);
filename = System.Text.RegularExpressions.Regex.Replace(filename, " ", "_");
زبردست۔آخر کار "ocrd-train" سے 972 تصاویر بمعہ متن کے تربیتی مواد بنانے میں کامیاب ہو گیا۔ فونٹ تجرباتی طور پر ایریل استعمال کیا تھا۔ لیکن یہ پورا پروسیس بہت ہی آہستہ کام کرتا ہے جیسا ٹیسریکٹ کی ویب سائٹ پر بھی لکھا ہے۔ 972 تصاویر کے لیے تقریبا ۵ گھنٹے لگے۔ میرے خیال میں 972 بہت کم لائنز ہیں۔ میں یہ گٹ ہب پر لوڈ کر رہا ہوں اگر باقی حضرات اس میں مزید لائنز شامل کر سکیں یا درست کر سکیں تو اچھا رہے گا۔ میں نے جو پروسیس چلایا اس کا ایرر ریٹ بہت زیادہ ہے۔ اس کی تفصیل تو نہیں معلوم البتہ کہیں پڑھا تھا کہ ابتدا سے تربیتی مواد بنانے میں ایرر ریٹ زیادہ ہوتا ہے اس سے بہتر ہے کہ اوپر والی لئیر (نیورول نیٹورک) کو تبدیل کیا جائے (مجھے فی الحال اس کی سمجھ نہیں آئی)۔
ایریل والا تربیتی مواد نستعلیق پر شاید ہی درست نتائج دے سکے۔ ایریل نسخ ہے۔اس تربیتی مواد کو نستعلیق والے تصویر پر استعمال کرنے پر نتیجہ تو درست نہیں لیکن ایک وارننگ یہ بھی نظر آئی ہے۔
Failed to load any lstm-specific dictionaries for lang urd!!
میرے خیال میں فی الوقت ایک ہی فونٹ کو ٹارگٹ کیا جائے۔میرے خیال میں فونٹ کے سائز سے زیادہ مختلف فونٹس کے ساتھ تصاویر اور ان کا متن زیادہ ضروری ہے۔ آپ حضرات کی کیا رائے ہے؟
مجھے اگر آپ حضرات فونٹس کی لسٹ اور سائز بتا دیں تو میں اپنی مشین تربیتی مواد تیار کر دوں گا۔ تربیتی متن میں نے محترم اعجاز عبید صاحب کی تیار کردہ تین کتب (Muqadma، PaniSatah، Valentine) سے اکھٹا کیا ہے۔ جو یہاں موجود ہے۔
متفق۔ کیونکہ اکثر اردو کتب کی پرنٹنگ اسی خط میں ہے۔میرے خیال میں فی الوقت ایک ہی فونٹ کو ٹارگٹ کیا جائے۔
چونکہ ہمارا مقصد نستعلیق او سی آر ہے، تو جمیل نوری نستعلیق سے تربیتی مواد تیار کیا جائے اور اس سے تجربات کیے جائیں۔
ٹیسریکٹ کے تربیتی صفحے پر یہ لکھا ہےتربیتی مواد بننے میں بہت وقت صرف ہو رہا ہے۔ اگر تو یہ ٹیزرکٹ کے حساب سے معمول کی بات ہے
ویسے بھی مختلف فورمز پر پڑھا کہ حقیقی تربیتی کام میں گھنٹے نہیں بلکہ دن لگتے ہیں ، فقط کمپیوٹر پروسیسسنگ میں۔ خیر اس کو بہتر کرنے کے لیے ٹیسریکٹ کے کوڈ کو دیکھنا ہوگا۔ اس کے لیے مزید وقت درکار ہوگا جو شاید فی الحال مناسب نہیں۔ میرے خیال میں پروگرامرز نے اس بات کا خیال رکھا ہی ہوگا۔ بصورت دیگر شاید ہم ٹیسریکٹ کی ڈویلپمنٹ میں پھنس جائیں گے، جو ایک علیحدہ ٹریک ہے۔Neural networks require significantly more training data and train a lot slower than base Tesseract.
میرے خیال میں فی الوقت ایک ہی فونٹ کو ٹارگٹ کیا جائے۔
چونکہ ہمارا مقصد نستعلیق او سی آر ہے، تو جمیل نوری نستعلیق سے تربیتی مواد تیار کیا جائے اور اس سے تجربات کیے جائیں۔
ابھی کے لیے فونٹ سائز وہی بہتر ہے جو محفل میں ڈیفالٹ نظر آتا ہے۔
فونٹ کا سائز کیا ہے؟ یہ فونٹ کہاں سے لوں؟ فونٹ تو گوگل دے دے گا لیکن بے شمار لنکس ہوتے ہیں یہ نہ ہوکہ پھر غلط فونٹ پر تجربہ کرنے لگوں۔متفق۔ کیونکہ اکثر اردو کتب کی پرنٹنگ اسی خط میں ہے۔
پھر ٹھیک ہے۔ٹیسریکٹ کے تربیتی صفحے پر یہ لکھا ہے
ویسے بھی مختلف فورمز پر پڑھا کہ حقیقی تربیتی کام میں گھنٹے نہیں بلکہ دن لگتے ہیں ، فقط کمپیوٹر پروسیسسنگ میں۔ خیر اس کو بہتر کرنے کے لیے ٹیسریکٹ کے کوڈ کو دیکھنا ہوگا۔ اس کے لیے مزید وقت درکار ہوگا جو شاید فی الحال مناسب نہیں۔ میرے خیال میں پروگرامرز نے اس بات کا خیال رکھا ہی ہوگا۔ بصورت دیگر شاید ہم ٹیسریکٹ کی ڈویلپمنٹ میں پھنس جائیں گے، جو ایک علیحدہ ٹریک ہے۔Neural networks require significantly more training data and train a lot slower than base Tesseract.
جاسمفونٹ کا سائز کیا ہے؟ یہ فونٹ کہاں سے لوں؟ فونٹ تو گوگل دے دے گا لیکن بے شمار لنکس ہوتے ہیں یہ نہ ہوکہ پھر غلط فونٹ پر تجربہ کرنے لگوں۔
اس ضمن میں میرے دو سوالات ہیں:ایک کام جس میں باقی محفلین ہاتھ بٹا سکتے ہیں بلکہ جو اردو زبان کی ڈومین کو سمجھتے ہیں وہ زیادہ اہم ہیں، یعنی تربیتی متن۔ ابھی جو فائل پہلے گٹ ہب پر شئیر کی ہے اس میں صرف ۹۰۰ کچھ لائنز ہیں۔ میرے خیال میں ایک یا دو لاکھ لائنز کے ساتھ تجربہ کرنا ٹھیک رہے گا، آپ کیا کہتے ہیں؟
سادہ سے حساب کتاب کے مطابق تقریبا اکیس دن ، حقیقتا معلوم نہیں۔ایک لاکھ سطروں کے ساتھ تربیتی مواد تیار کرنے میں کتنا وقت لگے گا ؟
اس کو دیکھنا پڑے گا۔ ویسے کسی نے جگاڑ بتائی ہے جس کا تجربہ کیا جاسکتا ہے، میں وقت نکال کر اس کا تجربہ کرتا ہوں
- اگر ایک لاکھ سطروں کو 2 مختلف کمپیوٹرز پر تقسیم کر دیا جائے، تو کیا تربیتی مواد یکجا کیا جا سکے گا ؟
Tesseract does not look for language data at two different folders. What you can do is rename one of them, e.g., to eng1.traineddata, and then specify them as -l eng+eng1 option to the tesseractcommand.
ابھی مندرجہ ذیل والا تجربہ پہلے کر لیں۔سادہ سے حساب کتاب کے مطابق تقریبا اکیس دن ، حقیقتا معلوم نہیں۔
اس کو ضرور دیکھیں۔اس کو دیکھنا پڑے گا۔ ویسے کسی نے جگاڑ بتائی ہے جس کا تجربہ کیا جاسکتا ہے، میں وقت نکال کر اس کا تجربہ کرتا ہوں
Tesseract does not look for language data at two different folders. What you can do is rename one of them, e.g., to eng1.traineddata, and then specify them as -l eng+eng1 option to the tesseractcommand.
Traceback (most recent call last):
File "generate_line_box.py", line 41, in <module>
print(u"%s %d %d %d %d 0" % (prev_char, 0, 0, width, height))
UnicodeEncodeError: 'ascii' codec can't encode character u'\u062a' in position 0: ordinal not in range(128)
پرانا ورژن تو محفل فانٹ سرور پر ہی موجود ہے۔جمیل نوری نستعلیق کا کون سا ورژن بہتر رہے گا؟ میر ے خیال میں پچھلا ورژن ٹھیک ہے جس میں آٹو کشیدہ اور آٹو کرننگ نہیں تھی۔
لنک دے دیں اور ساتھ میں فونٹ سائز بھی بتا دیں۔
سائز سے مراد کے تصاویر بنانے کے لیے فونٹ کا کیا سائز رکھا جائے۔ 12، 14، 16، 18، 20 یا زیادہ؟سائز 13 ایم بی
معلوم نہیں زیادہ تر اردو کتب کتنے سائز میں چھاپی جاتی ہیں۔ محفل پر اگر کوئی کاتب یا پبلشر ہوں تو وہ بہتر بتا سکتے۔سائز سے مراد کے تصاویر بنانے کے لیے فونٹ کا کیا سائز رکھا جائے۔ 12، 14، 16، 18، 20 یا زیادہ؟