'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

دوست

محفلین
ماشاءاللہ، بہت اچھا کام ہے۔
اب سلسلہ یہ ہے کہ ہمارا مقصد تو پھر ایک اوپن سورس مفتا پروگرام (کمپیوٹر والا) تیار کرنا ہے۔ یا کم از کم کوشش کر کے دیکھنا ہے۔
آپ کوئی مدد کر سکتے ہیں تو بسم اللہ۔ کوئی تکنیکی مشورہ، ٹیسرکٹ کو کیسے استعمال کیا جائے۔ آپ پچھلے 11 صفحات میں ملاحظہ کر سکتے ہیں کہ ہم تقریباً دیوار کو ٹکریں ہی مار رہے ہیں دو ہفتے سے۔ ابھی تک اس پروگرام سے ایک ٹکے کا آزمائشی کام بھی نہیں کروا سکے۔
اوپر عرض کیا تھا کہ جگاڑیے ہیں، تیرہ برس سے اردو محفل پر جگاڑ سے ہی کچھ نہ کچھ کرتے چلے آ رہے ہیں۔ اور آئندہ بھی یہی کریں گے، کبھی کچھ بن جاتا ہے، کبھی دھاگوں کے قبرستان میں ایک کا اضافہ ہو جاتا ہے۔ اس سب فورم میں اردو او سی آر کے ذیل میں دیکھ لیں، کتنی گفتگو ہو چکی ہے، بلا کسی نتیجے کے۔
 

جاسم محمد

محفلین
ابھی تک اس پروگرام سے ایک ٹکے کا آزمائشی کام بھی نہیں کروا سکے۔
کل سے "OCR-D train" کوئی پانچ، چھے مرتبہ کریش کر چکا ہے، میموری کی وجہ سے۔ لیپ ٹاپ میں سولہ جی بی میموری ہے۔ ورچول مشین کو آٹھ جی بی مہیا کی تھی لیکن اس کی بنیاد پر فقط تین لاکھ چالیس ہزار فائلز کی باکس فائلز بن سکی ہیں۔ معلوم نہیں یہ سکرپٹ ڈیٹا میموری میں رکھتا ہے؟ چلتے چلتے سکرپٹ کریش کر جاتا ہے اور دوبارہ چلانے پر تقریبا آدھ سے ایک گھنٹے پوری ڈائریکٹری سکین کرنے کے بعد کام کرنا شروع کرتا ہے۔ اب اگر پھر کریش ہوا تو ڈیٹے کو دو حصوں میں تقسیم کرنا پڑے گا۔ یعنی دو، دو لاکھ اور پھر باری باری تربیت کروانے پڑے گے۔
اس پر مودی کا حالیہ بیان یاد آر ہا ہے کہ "پہلے پائلٹ پراجیکٹ ہوتا ہے، پھر اسے سکیل ایبل کیا جاتا ہے"
کیا یہ بہتر نہ ہوگا کہ لاکھوں الفاظ یا سطور پر بیک وقت کام کرنے کی بجائے پہلےکچھ سو یا ہزار سے شروعات کی جائیں۔ ٹیسٹنگ کی جائے۔ نتائج کو اچھی طرح پرکھا جائے۔
اور یوں جو نتائج پائلٹ پراجیکٹ میں کامیاب رہیں، اسے لاکھوں الفاظ و سطور تک سکیل ایبل کر دیا جائے؟
 

فلسفی

محفلین
اس پر مودی کا حالیہ بیان یاد آر ہا ہے کہ "پہلے پائلٹ پراجیکٹ ہوتا ہے، پھر اسے سکیل ایبل کیا جاتا ہے"
کیا یہ بہتر نہ ہوگا کہ لاکھوں الفاظ یا سطور پر بیک وقت کام کرنے کی بجائے پہلےکچھ سو یا ہزار سے شروعات کی جائیں۔ ٹیسٹنگ کی جائے۔ نتائج کو اچھی طرح پرکھا جائے۔
اور یوں نتیجتاًجو اسٹریجی پائلٹ پراجیکٹ میں کامیاب رہے، اسے لاکھوں الفاظ و سطور تک سکیل ایبل کر دیا جائے؟
تجرباتی بنیاد پر چند سطروں کے ساتھ تجربہ کیا جا چکا ہے۔ نتیجہ کارآمد نہیں تھا اس لیے زیادہ مواد کے ساتھ کوشش کر رہے ہیں۔
 

جاسم محمد

محفلین
نتیجہ کارآمد نہیں تھا اس لیے زیادہ مواد کے ساتھ کوشش کر رہے ہیں۔
وہ تجربہ غلط باکس فائلوں کے ساتھ تھا۔
میرے خیال میں جب تک پائلٹ پراجیکٹ کوئی خاطر خواہ نتیجہ نہیں دکھاتا۔ اسے مزید اسکیل ایبل بنانے کا شاید کوئی فائدہ نہیں ہوگا۔
 

لام الف

محفلین
رزلٹ تو اچھا ہے لیکن جیسے محترم دوست نے فرمایا کہ ہم اوپن سورس پروجیکٹ کے حق میں ہیں۔ کیا آپ اپنی تحقیق کی مزید تفصیل بتانا پسند فرمائیں گے۔


متفق، دوسرا مجھے سمجھ لیں۔

جلد ہی کتب اور او سی آر اور دیگر کئی سروسز آپ مفت میسر ہوں گی
 

لام الف

محفلین
ہمارا مقصد اردو کا قیمتی سرمایہ بچانا ہے۔ ردی اور کباڑ سے ہمیں اس پروجیکٹ کی تحریک ملی تھی اور ہم کافی حد تک کامیاب ہیں
اقبالیات غالبیات تذکرے مکاتیب لغات وغیرہ میں آپکے لیے کچھ عرصہ پرانی فہرست شئر کر رہا ہوں

transfer.sh - Easy and fast file sharing from the command-line.
 

جاسم محمد

محفلین
جلد ہی کتب اور او سی آر اور دیگر کئی سروسز آپ مفت میسر ہوں گی
کیا آپ ریختہ کی بات کر رہے ہیں؟ اس حوالہ سے کتب ڈاؤنلوڈر اور قابل استعمال آن لائن او سی آر فلسفی بھائی پہلے ہی ریلیز کر چکے ہیں:
فلسفی بھائی کا ایک بار پھر شکر گزار ہوں جنہوں نے ریختہ سرقہ کرنے کے چکر میں ہمیں قابل استعمال اردو او سی آر سے نواز دیا :)
Capture.jpg
 

لام الف

محفلین
کیا آپ ریختہ کی بات کر رہے ہیں؟ اس حوالہ سے کتب ڈاؤنلوڈر اور قابل استعمال آن لائن او سی آر فلسفی بھائی پہلے ہی ریلیز کر چکے ہیں:
ہمارا مقصد کتب کا حصول سب کے لیے ممکن بنانا ہے ڈاؤنلوڈ کرکے آپ اپنی ڈسک میں رکھ کر کیا کریں گے جب تک اسکی کسی کے پاس رسائی نہ ہو۔ ریختہ نے یہی ممکن کیا ہے سب کے لیے۔ آپکو کیا اندازا ہے کہ کتنے ٹی بی درکار ہوں گے صرف چار پانچ ہزار کتب کو محفوظ کرنے کے لیے۔ یہ مستقل عمل ہے رسائی سب سے اہم پہلو ہے اسکا۔ یا ریختہ والے انٹرنیٹ کی ٹریفک کی مد میں جو آپ دیکھتے یا ڈاؤنلوڈ کرتے ہیں کبھی سوچا ہے اس پہلو پر
 

فلسفی

محفلین
لام الف محترم، ریختہ نے جو خدمت سرانجام دی ہے اس کے ہم معترف ہیں۔ بلاشبہ ایک قابل تعریف کام ہے۔

فی الحال اس زمرے میں ہم اردو کے آف لائن اوسی آر کے لیے گفتگو کر رہے ہیں۔ کیا آپ اپنی تحقیق، ٹولز اور ٹیکنالوجی کے بارے میں کچھ بتانا پسند فرمائیں گے؟ اگر مناسب سمجھیں۔ میں ایک پروگرامر ہوں لیکن او سی آر اور لسانیات کی ڈومین سے ناواقف۔ اس لیے فقط مختلف اوپن سورس سکرپٹ اور ٹولز پر تجربات کرنا پڑ رہے ہیں۔ بصورت دیگر اسی زمرے کی ابتدا میں عرض کی تھی کہ ڈومین کی معلومات ہونا ضروری ہیں۔ اس کے لیے تحقیق اور وقت درکار ہے، جو ایک علیحدہ موضوع ہے۔
 

لام الف

محفلین
لام الف محترم، ریختہ نے جو خدمت سرانجام دی ہے اس کے ہم معترف ہیں۔ بلاشبہ ایک قابل تعریف کام ہے۔

فی الحال اس زمرے میں ہم اردو کے آف لائن اوسی آر کے لیے گفتگو کر رہے ہیں۔ کیا آپ اپنی تحقیق، ٹولز اور ٹیکنالوجی کے بارے میں کچھ بتانا پسند فرمائیں گے؟ اگر مناسب سمجھیں۔ میں ایک پروگرامر ہوں لیکن او سی آر اور لسانیات کی ڈومین سے ناواقف۔ اس لیے فقط مختلف اوپن سورس سکرپٹ اور ٹولز پر تجربات کرنا پڑ رہے ہیں۔ بصورت دیگر اسی زمرے کی ابتدا میں عرض کی تھی کہ ڈومین کی معلومات ہونا ضروری ہیں۔ اس کے لیے تحقیق اور وقت درکار ہے، جو ایک علیحدہ موضوع ہے۔


سب سے پہلا کام ڈییٹا سیٹ بنانے کا ہے۔
جتنا بہتر دیٹا سیٹ ہو گا اتنے ہی بہتر رزلٹ ملیں گے۔
tesseract ۴ میں LSTM ماڈل ہے۔ jTessBoxEditor کی ویرزن ۴ کو سپورٹ نہیں کرتا۔

rasheed
rahseed khan

یہ دونوں تصاویر ملاحضہ فرمائیں اس سے آپکو معلوم ہو گا کہ کمپیوٹر ویزن کیوں فیل ہو گیا۔
 

فلسفی

محفلین
سب سے پہلا کام ڈییٹا سیٹ بنانے کا ہے۔
جتنا بہتر دیٹا سیٹ ہو گا اتنے ہی بہتر رزلٹ ملیں گے۔
tesseract ۴ میں LSTM ماڈل ہے۔ jTessBoxEditor کی ویرزن ۴ کو سپورٹ نہیں کرتا۔

rasheed
rahseed khan

یہ دونوں تصاویر ملاحضہ فرمائیں اس سے آپکو معلوم ہو گا کہ کمپیوٹر ویزن کیوں فیل ہو گیا۔
مطلب یہ کہ آپ بھی ٹیسریکٹ انجن کو ہی استعمال کر رہے ہیں؟
 

لام الف

محفلین
مطلب یہ کہ آپ بھی ٹیسریکٹ انجن کو ہی استعمال کر رہے ہیں؟
tesseract
جو ٹرینگ کے لیے ڈیٹا استعمال کرتا ہے وہ وکی پیڈیا اردو کا ہے جو میرے خیال سے بیکار ہے۔ آپ اپنا ڈیٹا سیٹ بنانا پڑے گا۔
آپ یوں سمجھیے کہ آپکو لغت اور ہر طرح کے خط کی ضرورت ہے جس کسی بھی ماڈل کو ٹرین کیا جائے۔
اردو میں لغت میں تین ہزار کے الفاظ ملتے ہیں اسکے علاوہ آپکو مختلف خط میں بہت سا مواد تیار کرنا پڑے گا تاکہ آپ پرانی کتب کو ریڈایبل کر سکیں
 

دوست

محفلین
ہمارے پاس ایک لاکھ سے اوپر اردو کے الفاظ ہیں جن میں نوری نستعلیق کے لگیچرز بھی ہیں۔ اس سے ٹریننگ ڈیٹا بھی بن جائے گا، بس الفاظ کو آگے پیچھے رکھ کر سطریں بنانی ہیں۔
ہمیں یہ بھی معلوم ہے کہ ہر فونٹ کے لیے الگ سے ٹرین کروانا ہو گا، پرانے ماڈل کے اوپر نئی لیئرز چاہئیے ہوں گی۔
نوے فیصد عام امیجز نوری نستعلیق میں ہوتی ہیں، اس کے لیے کیسے کروانا ہے یہ بتائیں۔ پرانی کتب کے لیے اگلا قدم بعد میں ہو گا۔
 
Top