'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

MindRoasterMirs

محفلین
جہاں تک میری ناقص معلومات ہیں بہت سے کمرشل (شاید گوگل بھی) ٹیسرکٹ کے انجن کو ہی استعمال کر رہے ہیں۔ اصل مسئلہ اس کے ٹرینگ ڈیٹا کا ہے۔ ذرا وقت نکالنا پڑے گا اس کے لیے، یا تو پہلے سے موجود ڈیٹے کو بہتر کیا جائے یا نئے سرے سے ٹرینگ ڈیٹا بنایا جائے۔ میرے خیال میں انجن ٹھیک ہے اگر کسی طرح ٹرینگ ڈیٹا تیار ہو جائے تو ایک اچھا آف لائن او سی آر تیار کیا جاسکتا ہے۔ جو بلاشبہ ایک کارآمد پروگرام ہو گا۔
میرے خیال میں ٹیساریکٹ ہے ہی گوگل کا۔ Projects – opensource.google.com
 

دوست

محفلین
اس کام کے لیے سی ایل ای والوں نے بھی ڈیٹا تیار کیا تھا، اور شاید فروخت کے لیے پیش بھی کیا تھا۔ لیکن اب مجھے کوئی ربط نہیں مل رہا اس کا۔ بس ان کی آنلائن سروسز ہیں اور او سی آر ڈیسکٹاپ۔ اچھی خاصی محنت والا کام تھا، تصاویر میں لگیچر نقطوں کے ساتھ، بغیر، جوڑ واضح کر کے وغیرہ وغیرہ۔
ان کا او سی آر جمیل نستعلیق 16 پوائنٹ سائز پر ٹھیک کام کرتا ہے۔
اس حوالے سے میں مالی امداد مہیا کر سکتا ہوں، جس قدر میرے بس میں ہوا۔ امیج پراسیسنگ کے لیے نہ وقت ہے اور نہ ماؤس کلکس اور ٹائپنگ کی اجازت اب ہاتھ دیتے ہیں۔
 

دوست

محفلین
ورک فلو وضع کیا جائے، ایک ڈیٹا انٹری آپریٹر کی خدمات حاصل کی جائیں، معاوضہ چندہ کیا جائے، پراجیکٹ کی نگرانی کی جائے۔ نتائج کو پرکھ کر اوپن سورس طریقے سے فراہم کر دیا جائے۔
 

دوست

محفلین
اس کے لیے سادہ طریقہ تو گوگل اور ریختہ کا استعمال ہے۔
نوری نستعلیق اور دستی کتابت والی کتب 1947 سے پہلے اور بعد والی منتخب کریں، امیجز اور ٹیکسٹ حاصل کریں (گوگل او سی آر سے)۔ (کوئی محفلین یہ کام کرے)
ٹیکسٹ فائلز کو درست کریں، بمطابق تصاویر۔ (کوئی طالبعلم جسے اردو، لسانیات اور کمپیوٹر کی سوجھ بوجھ ہو، معاوضے پر رکھ لیا جائے)۔
ٹریننگ فائلز تیار کریں۔ (سکرپٹ لکھ کر یا دستی، تکنیکی طور پر خواندہ شخص ہی کر سکتا ہے)۔
سب سے زیادہ محنت آزما گوگل سے عمل کاری شدہ تصاویر اور متن کی تطبیق ہے۔
 

دوست

محفلین
ٹیسرکٹ کا ٹریننگ ڈیٹا تیار کرنے کے لیے یہ بھی کام کی چیز لگ رہی ہے۔
سادہ لفظوں میں ایک سطر کی امیج اور اس کا درست کردہ متن ایک سطر میں، ان کے جوڑے چاہئیں۔
گوگل او سی آر اپنا یار ہے اس معاملے میں، جیسے مودی نواز شریف کا یار رہا ہے۔
چار لاکھ سطور کا مطلب ہے، اگر ایک صفحے پر 23 سطور ہوں تو 17391 صفحات :music:
اس پر کم از کم چھ ماہ لگیں گے، اگر ایک کُل وقتی بندہ رکھا جائے، اسے گوگل سے تصاویر اور متن فراہم کیا جائے، وہ صرف کریکشن کرے، ٹائپنگ نہیں۔
 

دوست

محفلین
یہ ساری تصاویر ایک ہی فونٹ کی بجائے مختلف دستی کتابت سے بھی حاصل کرنی چاہئیں، جیسا کہ ٹیسرکٹ والے بھی کہتے ہیں کہ فونٹ مکس کرنے کی حوصلہ افزائی کی جاتی ہے، تاکہ ٹریننگ اچھی ہو سکے۔
فی سطر ایک امیج جنریٹ کرنا سکرپٹنگ کے ذریعے ممکن ہونا چاہیئے۔
 

دوست

محفلین
اگر نیورل نیٹ ورک والا ٹیسرکٹ 4 چلانا ہے تو پچھلا سب بھول جانا پڑے گا۔ مجھے تو دستیاب اردو ٹریننگ ڈیٹا کی سمجھ نہیں آ رہی اس کی امیج فائلیں کدھر ہیں؟ بس فریکوئنسی اور بائی گرامز ہیں۔
 

دوست

محفلین
لو فیر
یا تے کم شروع ہو جا وے گا
یا فیر دھاگوں کے قبرستان میں ایک اور دھاگے کا اژافہ۔
اور اگلے دھاگے میں اس کا ربط بھی شامل ہو گا، ہمراہ "میرے خیال میں پہیا ہر بار دوبارہ ایجاد کرنے کی بجائے یہیں محفل پر موجود ماضی کے کئی او سی آر دھاگوں سے پہلے استفادہ کر لیا جائے تو کام زیادہ تیزی سے آگے بڑھ سکے گا:"
 
اس کام میں بعض چیزیں تو تکنیکی ہیں اور بعض عملی طور پر کرنے کی۔
محفلین مختلف فیلڈز سے متعلق ہیں اس لیے مختلف خدمات مہیا کرسکتے ہیں۔ اگر فلسفی بھائی اس کام میں درکار امور کو واضح کرسکیں تو اچھا رسپانس مل سکتا ہے۔
جیسے شاکر بھائی نے بعض باتوں کی جانب نشاندہی فرمائی ہے۔
در اصل ہم لوگوں کو یہی سمجھ نہیں ہے کہ اس کام میں کس کس قسم کی خدمات درکار ہیں۔
 
اس کے لیے سادہ طریقہ تو گوگل اور ریختہ کا استعمال ہے۔
نوری نستعلیق اور دستی کتابت والی کتب 1947 سے پہلے اور بعد والی منتخب کریں، امیجز اور ٹیکسٹ حاصل کریں (گوگل او سی آر سے)۔ (کوئی محفلین یہ کام کرے)
ٹیکسٹ فائلز کو درست کریں، بمطابق تصاویر۔ (کوئی طالبعلم جسے اردو، لسانیات اور کمپیوٹر کی سوجھ بوجھ ہو، معاوضے پر رکھ لیا جائے)۔
ٹریننگ فائلز تیار کریں۔ (سکرپٹ لکھ کر یا دستی، تکنیکی طور پر خواندہ شخص ہی کر سکتا ہے)۔
سب سے زیادہ محنت آزما گوگل سے عمل کاری شدہ تصاویر اور متن کی تطبیق ہے۔
1۔ تصویری کتابوں سے کس قسم کی امیجز مطلوب ہوں گی؟ کیا تصویر سے ایک ایک لفظ کو ٹکڑے ٹکڑے کرکے حاصل کیا جائے گا؟
2۔ گوگل او سی آر سے مواد حاصل کرنا تو کافی آسان ہے مگر یہ نہیں سمجھا کہ اسے ڈیٹا ٹریننگ کے لیے کس طرح استعمال کیا جائے گا۔
بہرحال تصویری کتابوں سے امیجز حاصل کرنا ہوں یا انہیں گوگل کے او سی آر سے کنورٹ کرنا ہو یا اور کسی قسم کا ڈیٹا انٹر کرنا ہو اس کے لیے میری خدمات حاضر ہیں۔ گر قبول افتد!
 

فلسفی

محفلین
اس کام میں بعض چیزیں تو تکنیکی ہیں اور بعض عملی طور پر کرنے کی۔
محفلین مختلف فیلڈز سے متعلق ہیں اس لیے مختلف خدمات مہیا کرسکتے ہیں۔ اگر فلسفی بھائی اس کام میں درکار امور کو واضح کرسکیں تو اچھا رسپانس مل سکتا ہے۔
جیسے شاکر بھائی نے بعض باتوں کی جانب نشاندہی فرمائی ہے۔
در اصل ہم لوگوں کو یہی سمجھ نہیں ہے کہ اس کام میں کس کس قسم کی خدمات درکار ہیں۔
جی عبید بھائی، فی الحال میں بھی اسی کشمکش میں ہوں کہ "کرنا کی اے؟ :)"۔ اصل میں بنیادی باتیں تقریبا سب ہی جانتے ہیں۔ لیکن کسی بھی زور آزمائی سے پہلے یہ یقین کرنا ضروری ہے کہ سمت درست ہے کہ نہیں۔ ورنہ محنت ضائع ہو گی۔

میری معلومات ابتدائی نوعیت کی ہیں۔ میں ابھی تمام متعلقہ لڑیوں میں زیر بحث معاملات اور پروجیکٹ کی تفصیلات پڑھ رہا ہوں۔ میری کوشش ہوگی کہ پہلے کوئی چھوٹا موٹا تجربہ کر لوں پھر باقی تفصیلات آپ حضرات سے شئیر کروں۔ میری خواہش ہے کہ کوئی ایسا طریقہ کار (ٹولز، اسکرپٹ وغیرہ) وضع کیا جائے جو عام فہم ہو جس کے لیے پروگرامنگ یا تکنیکی معلومات درکار نہ ہوں۔ تاکہ زیادہ سے زیادہ لوگ اس میں مدد فراہم کرسکیں۔ اگر ایسا ممکن نہ بھی ہو تب بھی کوئی تفصیلی ڈاکومنٹ یا ویڈیو ایسی ہو جس کو دیکھ کر آسانی سے ٹرینگ ڈیٹا تیار کرنے میں مدد کی جاسکے۔ کام مشکل اور محنت طلب بظاہر لگ رہا ہے لیکن اگر دس کے بجائے سو ہاتھ ہوں تو کام تقسیم ہو جائے گا کیونکہ ایک بار نظام تشکیل دینا ہے اس کے بعد بس کاپی پیسٹ اور کانٹ چھانٹ ہوگی۔

مختصرا یہ کہ میری اپنی تحقیق جاری ہے جو میری کج فہمی اور کم علمی کی وجہ سے ذرا آہستہ ہے۔ محفل پر موجود اگر وہ حضرات جو پہلے اس موضوع پر تحقیق کر چکے ہیں یا مہارت رکھتے ہیں وہ اپنی تجاویز دیتے رہیں یا راہنمائی فراہم کرتے رہیں تو ان شاءاللہ امید ہے کو بہتر نتائج برآمد ہوں گے۔ کام مکمل ہوتا ہے یا نہیں یہ اللہ پاک بہتر جانتے ہیں۔ ہم نے تو اپنے حصے (بقدر جثے) کے کام کرنا ہے۔ ساتھ ہی دعا بھی ہے کہ اللہ پاک ہماری اس کام میں مدد اور راہنمائی فرمائے۔ آمین۔
 

دوست

محفلین
میرے حساب سے ٹریننگ ڈیٹا کچھ اس طرح کا ہونا چاہیے۔
زپ فائل ڈاؤن لوڈ کریں اور اس کے اندر ملاحظہ فرمائیں۔ امیجز سطر بہ سطر کاٹی ہوئی اور متعلقہ یک سطری ٹیکسٹ فائلیں۔
یہ پروگرام لینکس میں یہ ان پٹ لے کر اسے ٹیسرکٹ کے ٹریننگ فارمیٹ میں بدلے گا، جس کے بعد ٹیسرکٹ چلا کر ماڈل ٹرین ہو گا۔ یہ دونوں انتہائی تکنیکی نوعیت کے کام ہیں اور لینکس پر سرانجام پائیں گے۔ اس کے لیے ایک ہی بندہ درکار ہے۔ ماڈل ٹریننگ میں کئی دن بھی لگ سکتے ہیں۔
ٹریننگ کے بعد ماڈل کی ڈیپلائمنٹ اگلا سوال ہے۔ ٹیسرکٹ کی گٹ ہب ویب سائٹ پر ڈیٹا ڈاؤنلوڈ کے لیے مہیا کیا جائے گا، یہ بھی تکنیکی نوعیت کا کام ہے اور ایک ہی بندہ سرانجام دے گا۔
اصل محنت طلب کام تصاویر اور ٹیکسٹ سطور کی تیاری ہے، جس کے لیے تکنیکی علم نہیں اردو املا وغیرہ سے واقفیت اور ڈھیر سارا وقت درکار ہے۔
مندرجہ بالا پرانے پراجیکٹس سے اگر امیج ٹریننگ ڈیٹا (تیار شدہ) مل سکے تو کیا کہنے وگرنہ میری نظر میں ان کی تھیوری پڑھنا وقت کا ضیاع ہے۔ اگر ٹیسرکٹ 4 میں کام کرنا ہے تو ورک فلو کا ذکر ویب سائٹ کے مطابق جیسے میں نے اوپر عرض کیا سیدھا سا ہے۔
 

دوست

محفلین
ایک اور طریقہ اردو محفل کی لائبریری میں پہلے سے شامل کردہ کتب کے استعمال سے متعلق ہو سکتا ہے۔ ٹیکسٹ موجود ہے اس کی امیجز ریختہ یا خود سکین کر کے حاصل کی جائیں اور پھر سطر بہ سطر ٹیکسٹ اور امیج فائلیں تخلیق کر دی جائیں۔ بس املا امیج کے مطابق کرنا ہو گی، چونکہ یہ کتب تدوین کی گئی ہیں اور ترامیم موجود ہو سکتی ہیں۔ اس طریقے سے اگر بیس کتابیں مل جائیں تو تین سے پانچ ہزار صفحات حاصل ہو سکتے ہیں۔
میری نظر سے مختلف فونٹ سائز کے حوالے سے ٹیسرکٹ کی کوئی تصریح نہیں گزری، صرف متنوع فونٹس استعمال کرنے کا کہا گیا ہے۔ امید ہے کہ کتابوں سے کام چلے گا، ورنہ بڑے سائز کے فونٹ کے لئے اخباری سرخیوں کے تراشے (جو کورل ڈرا سے نہ گزارے گئے ہوں) استعمال کیے جا سکتے ہیں۔
 

دوست

محفلین
مینوں لگدا اج اپنا کم نہیں یہی کروں گا، مشورے بازی
لو فیر اگلا مشورہ
بنیادی مقصد امیجز اور ٹیکسٹ کے سطری جوڑے ہیں۔ تو ٹیکسٹ (اردو محفل فورم کی لائبریری سے حاصل کردہ کتب والا) لیں اور جمیل نوری نستعلیق میں رینڈر کرا کے جملہ بہ جملہ امیجز جنریٹ کر لیں۔ اس بات کا ذکر ٹیسرکٹ دستاویزات میں بھی کہیں ہے، فونٹ سے حاصل شدہ امیجز۔
شیخ چلی کی پیروی میں ایک قدم اور آگے بڑھتے ہوئے مزید مشورہ ہے کہ جمیل نوری نستعلیق کی لگیچر فائلیں اس کام کے لیے استعمال ہو سکتی ہیں۔ اس حوالے سے ایک پروگرام بھی بنایا گیا تھا لگیچر لسٹ سے خودبخود امیجز جنریٹ کرنا۔ لگیچر بیسڈ نفیس نستعلیق تیار گیا تھا اس کے استعمال سے۔
مندرجہ بالا کوئک اینڈ ڈرٹی سلوشن ہے۔
نمبر دو تو بالکل ہی گیا گزرا ہو گا کیونکہ اس میں بائی گرامز (دو دو الفاظ کے جوڑے) حاصل نہیں ہوں گے، کہ ان پٹ ہی ان، پٹ، پٹی جیسے لگیچرز یا ترسیموں پر مبنی ہو گی۔
نمبر ایک میں جملوں کی وجہ سے یہ تو نہیں ہو گا ، البتہ ٹریننگ ڈیٹا ظاہر ہے مصنوعی ہو گا۔ گندی مندی سکین امیجز سے پاک۔ اور پروگرام چلے گا بھی صرف نوری نستعلیق پر، چونکہ اسی پر ٹرین کیا گیا ہو گا۔ دستی کتابت گئی تیل لینے۔
البتہ مختلف نستعلیق فونٹ استعمال کر کے ڈیٹا کو متنوع بنایا جا سکتا ہے۔
سچ پوچھیں تو یہ ٹیکسٹ سے فونٹ استعمال کر کے امیج جنریٹ کروانے والا آئیڈیا سب سے سستا پڑے گا، ہر لحاظ سے۔
 

فرقان احمد

محفلین
اس کام کے لیے سی ایل ای والوں نے بھی ڈیٹا تیار کیا تھا، اور شاید فروخت کے لیے پیش بھی کیا تھا۔ لیکن اب مجھے کوئی ربط نہیں مل رہا اس کا۔ بس ان کی آنلائن سروسز ہیں اور او سی آر ڈیسکٹاپ۔ اچھی خاصی محنت والا کام تھا، تصاویر میں لگیچر نقطوں کے ساتھ، بغیر، جوڑ واضح کر کے وغیرہ وغیرہ۔
ان کا او سی آر جمیل نستعلیق 16 پوائنٹ سائز پر ٹھیک کام کرتا ہے۔
اس حوالے سے میں مالی امداد مہیا کر سکتا ہوں، جس قدر میرے بس میں ہوا۔ امیج پراسیسنگ کے لیے نہ وقت ہے اور نہ ماؤس کلکس اور ٹائپنگ کی اجازت اب ہاتھ دیتے ہیں۔
شاید یہ ربط تھا ۔۔۔! یا، پھر یہ ربط۔۔۔!
 

دوست

محفلین
یہ خرید کر اس کی بنیاد پر ٹریننگ ماڈل عام استعمال کے لیے مفت جاری کرنے کی اجازت شاید یہ نہ دیں۔ بہرحال سطر بہ سطر ٹیکسٹ اور امیج فائلیں تو پھر بھی بنانی پڑیں گی۔ اور مختلف پوائنٹ سائز سے مجھے شک ہو رہا ہے کہ یہ کام کتابیں ٹائپ کر کے ان کا ٹیکسٹ مختلف پوائنٹ سائز پر ان پیج میں رینڈر کر کے امیجز جنریٹ کی گئی ہیں۔ ہمارے پاس کوئی سو ڈیڑھ سو کتب تو اردو لائبریری میں موجود ہیں۔ بلکہ بہت زیادہ ہیں۔ افسانے ناول بچوں کا ادب تفسیر ترجمہ شاعری ہر صنف کا مواد تدوین کردہ موجود ہے۔ اس سے ٹریننگ ڈیٹا بنائیں بس۔ ابھی تک مجھے ایسا کوئی اشارہ نہیں ملا جس میں پیچیدہ رسم الخط کے لیے نقطے اور نقطوں کے بغیر ترسیموں کا کوئی چکر ہو (جیسا کہ ڈاکٹر سرمد کی ایک پریزنٹیشن میں ان کے او سی آر کی تیاری کے مراحل میں دیکھا تھا)۔
 
Top