'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

جاسم محمد

محفلین
بہت شکریہ تابش بھائی، یہ پیپر معلوماتی ہے اور ٹیکسریٹ 3 کے بارے میں ہے۔ ٹیسریکٹ 4 کا طریقہ کار مختلف ہے لیکن میرا خیال ہے کہ انہوں نے ٹیسریکٹ 4 میں بھی بنیادی حروف کی شکلوں (بغیر اعراب اور نقاط کے) کے مطابق تربیت کروائی ہوگی (یہ میرا اندازہ ہی ہے) ۔ جیسا اس پیپر میں لکھا ہے۔ انہوں نے ٹیسریکٹ کے انجن میں کچھ تبدیلی کی بات بھی کی ہے، اللہ جانے وہ کیا تبدیلی ہے (ممکن ہے وہ سپیس سے متعلق ہو جس کا ذکر جاسم کر رہے ہیں)
دوست بھائی بھی اکثر اس کا ذکر خیر کرتے رہتے ہیں۔ یہ ٹیکنیک سمجھنا پڑے گی۔ اور اگر اس سے اسپیسنگ کا مسئلہ حل ہو جاتا ہے تو بسم اللہ کریں۔
 

دوست

محفلین
بالکل یہ اعراب اور نقطوں کے بغیر کشتیاں استعمال کر کے ٹریننگ کروائی گئی تھی، بس اتنا ہی یاد ہے اس پریزینٹیشن سے۔
 

فلسفی

محفلین
لیجیے حضرات ذرا اس تربیتی مواد پر نظر ڈالیے اور اپنی قیمتی رائے سے آگاہ کیجیے
فائل ۱ --- تقریبا 39 ہزرا سطریں
فائل ۲ --- تقریبا 61 ہزرا سطریں
فائل ۳ --- تقریبا 12 ہزرا سطریں

ٹیسریکٹ کے گوگل فورم پر سوال بھی لکھ دیا ہے۔ دیکھتے ہیں کیا جواب آتا ہے۔ آپ حضرات بھی دیکھ لیجیے اگر کوئی غلطی ہو تو نشاندہی کردیجیے۔
 

جاسم محمد

محفلین
ٹیسریکٹ کے گوگل فورم پر سوال بھی لکھ دیا ہے۔
زبردست۔ میرے خیال میں ٹیزریکٹ ماہرین کو ان خاکوں سے مسئلہ سمجھ میں آجائے گا :
result.png
 

جاسم محمد

محفلین
ٹیسریکٹ کے گوگل فورم پر سوال بھی لکھ دیا ہے۔ دیکھتے ہیں کیا جواب آتا ہے۔
میری ابھی اس حوالہ سے ایک ایکسپرٹ سے کچھ بات چیت ہوئی ہے۔ ان کے مطابق مختلف الگوردھمز کے ذریعہ نستعلیق اسپیس کو الگ کیا جا سکتا ہے۔
البتہ او سی آر سے اردو متن حاصل کرنے بعد پوسٹ پروسیس میں اسپیس الگ کرنا زیادہ بہتر طریقہ ہے۔
 

فلسفی

محفلین
ان کے مطابق مختلف الگوردھمز کے ذریعہ نستعلیق اسپیس کو الگ کیا جا سکتا ہے۔
ٹیکسریٹ کے اندر؟ یعنی ٹیکسریٹ کے کوڈ میں تبدیلی کر کے؟ مزید معلومات حاصل کی جا سکتی ہیں؟

البتہ او سی آر سے اردو متن حاصل کرنے بعد پوسٹ پروسیس میں اسپیس الگ کرنا زیادہ بہتر طریقہ ہے۔
اس کے لیے تو اردو پروف ریڈر استعمال کر سکتے ہیں،
 

جاسم محمد

محفلین
اس کے لیے تو اردو پروف ریڈر استعمال کر سکتے ہیں،
ٹھیک ہے۔ کچھ عرصہ ٹیزریکٹ ٹیم کے جواب کا انتظار کرتے ہیں۔ اور اگر وہاں سے کوئی پیش رفت نہیں ہوتی تو پھر اسی طریقہ پر چلنا پڑے گا۔
فی الحال نمونہ جات کو دیکھتے ہوئے یہ چیز سامنے آئی ہے کہ کرننگ والےمقامات پر ٹیزریکٹ متعدد الفاظ کو ایک ہی لفظ سمجھ کر جوڑ دیتا ہے۔ گو کہ الفاظ کی ڈٹیکشن درست کرتا ہے۔
 

دوست

محفلین
متن فائلیں تو بظاہر ٹھیک ہیں۔ ژ، اعراب اور دیگر علامات جیسے سن کی علامت ان میں ہیں؟ نمبر بھی، اردو انگریزی۔ لیکن اس سے تو مسئلہ آتا تھا۔
سوال بہتر نہیں تھا کہ گٹ ہب ریپازیٹری میں بگ سیکشن کے تحت پوسٹ کیا جاتا؟
 

فلسفی

محفلین
ژ، اعراب اور دیگر علامات جیسے سن کی علامت ان میں ہیں؟ نمبر بھی، اردو انگریزی۔ لیکن اس سے تو مسئلہ آتا تھا۔
"ژ" تو متن میں شامل ہے۔
اعراب اور ہندسے میں نے فلٹر آوٹ کردیے تھے۔ مجھے یہی خدشہ تھا کہ شاید اس میں مسئلہ رہے گا کیونکہ اردو دائیں سے بائیں اور انگریزی ہندسے بائیں سے دائیں ہوں گے۔ اور اعراب کہ وجہ سے سادہ الفاظ کی تربیت میں بھی شاید مشکل ہو۔ میں دوبار سکرپٹ چلا کر اعراب کے ساتھ تربیتی مواد بنا کر اس سے تربیت کروا کر دیکھتا ہوں کہ کیا نتیجہ نکلتا ہے۔

سوال بہتر نہیں تھا کہ گٹ ہب ریپازیٹری میں بگ سیکشن کے تحت پوسٹ کیا جاتا؟
جی پہلے یہی سوچا تھا لیکن ایک دو سوال جو گٹ ہب پر پڑھے تھے اس میں ٹیسریکٹ والوں نے اعتراض کیا تھا کہ گٹ ہب والے سیکشن میں پوسٹ کسی مسئلے کی بنیاد پر کی جائے اگر استعمال سے متعلق سوال ہے تو وہ گوگل گروپ میں ہی لکھا جائے اس لیے وہاں لکھا تھا۔ کچھ دن میں جواب نہ آیا تو گٹ ہب پر کاپی پیسٹ کردوں گا۔ :)
 
آخری تدوین:

عباس اعوان

محفلین
میری ابھی اس حوالہ سے ایک ایکسپرٹ سے کچھ بات چیت ہوئی ہے۔ ان کے مطابق مختلف الگوردھمز کے ذریعہ نستعلیق اسپیس کو الگ کیا جا سکتا ہے۔
البتہ او سی آر سے اردو متن حاصل کرنے بعد پوسٹ پروسیس میں اسپیس الگ کرنا زیادہ بہتر طریقہ ہے۔
ٹیکسریٹ کے اندر؟ یعنی ٹیکسریٹ کے کوڈ میں تبدیلی کر کے؟ مزید معلومات حاصل کی جا سکتی ہیں؟
اس کے لیے تو اردو پروف ریڈر استعمال کر سکتے ہیں،
اگر کرننگ کے ساتھ سپیس درست طریقے سے ڈیٹیکٹ ہو رہی ہے تو پوسٹ پروسیسنگ اور لغت سے الفاظ کو درست کیا جا سکتا ہے۔
 

شکیب

محفلین
پوسٹ پروسیسنگ میں لغت کا استعمال ناگزیر ہے۔ اور اسی کے استعمال سے بہتر نتائج حاصل ہو سکتے ہیں۔گوگل او سی آر میں لغت کا استعمال صاف نظر آتا ہے۔
اگر حروف درست شناخت ہو پارہے ہیں تو یہ بڑا اچیومنٹ ہے۔ ٹریننگ ڈیٹا + پوسٹ پرسیسنگ پر اچھی محنت کی جائے، ان شاءاللہ کافی حد تک مطلوبہ نتائج مل جائیں گے۔
 
آخری تدوین:

فلسفی

محفلین
اگر کرننگ کے ساتھ سپیس درست طریقے سے ڈیٹیکٹ ہو رہی ہے
کرننگ والے فانٹ سے سپیس کا مسئلہ آرہا ہے۔ حروف الحمد للہ درست حاصل ہورہے ہیں لیکن الفاظ کے درمیان سپیس کی وجہ سے الفاظ آپس میں گڈ مڈ ہوجاتے ہیں۔

پوسٹ پروسیسنگ میں لغت کا استعمال ناگزیر ہے۔ اور اسی کے استعمال سے بہتر نتائج حاصل ہو سکتے ہیں۔گوگل او سی آر میں لغت کا استعمال صاف نظر آتا ہے۔
اگر حروف درست شناخت ہو پارہے ہیں تو یہ بڑا اچیومنٹ ہے۔ ٹریننگ ڈیٹا + پوسٹ پرسیسنگ پر اچھی محنت کی جائے، ان شاءاللہ کافی حد تک مطلوبہ نتائج مل جائیں گے۔
ابھی تربیتی مواد اکھٹا کر رہا ہوں۔ تقریبا چار لاکھ سطریں اکھٹی کر کے اس پر تربیت کرواؤں گا۔ امید ہے نتائج اچھے ہوں گے۔ یہ او سی آر کے بعد لغت سے پروسیسنگ والے طریقہ کار پر ذرا وضاحت کیجے، تاکہ تربیت کے ساتھ ساتھ اس پر بھی کچھ کام ہوجائے۔ مثلا کوئی لغت یونیکوڈ میں استعمال کے لیے موجود ہے؟ اس کے بعد اس کو او سی آر والے متن میں استعمال کرنے کا کیا طریقہ کار ہونا چاہیے؟ جاسم محمد آپ کا کوئی آئیڈیا ہے اس بارے میں؟
 

دوست

محفلین
سی ایل ای کے پاس نوری نستعلیق ہونے کی توقع ہے مجھے جس سے انہوں نے ان پیج سے امیجز جنریٹ کی ہوں۔
جمیل نوری نستعلیق کی صورت میں کرننگ والا 2014 میں دستیاب ہو گیا تھا؟
 

عباس اعوان

محفلین
کرننگ والے فانٹ سے سپیس کا مسئلہ آرہا ہے۔ حروف الحمد للہ درست حاصل ہورہے ہیں لیکن الفاظ کے درمیان سپیس کی وجہ سے الفاظ آپس میں گڈ مڈ ہوجاتے ہیں۔
ابھی تربیتی مواد اکھٹا کر رہا ہوں۔ تقریبا چار لاکھ سطریں اکھٹی کر کے اس پر تربیت کرواؤں گا۔ امید ہے نتائج اچھے ہوں گے۔
یہ بہت عمدہ اور خوش کُن خبر ہے۔
میرے خیال میں اب تمام تر دستیاب مواد کے ساتھ ٹریننگ شروع کر دینی چاہیے۔ اخبارات اور کتابوں کے علاوہ اردو محفل پر بھی بہت سارا مواد موجود ہے۔
یہ او سی آر کے بعد لغت سے پروسیسنگ والے طریقہ کار پر ذرا وضاحت کیجے، تاکہ تربیت کے ساتھ ساتھ اس پر بھی کچھ کام ہوجائے۔ مثلا کوئی لغت یونیکوڈ میں استعمال کے لیے موجود ہے؟ اس کے بعد اس کو او سی آر والے متن میں استعمال کرنے کا کیا طریقہ کار ہونا چاہیے؟ جاسم محمد آپ کا کوئی آئیڈیا ہے اس بارے میں؟
میرے خیال میں لغت کا استعمال ناگزیر ہے۔ جیساکہ شروع میں، میں نے یہاں بھی کہا تھا:
اپنے فائنل نتائج کو مزید بہتر بنانے کے لیے ہم یہ کر سکتے ہیں کہ آخری متن کو سپیل چیکر سےگزار کر ایک عدد لغت کے ذریعے مزید نکھار دیا جائے۔
اورجہاں تک میرا خیال ہے، ہمارے پاس یونی کوڈ لغت موجود ہے/ہیں۔
محترم استاد الف عین صاحب سے گزارش ہے۔
 

عباس اعوان

محفلین
ہ او سی آر کے بعد لغت سے پروسیسنگ والے طریقہ کار پر ذرا وضاحت کیجے، تاکہ تربیت کے ساتھ ساتھ اس پر بھی کچھ کام ہوجائے۔ مثلا کوئی لغت یونیکوڈ میں استعمال کے لیے موجود ہے؟ اس کے بعد اس کو او سی آر والے متن میں استعمال کرنے کا کیا طریقہ کار ہونا چاہیے؟ جاسم محمد آپ کا کوئی آئیڈیا ہے اس بارے میں؟
لغت کو استعمال کرتے ہوئے ٹیکسٹ پارسنگ کرنا کچھ زیادہ مشکل نہیں ہو گا، کچھ گھنٹوں میں ایک یوٹیلیٹی تیار ہوجانی چاہیے۔
 

دوست

محفلین
املاء کی درستی کے لیے ایک عدد فہرست ہی درکار ہو سکتی ہے۔ سپیل چیکر پروگرام بھی موجود ہے، ہن سپیل کے لیے ایک لسٹ بھی بنائی تھی جو اس دھاگے کے آغاز کے کسی پیغام میں لنک کی تھی کسی نے، اس کے علاوہ عمومی اغلاط کی درستی کے لیے ریگولر ایکسپریشن پر مشتمل ایک فہرست پر بھی یہیں کام ہو چکا ہے۔
لیکن اس کام کے لیے دیکھنا تو یہ ہے کہ کس قسم کی غلطیاں ہوتی ہیں متن میں، اس کے مطابق ہی پوسٹ پروسیسنگ ہو گی۔ ایکدوتینچارپانچچھساتآٹھ ایک تا آٹھ اس گنتی کو دیکھ لیں، اسے کیسے الگ کیا جا سکتا ہے؟ بنیادی طور پر سپیس ڈالنی ہے، پھر وہ حروف ہیں جو اگلے حرف کو ساتھ جڑنے کی اجازت نہیں دیتے، اور پھر مفرد الفاظ ہیں، آخر میں ترسیمے ہیں۔ جیسے الفاظ میں الفا اور ظ دو ترسیمے لیکن ایک مفرد لفظ ہے۔ مرکب الفاظ میں سپیس سے الگ الگ دو یا زیادہ حصے ہوں گے۔ فی الوقت کیونکہ کی مثال یاد آ رہی ہے، کیوں کہ، یا کونسا یا کون سا۔ جس میں موخر الذکر (کون سا) لکھنا بہتر ہے۔ چلیں "موخر الذکر" ہی دیکھ لیں، مرکب لفظ ہے دو مفرد گروپس کے ساتھ جس میں کم از کم پانچ ترسیمے ہیں: مو، خر، ا، لذ، کر۔
الگورتھم ایسا ہو کہ الفاظ کی فریکوئنسی (پرابے بیلٹی) کی بنیاد پر لینئر پراسیسنگ (سٹرنگ کے آغاز سے اختتام تک ایک ہی پراسیس) کے تحت حروف سپیل چیکر کی فہرست میں موجود الفاظ یا حروف کے کمبینیشنز سے میچ کرتا چلا جائے، اور سپیس شامل کرتا چلا جائے۔ سادہ ترین حل تو یہی نظر آتا ہے۔
 
Top