اسد
محفلین
پچھلے دنوں ڈریگن نیچرلیسپیکنگ 12 پر کام کرنے کا موقعہ ملا تو بہت لطف آیا۔ میرے کمپیوٹر پر تو چلتا نہیں ہے کہ میں اس پر مزید وقت لگاتا، اس لئے سوچا کہ جو سوفٹویئر میرے کمپیوٹر پر چل سکتا ہے اسے دیکھا جائے۔ میں پچھلے دس سال سے ایبی فائنریڈر 7 انگلش او سی آر کے لئے استعمال کر رہا ہوں۔ یہ پرانا سوفٹویئر ایک ادارے نے بطور معاوضہ مجھے دیا تھا جب میں نے ان کے فائنریڈر ورژن 9 کے مسائل حل کیے تھے۔ فائنریڈر بہترین او سی آر سوفٹویئر ہے لیکن یہ کمرشل سوفٹویئر ہے اور اردو کو سپورٹ نہیں کرتا۔ ورژن 12 پروفیشنل 150 سے 170 ڈالر یا 130 سے 140 یورو میں دستیاب ہے۔ اس کے باوجود کہ جدید ترین ورژن 'فائنریڈر 12 پروفیشنل' عربی کو سپورٹ کرتا ہے، اسے اردو کے لئے استعمال کرنا مشکل ہے۔ ایک بڑا مسئلہ اس کی قیمت ہے، لیکن اس کے لئے اردو کی فائلیں تیار کرنا بھی طویل کام ہے۔
چند سال پہلے ریڈآئرس پرو میں بھی عربی کی سپورٹ شامل کی گئی تھی لیکن یہ بھی صرف عربی کے مخصوص نسخ فونٹس کو ہی شناخت کرتا تھا، معلوم نہیں کہ اس کے جدید ترین ورژن میں کیا صورتِ حال ہے۔ یہ بھی کمرشل سوفٹویئر ہے۔
ایک بات ہمیں سمجھ لینی چاہیے کہ ہاتھ کی خطاطی کو او سی آر کرنے میں کافی عرصہ لگے گا اور خصوصاً ہاتھ سے لکھی ہوئی نستعلیق کی شناخت کے لئے طویل عرصہ درکار ہو گا۔ نوری نستعلیق کی شناخت کے لئے اب بھی کچھ ذرائع موجود ہیں لیکن ہمیں ان کے ٹیسٹ ڈیٹا تک رسائی نہیں ہے۔ ہر سال کمپیوٹر سائنس کے درجنوں طلبا اردو او سی آر کا پروجیکٹ کرتے ہیں لیکن کوئی بھی ٹیسٹ ڈیٹا ظاہر نہیں کرتا۔
اب میں سوچ رہا ہوں کہ آزاد مصدر (اوپن سورس) سوفٹویئر پر تجربے کیے جائیں تاکہ اگر کچھ کامیابی حاصل ہو تو سب اس سے فائدہ اٹھا سکیں۔ اس کے لئے ٹیسیریکٹ ہی بہتر ہے۔ اکتوبر 2011 میں اس کے ورژن 3.01 میں عربی کی سپورٹ شامل کی گئی تھی۔
ٹیسیریکٹ کا ڈاؤنلوڈ صفحہ۔ اس صفحے پر سورس کوڈ، ونڈوز کے لئے انسٹالر ورژن 3.02.02(12.9 ایم بی) اور مختلف زبانوں کا ڈیٹا موجود ہے۔
جدید ترین ورژن (3.03) ونڈوز کے لئے دستیاب نہیں ہے اور اسے سورس سے کمپائل کرنے کی ضرورت ہو گی۔ ویژؤل سٹوڈیو 2013 میں اسے کمپائل کرنے کی تفصیل اس صفحے پر موجود ہے۔ اگر کوئی اسے کمپائل کر کے مہیا کر سکے تو بہت اچھا ہو گا۔ کیونکہ لگتا ہے کہ بوکس/ٹِف فائل پیئر سے شناخت کا معیار بہتر ہوتا ہے اور یہ جدید ترین ورژن میں ہی دستیاب ہے۔
ٹیسیریکٹ 3 کی ٹریننگ کرنے کا طریقہ اس صفحے پر موجود ہے۔ میں 3.02.02 میں کوشش کروں گا کہ اردو زبان کے لئے فائلیں تیار کر سکوں۔ کوئی بھی نئی زبان شامل کرنے کے لئے اس زبان کی کئی فائلیں تیار کرنی ہوتی ہیں۔ بعد میں ان تمام فائلوں کو یکجا کیا جاتا ہے اور یہ فائل کوئی بھی استعمال کر سکتا ہے۔
چند سال پہلے ریڈآئرس پرو میں بھی عربی کی سپورٹ شامل کی گئی تھی لیکن یہ بھی صرف عربی کے مخصوص نسخ فونٹس کو ہی شناخت کرتا تھا، معلوم نہیں کہ اس کے جدید ترین ورژن میں کیا صورتِ حال ہے۔ یہ بھی کمرشل سوفٹویئر ہے۔
ایک بات ہمیں سمجھ لینی چاہیے کہ ہاتھ کی خطاطی کو او سی آر کرنے میں کافی عرصہ لگے گا اور خصوصاً ہاتھ سے لکھی ہوئی نستعلیق کی شناخت کے لئے طویل عرصہ درکار ہو گا۔ نوری نستعلیق کی شناخت کے لئے اب بھی کچھ ذرائع موجود ہیں لیکن ہمیں ان کے ٹیسٹ ڈیٹا تک رسائی نہیں ہے۔ ہر سال کمپیوٹر سائنس کے درجنوں طلبا اردو او سی آر کا پروجیکٹ کرتے ہیں لیکن کوئی بھی ٹیسٹ ڈیٹا ظاہر نہیں کرتا۔
اب میں سوچ رہا ہوں کہ آزاد مصدر (اوپن سورس) سوفٹویئر پر تجربے کیے جائیں تاکہ اگر کچھ کامیابی حاصل ہو تو سب اس سے فائدہ اٹھا سکیں۔ اس کے لئے ٹیسیریکٹ ہی بہتر ہے۔ اکتوبر 2011 میں اس کے ورژن 3.01 میں عربی کی سپورٹ شامل کی گئی تھی۔
اکتوبر 2012 میں ورژن 3.02.02 میں دائیں سے بائیں/بائی ڈائریکشن سپورٹ شامل کی گئی تھی۔گوگل کوڈ نے کہا:Added Cube, a new recognizer for Arabic. Cube can also be used in combination with normal Tesseract for other languages with an improvement in accuracy at the cost of (much) lower speed. There is no training module for Cube yet.
فروری 2014 میں ورژن 3.03 (rc1) میں کچھ نئی سہولیات مہیا کی گئی ہیں، میرا خیال ہے کہ یہ عربی/اردو کے لئے بھی کسی حد تک کارآمد ہوں گی۔گوگل کوڈ نے کہا:Added Right-to-left/Bidi capability in the output iterators for Hebrew/Arabic.
گوگل کوڈ نے کہا:Added new training tool text2image to generate box/tif file pairs from text and truetype fonts.
Added set_unicharset_properties to training tools.
ٹیسیریکٹ کا ڈاؤنلوڈ صفحہ۔ اس صفحے پر سورس کوڈ، ونڈوز کے لئے انسٹالر ورژن 3.02.02(12.9 ایم بی) اور مختلف زبانوں کا ڈیٹا موجود ہے۔
جدید ترین ورژن (3.03) ونڈوز کے لئے دستیاب نہیں ہے اور اسے سورس سے کمپائل کرنے کی ضرورت ہو گی۔ ویژؤل سٹوڈیو 2013 میں اسے کمپائل کرنے کی تفصیل اس صفحے پر موجود ہے۔ اگر کوئی اسے کمپائل کر کے مہیا کر سکے تو بہت اچھا ہو گا۔ کیونکہ لگتا ہے کہ بوکس/ٹِف فائل پیئر سے شناخت کا معیار بہتر ہوتا ہے اور یہ جدید ترین ورژن میں ہی دستیاب ہے۔
ٹیسیریکٹ 3 کی ٹریننگ کرنے کا طریقہ اس صفحے پر موجود ہے۔ میں 3.02.02 میں کوشش کروں گا کہ اردو زبان کے لئے فائلیں تیار کر سکوں۔ کوئی بھی نئی زبان شامل کرنے کے لئے اس زبان کی کئی فائلیں تیار کرنی ہوتی ہیں۔ بعد میں ان تمام فائلوں کو یکجا کیا جاتا ہے اور یہ فائل کوئی بھی استعمال کر سکتا ہے۔