ابن سعید
خادم
آج گوگل کے ریسرچ بلاگ پر "پیپر ٹو ڈیجیٹل ان 200+ لینگوئیجیز" کے عنوان سے بڑے پیمانے پر گوگل ڈرائیو میں بے شمار زبانوں میں او سی آر یعنی آپٹیکیل کیریکٹر ریکگنیشن کا اعلان کیا گیا۔ اس تکنیک کی مدد سے تصویری عبارتوں مثلاً اسکین کردہ مواد کو متن کی صورت میں تبدیل کرنا ممکن ہو جاتا ہے۔ اس مقصد کے لیے گوگل نے آرٹیفیشئیل انٹیلیجینس کی ایک مشہور تکنیک ایچ ایم ایم یا ہیڈین مارکوو موڈل کا استعمال کیا جس میں متن کو چھوٹے چھوٹے ٹکڑوں میں توڑ کر سمجھنے کے بجائے شکلوں کا پورا سلسلہ ایک ساتھ سمجھنے کی کوشش کی جاتی ہے جس کے لیے کافی ٹریننگ ڈیٹا کی ضرورت ہوتی ہے۔ خوش کن بات یہ ہے کہ ان سوا دو سو زبانوں کی فہرست میں اردو بھی موجود ہے۔ افسوسناک بات یہ ہے کہ ہمارے تجربے میں بہت ہی حوصلہ شکن نتائج سامنے آئے ہیں۔ ہم نے سب سے پہلے نور اللغات سے ایک زردی مائل صفحے کا انتخاب کیا جو کہ دو کالمی لے آؤٹ پر مبنی تھا، گو کہ صفحے پر اچھا خاصہ متن موجود تھا، لیکن او سی آر انجن سے فقط ایک لفظ "العتاب" جو کہ اس صفحے پر کہیں بھی موجود نہیں۔ اس کے بعد ہم نے اردو ویب ڈیجیٹل لائبریری کے لیے اسکین کیے گئے نسبتاً زیادہ واضح لکھے ہوئے سفید کاغذ والے صفحے کو او سی آر انجن کی نذر کیا تو نتیجے میں صفر متن حاصل ہوا۔ پھر ہم نے محفل میں موجود اپنی ایک بے پر کی کو جمیل نوری نستعلیق اور ایریل خطوط میں منتقل کر کے پی ڈی ایف فائل بنا کر پراسیس کرنے کی کوشش کی جس کے نتیجے میں نستعلیق کے جواب میں بے حد لا یعنی متن حاصل ہوا جبکہ نسخ خط میں صورتحال بہتر تھی، البتہ تمام حروف الٹے رخ پر حاصل ہوئے تھے، مثلاً "کھانا" الٹ کر "اناھک" بن گیا تھا، وضح رہے کہ نسخ میں الٹی ترتیب کے ساتھ بھی نتائج صد فیصد درست نہ تھے۔ نستعلیق اور نسخ میں کچھ ایسی ہی صورتحال محفل میں پوسٹ کردہ ہمارے ایک خط کی بھی ہوئی جس میں بے پر کی کی نسبت زیادہ متن موجود تھا۔ بعد ازاں ہم نے بڑے فونٹ سائز کے ساتھ مختصر متن "سعود عالم ابن سعید" پر نسخ اور نستعلیق میں تجربے کیے اور نتیجہ ویسا ہی ملا یعنی نسخ میں درست مگر الٹے رخ پر جبکہ نستعلیق میں لا یعنی الفاظ۔ ہمارے تجربات کی فائلیں اس ربط پر ملاحظہ فرمائی جا سکتی ہیں۔ ہر انپٹ فائل کے مقابل ایک فائل اسی نام سے مگر "OCR-" کے سابقے کے ساتھ موجود ملے گی جس میں اصلی تصویری متج کے بعد اس کا ما حصل موجود ہوگا۔
اس سہولت کا استعمال کرنے کے لیے کسی تصویر یا پی ڈی ایف فال ہو گوگل ڈرائیو میں اپلوڈ نے کے بعد متعلقہ فائل پر رائٹ کلک کر کے "اوپن ود" > "گوگل ڈاکس" کو منتخب کریں۔ تھوڑے وقفے کے بعد تصویر ایک علیحدہ فائل میں شامل ہو جائے گی اور اس کے نیچے ما حصل متن موجود ہوگا۔
گوگول کے او سی آر انجن میں زبان کی تخصیص ضروری نہیں کیونکہ زبان کی خود کار شناخت انجن کے خواص میں شامل ہے۔ اس لحاض سے دیکھ جائے تو دائیں سے بائیں رخ پر لکھی جانے والی زبانوں میں حروف کی الٹی ترتیب عارضی مسئلہ ہے جو کہ معمولی سی کوشش کے بعد درست کیا جا سکتا ہے اور امید ہے کہ مستقبل قریب میں یہ مسئلہ حل کر دیا جائے گا۔ البتہ نستعلیق خط کی شناخت درست نہ ہونا زیادہ افسوسناک امر ہے کیونکہ اس کے بغیر ہم پرانی کتابوں کے اسکین کو ڈیجیٹائز کرنے میں کوئی مدد حاصل نہیں کر سکتے۔ گوگل نے اپنے بلاگ میں لکھا ہے کہ عمومی طور پر استعمال ہونے والے خط میں اچھی ریزیولیوشن کی صاف ستھری تصاویر کے نتائج بہتر آتے ہیں۔ گو کہ کتابی اردو نستعلیق خط میں ہی عام ہے لیکن اب بھی ڈیجیٹل اردو عموماً نسخ میں دیکھنے کو ملتی ہے، غالبا یہی وجہ ہے کہ نستعلیق کے نتائج ابھی اس او سی آر میں بہت حوصلہ افزا نہیں ہیں۔ گوگل نے یہ بھی لکھا ہے کہ وہ خراب معیار کی اسکین اور مشکل تحریری خاکوں پر کام کر رہے ہیں۔
اس سہولت کا استعمال کرنے کے لیے کسی تصویر یا پی ڈی ایف فال ہو گوگل ڈرائیو میں اپلوڈ نے کے بعد متعلقہ فائل پر رائٹ کلک کر کے "اوپن ود" > "گوگل ڈاکس" کو منتخب کریں۔ تھوڑے وقفے کے بعد تصویر ایک علیحدہ فائل میں شامل ہو جائے گی اور اس کے نیچے ما حصل متن موجود ہوگا۔
گوگول کے او سی آر انجن میں زبان کی تخصیص ضروری نہیں کیونکہ زبان کی خود کار شناخت انجن کے خواص میں شامل ہے۔ اس لحاض سے دیکھ جائے تو دائیں سے بائیں رخ پر لکھی جانے والی زبانوں میں حروف کی الٹی ترتیب عارضی مسئلہ ہے جو کہ معمولی سی کوشش کے بعد درست کیا جا سکتا ہے اور امید ہے کہ مستقبل قریب میں یہ مسئلہ حل کر دیا جائے گا۔ البتہ نستعلیق خط کی شناخت درست نہ ہونا زیادہ افسوسناک امر ہے کیونکہ اس کے بغیر ہم پرانی کتابوں کے اسکین کو ڈیجیٹائز کرنے میں کوئی مدد حاصل نہیں کر سکتے۔ گوگل نے اپنے بلاگ میں لکھا ہے کہ عمومی طور پر استعمال ہونے والے خط میں اچھی ریزیولیوشن کی صاف ستھری تصاویر کے نتائج بہتر آتے ہیں۔ گو کہ کتابی اردو نستعلیق خط میں ہی عام ہے لیکن اب بھی ڈیجیٹل اردو عموماً نسخ میں دیکھنے کو ملتی ہے، غالبا یہی وجہ ہے کہ نستعلیق کے نتائج ابھی اس او سی آر میں بہت حوصلہ افزا نہیں ہیں۔ گوگل نے یہ بھی لکھا ہے کہ وہ خراب معیار کی اسکین اور مشکل تحریری خاکوں پر کام کر رہے ہیں۔