زیک
مسافر
کمپیوٹر سائنس میں اس پر کافی کام ہوا ہے کہ اگر آپ کو کسی نامعلوم زبان کا متن ملے تو آپ کا ایلگوردم کسی طرح یہ معلوم کر لے کہ یہ کون سی زبان میں ہے۔
اس کا ایک طریقہ یہ ہے کہ متن میں n-grams کی frequency کیا ہے یعنی n لمبائی کے sequence کس باقاعدگی سے متن میں استعمال ہوئے ہیں۔
اس کام کے لئے کسی نے ایک پروگرام لکھا ہے جو trigrams استعمال کرتا ہے۔ اس کا مقصد اس کے planet میں انگریزی اور فرنچ کی بلاگ پوسٹس میں فرق کرنا ہے۔ کوڈ یہاں موجود ہے۔ یہ python میں لکھا ہوا ہے۔
اب میں یہ چاہتا ہوں کہ کوئی رضاکار سامنے آئے جو اس پروگرام کو اردو، عربی، فارسی اور انگریزی میں فرق کرنے پر تجربات کرے۔
کرنا صرف یہ ہے کہ کہیں سے ان زبانوں کے مختلف متن حاصل کئے جائیں (مثال کے طور پر مختلف ویب سائٹس سے) اور ان متون سے html نکال دی جائے (یہ مشکل کام نہیں کیونکہ اس کے بہت سے فنکشن ویب یا کتابوں سے مل جائیں گے بلکہ کچھ لائبریریز میں بھی ہوں گے)۔ پھر ان متون پر یہ پروگرام چلا کر ہر دو متن کے درمیان similarity measure حاصل کیا جائے۔ اگر الگوردم صحیح کام کرے تو ایک ہی زبان کے دو متون میں فاصلہ کافی کم ہونا چاہیئے اور دو مختلف زبانوں میں کافی زیادہ۔ انگریزی اور اردو میں فرق کرنا آسان ہونا چاہیئے مگر یہ نہیں معلوم کہ اردو، عربی اور فارسی میں تفریق کر سکتے ہیں یا نہیں۔
یہ کام کافی آسان ہے اور پروگرامنگ کی زیادہ مہارت بھی نہیں چاہیئے۔ تو کوئی ہے جو یہ کام کرنا چاہے؟
نوٹ: اگر کسی کے علم میں ایسی کوئی ریسرچ ہو جو اردو پر کی گئی ہو تو کیا ہی بات ہے۔
اس کا ایک طریقہ یہ ہے کہ متن میں n-grams کی frequency کیا ہے یعنی n لمبائی کے sequence کس باقاعدگی سے متن میں استعمال ہوئے ہیں۔
اس کام کے لئے کسی نے ایک پروگرام لکھا ہے جو trigrams استعمال کرتا ہے۔ اس کا مقصد اس کے planet میں انگریزی اور فرنچ کی بلاگ پوسٹس میں فرق کرنا ہے۔ کوڈ یہاں موجود ہے۔ یہ python میں لکھا ہوا ہے۔
اب میں یہ چاہتا ہوں کہ کوئی رضاکار سامنے آئے جو اس پروگرام کو اردو، عربی، فارسی اور انگریزی میں فرق کرنے پر تجربات کرے۔
کرنا صرف یہ ہے کہ کہیں سے ان زبانوں کے مختلف متن حاصل کئے جائیں (مثال کے طور پر مختلف ویب سائٹس سے) اور ان متون سے html نکال دی جائے (یہ مشکل کام نہیں کیونکہ اس کے بہت سے فنکشن ویب یا کتابوں سے مل جائیں گے بلکہ کچھ لائبریریز میں بھی ہوں گے)۔ پھر ان متون پر یہ پروگرام چلا کر ہر دو متن کے درمیان similarity measure حاصل کیا جائے۔ اگر الگوردم صحیح کام کرے تو ایک ہی زبان کے دو متون میں فاصلہ کافی کم ہونا چاہیئے اور دو مختلف زبانوں میں کافی زیادہ۔ انگریزی اور اردو میں فرق کرنا آسان ہونا چاہیئے مگر یہ نہیں معلوم کہ اردو، عربی اور فارسی میں تفریق کر سکتے ہیں یا نہیں۔
یہ کام کافی آسان ہے اور پروگرامنگ کی زیادہ مہارت بھی نہیں چاہیئے۔ تو کوئی ہے جو یہ کام کرنا چاہے؟
نوٹ: اگر کسی کے علم میں ایسی کوئی ریسرچ ہو جو اردو پر کی گئی ہو تو کیا ہی بات ہے۔