متن سے زبان کا اندازہ

زیک

مسافر
کمپیوٹر سائنس میں اس پر کافی کام ہوا ہے کہ اگر آپ کو کسی نامعلوم زبان کا متن ملے تو آپ کا ایلگوردم کسی طرح یہ معلوم کر لے کہ یہ کون سی زبان میں ہے۔

اس کا ایک طریقہ یہ ہے کہ متن میں n-grams کی frequency کیا ہے یعنی n لمبائی کے sequence کس باقاعدگی سے متن میں استعمال ہوئے ہیں۔

اس کام کے لئے کسی نے ایک پروگرام لکھا ہے جو trigrams استعمال کرتا ہے۔ اس کا مقصد اس کے planet میں انگریزی اور فرنچ کی بلاگ پوسٹس میں فرق کرنا ہے۔ کوڈ یہاں موجود ہے۔ یہ python میں لکھا ہوا ہے۔

اب میں یہ چاہتا ہوں کہ کوئی رضاکار سامنے آئے جو اس پروگرام کو اردو، عربی، فارسی اور انگریزی میں فرق کرنے پر تجربات کرے۔

کرنا صرف یہ ہے کہ کہیں سے ان زبانوں کے مختلف متن حاصل کئے جائیں (مثال کے طور پر مختلف ویب سائٹس سے) اور ان متون سے html نکال دی جائے (یہ مشکل کام نہیں کیونکہ اس کے بہت سے فنکشن ویب یا کتابوں سے مل جائیں گے بلکہ کچھ لائبریریز میں بھی ہوں گے)۔ پھر ان متون پر یہ پروگرام چلا کر ہر دو متن کے درمیان similarity measure حاصل کیا جائے۔ اگر الگوردم صحیح کام کرے تو ایک ہی زبان کے دو متون میں فاصلہ کافی کم ہونا چاہیئے اور دو مختلف زبانوں میں کافی زیادہ۔ انگریزی اور اردو میں فرق کرنا آسان ہونا چاہیئے مگر یہ نہیں معلوم کہ اردو، عربی اور فارسی میں تفریق کر سکتے ہیں یا نہیں۔

یہ کام کافی آسان ہے اور پروگرامنگ کی زیادہ مہارت بھی نہیں چاہیئے۔ تو کوئی ہے جو یہ کام کرنا چاہے؟

نوٹ: اگر کسی کے علم میں ایسی کوئی ریسرچ ہو جو اردو پر کی گئی ہو تو کیا ہی بات ہے۔
 

مہوش علی

لائبریرین
زکریا،
پتا نہیں میں آپکی بات صحیح سمجھی ہوں یا نہیں، بہرحال۔۔۔۔۔
میرے خیال میں اردو کو فارسی اور عربی سے الگ کرنا تو کچھ مشکل نہیں ہونا چاہیئے۔ اسکی وجہ یہ ہے کہ اردو میں چند اضافی الفاظ موجود ہیں جن کی یونیکوڈ ویلیو بالکل مختلف ہیں۔
البتہ فارسی اور عربی میں مشکل ہو جائےگی کیونکہ تمام حروف ایک ہی یونیکوڈ ویلیوز کے ہیں۔
 

زیک

مسافر
اردو کے اضافی حروف چند ہی ہیں اور ان کی مدد سے اردو پہچاننا robust نہیں۔ اس کی بجائے اگر متن کے کچھ statistics اکٹھے کئے جائیں جو ان زبانوں میں کافی فرق ہوں تو بہتر ہے۔

خیر یہاں ہمارا مقصد اس پر ریسرچ کرنا نہیں بلکہ ایک طریقہ جو کافی کامیابی سے میں نے یورپی زبانوں کے لئے استعمال ہوتے دیکھا ہے اسے اردو کے ساتھ ٹرائی کرنا ہے۔ کوڈ بھی موجود ہے بس ٹیسٹنگ کرنے کے لئے رضاکار کی ضرورت ہے۔
 

قیصرانی

لائبریرین
رضاکار پھر ادھر موجود ہے۔ کافی عرصے سے سافٹ وئیر ڈیولپمنٹ کی طرف دھیان نہیں دیا۔ تھوڑا سا رواں کر دیں، پھر باقی میں جانوں اور سافٹ وئیر جانے :)
 
Top