متن سے زبان کا اندازہ

زیک · اکتوبر 20، 2006

کمپیوٹر سائنس میں اس پر کافی کام ہوا ہے کہ اگر آپ کو کسی نامعلوم زبان کا متن ملے تو آپ کا ایلگوردم کسی طرح یہ معلوم کر لے کہ یہ کون سی زبان میں ہے۔

اس کا ایک طریقہ یہ ہے کہ متن میں n-grams کی frequency کیا ہے یعنی n لمبائی کے sequence کس باقاعدگی سے متن میں استعمال ہوئے ہیں۔

اس کام کے لئے کسی نے ایک پروگرام لکھا ہے جو trigrams استعمال کرتا ہے۔ اس کا مقصد اس کے planet میں انگریزی اور فرنچ کی بلاگ پوسٹس میں فرق کرنا ہے۔ کوڈ یہاں موجود ہے۔ یہ python میں لکھا ہوا ہے۔

اب میں یہ چاہتا ہوں کہ کوئی رضاکار سامنے آئے جو اس پروگرام کو اردو، عربی، فارسی اور انگریزی میں فرق کرنے پر تجربات کرے۔

کرنا صرف یہ ہے کہ کہیں سے ان زبانوں کے مختلف متن حاصل کئے جائیں (مثال کے طور پر مختلف ویب سائٹس سے) اور ان متون سے html نکال دی جائے (یہ مشکل کام نہیں کیونکہ اس کے بہت سے فنکشن ویب یا کتابوں سے مل جائیں گے بلکہ کچھ لائبریریز میں بھی ہوں گے)۔ پھر ان متون پر یہ پروگرام چلا کر ہر دو متن کے درمیان similarity measure حاصل کیا جائے۔ اگر الگوردم صحیح کام کرے تو ایک ہی زبان کے دو متون میں فاصلہ کافی کم ہونا چاہیئے اور دو مختلف زبانوں میں کافی زیادہ۔ انگریزی اور اردو میں فرق کرنا آسان ہونا چاہیئے مگر یہ نہیں معلوم کہ اردو، عربی اور فارسی میں تفریق کر سکتے ہیں یا نہیں۔

یہ کام کافی آسان ہے اور پروگرامنگ کی زیادہ مہارت بھی نہیں چاہیئے۔ تو کوئی ہے جو یہ کام کرنا چاہے؟

نوٹ: اگر کسی کے علم میں ایسی کوئی ریسرچ ہو جو اردو پر کی گئی ہو تو کیا ہی بات ہے۔

زیک · اکتوبر 20، 2006

یہ پیپر پرانا ہے اور اردو عربی وغیرہ کا کوئی ذکر نہیں مگر دلچسپ ہے۔

[align=left]Linguini: Language Identification for Multilingual Documents by John Prager[/align]

زیک · اکتوبر 21، 2006

کوئی رضاکار؟ کام آسان ہے اور میں مدد بھی کروں گا۔

مہوش علی · اکتوبر 21، 2006

زکریا،
پتا نہیں میں آپکی بات صحیح سمجھی ہوں یا نہیں، بہرحال۔۔۔۔۔
میرے خیال میں اردو کو فارسی اور عربی سے الگ کرنا تو کچھ مشکل نہیں ہونا چاہیئے۔ اسکی وجہ یہ ہے کہ اردو میں چند اضافی الفاظ موجود ہیں جن کی یونیکوڈ ویلیو بالکل مختلف ہیں۔
البتہ فارسی اور عربی میں مشکل ہو جائےگی کیونکہ تمام حروف ایک ہی یونیکوڈ ویلیوز کے ہیں۔

زیک · اکتوبر 21، 2006

اردو کے اضافی حروف چند ہی ہیں اور ان کی مدد سے اردو پہچاننا robust نہیں۔ اس کی بجائے اگر متن کے کچھ statistics اکٹھے کئے جائیں جو ان زبانوں میں کافی فرق ہوں تو بہتر ہے۔

خیر یہاں ہمارا مقصد اس پر ریسرچ کرنا نہیں بلکہ ایک طریقہ جو کافی کامیابی سے میں نے یورپی زبانوں کے لئے استعمال ہوتے دیکھا ہے اسے اردو کے ساتھ ٹرائی کرنا ہے۔ کوڈ بھی موجود ہے بس ٹیسٹنگ کرنے کے لئے رضاکار کی ضرورت ہے۔

قیصرانی · اکتوبر 21، 2006

رضاکار پھر ادھر موجود ہے۔ کافی عرصے سے سافٹ وئیر ڈیولپمنٹ کی طرف دھیان نہیں دیا۔ تھوڑا سا رواں کر دیں، پھر باقی میں جانوں اور سافٹ وئیر جانے

متن سے زبان کا اندازہ

زیک

مسافر

زیک

مسافر

زیک

مسافر

مہوش علی

لائبریرین

زیک

مسافر

قیصرانی

لائبریرین