ہونٹوں کی حرکت سے کمپیوٹر آپ کی بولی جانے والی زبان کو شناخت کر سکتا ہے

محمدصابر

محفلین
108691777.gif

University of East Anglia کے سائنسدانوں نے ہونٹوں کی حرکت سے زبان شناخت کرنے میں کامیابی حاصل کر لی۔ دو اور تین زبانیں بولنے والے تیس لوگوں پر مشتمل ٹیم پر تجربات کرتے ہوئے کمپیوٹر نے انتہائی درستگی کے ساتھ زبان کی شناخت کی۔ زبانوں میں English, French, German, Arabic, Mandarin, Cantonese, Italian, Polish and Russian. شامل ہیں۔
تفصیل
 

نبیل

تکنیکی معاون
واہ کیا بات ہے، ابھی سپیچ ریکگنیشن پر تحقیق کی صحیح پیشرفت نہیں ہو پائی ہے دوسری جانب ہونٹوں کی جنبش سے ہی الفاظ اور زبان کی شناخت ہونے لگی ہے۔ :eek:
 

arifkarim

معطل
واہ کیا بات ہے، ابھی سپیچ ریکگنیشن پر تحقیق کی صحیح پیشرفت نہیں ہو پائی ہے دوسری جانب ہونٹوں کی جنبش سے ہی الفاظ اور زبان کی شناخت ہونے لگی ہے۔ :eek:

میرے خیال میں شاید کمپیوٹر انجنز کیلئے لپ سنکنگ کرنا زیادہ آسان ہوگا بنسبت آواز کے۔ کیونکہ ہر شخص کی آواز اور بولنے کے انداز میں قدرے فرق ہوتا ہے ۔ یو ں نتائج کی بہتری پری ریکارڈڈ سیمپلز پر منحصر ہے۔
اسکے برعکس لپ سنکنگ میں صرف ہونٹوں کی جنبش سے ہی بغیر آواز کو خاطر لائے درست زبان شناخت ہو جاتی ہے!
 

زیک

مسافر
ان کا پیپر Automatic Visual-only Language Identification: A Preliminary Study سگنل پراسیسنگ کی مشہورترین کانفرنس ICASSP میں ابھی بدھ کو پیش کیا گیا ہے۔ اس پیپر کا متن تو آن‌لائن نہیں ملا مگر یہ دو لنک بھی مفید ثابت ہوں‌گے۔ ابھی میں‌نے پڑھا نہیں، پڑھنے کے بعد ہی کچھ تکنیکی تبصرہ کر سکتا ہوں۔
 

محمدصابر

محفلین
شکریہ زیک۔ کل میں نے اس سائٹ کو وزٹ کیا تھا لیکن مجھے بھی پیپر نہیں ملا۔ میرا خیال ہے کہ یہ موشن سینسنگ اور فنگر پرنٹ ریکگنیشن یا فیس ریکگنیشن جیسی ٹیکنالوجی کو ملا کر کچھ بنایا گیا ہے۔ میرا خیال ہے کہ اس پر کام بہت مشکل ہو گا کیونکہ ہر بندہ اپنے سگنیچر کے ساتھ بولتا ہے۔
 

نبیل

تکنیکی معاون
کچھ پُتلوں کا تماشہ دکھانے والے منہ بند کرکے بولنے کے ماہر ہوتے ہیں۔ اب اس فن کے ماہروں کی قدر بڑھ جائے گی۔ :)
 

زیک

مسافر
Audio-visual speech recognition پر کافی کام ہو چکا ہے۔ اگرچہ زیادہ‌تر ویڈیو کو noisy environments میں آڈیو سپیچ سمجھنے میں بہتری کے لئے استعمال کیا جاتا ہے نہ کہ اکیلے ویڈیو کو۔ کچھ تھیسس میں نے پڑھے ہیں جن میں صرف ہونٹوں کی حرکت سے سپیچ سمجھنے کی کوشش کی گئ ہے مگر اس کی کارکردگی audio speech recognition کے مقابلے کی نہیں۔

یہاں یہ ریسرچرز امیج ماڈلز کو استعمال کرتے ہوئے سپیچ کی بجائے زبان دریافت کرنا چاہتے ہیں۔ اس کے لئے وہ bigrams کا استعمال کر رہے ہیں۔ bigrams اور trigrams زبان کی identification (ٹیکسٹ کی صورت میں) میں کافی عام ہے۔

یہ ایک preliminary سٹڈی ہے۔ ریسرچرز کا کہنا ہے کہ ہونٹوں کے فیچر speaker-dependent ہیں۔ لہذا یہ language identification بھی speaker-dependent ہے۔

مگر کافی مزے کی ریسرچ ہے۔
 
Top