Audio-visual speech recognition پر کافی کام ہو چکا ہے۔ اگرچہ زیادہتر ویڈیو کو noisy environments میں آڈیو سپیچ سمجھنے میں بہتری کے لئے استعمال کیا جاتا ہے نہ کہ اکیلے ویڈیو کو۔ کچھ تھیسس میں نے پڑھے ہیں جن میں صرف ہونٹوں کی حرکت سے سپیچ سمجھنے کی کوشش کی گئ ہے مگر اس کی کارکردگی audio speech recognition کے مقابلے کی نہیں۔
یہاں یہ ریسرچرز امیج ماڈلز کو استعمال کرتے ہوئے سپیچ کی بجائے زبان دریافت کرنا چاہتے ہیں۔ اس کے لئے وہ bigrams کا استعمال کر رہے ہیں۔ bigrams اور trigrams زبان کی identification (ٹیکسٹ کی صورت میں) میں کافی عام ہے۔
یہ ایک preliminary سٹڈی ہے۔ ریسرچرز کا کہنا ہے کہ ہونٹوں کے فیچر speaker-dependent ہیں۔ لہذا یہ language identification بھی speaker-dependent ہے۔
مگر کافی مزے کی ریسرچ ہے۔