دوم یہ کہ اردو مواد سے کارپس بنا کر (جو کہ
شاکر بھائی نے بنا بھی رکھا ہے، اس کی توسیع کی جا سکتی ہے) اس میں سے سب سے زیادہ مستعمل الفاظ کی فہرست کو پانچ پانچ الفاظ کے سیٹ کی شکل میں لوگوں کو ریکارڈ کرنے کو کہا جائے۔ یہ ریکارڈنگ آف لائن بھی ہو سکتی ہے یا پھر براؤزر میں ایچ ٹی ایم ایل فائیو کی نئی اے پی آئی کو استعمال کر کے مائکرو فون سے ڈیٹا حاصل کر کے سرور پر اپلوڈ کرائی جا سکتی ہے۔ پھر ان الفاظ کی سیگمنٹیشن کر کے انھیں اکوسٹک ماڈل بلڈ کرنے میں استعمال کیا جا سکے گا، نیز اوپن سورس اکوسٹک رپوزیٹری میں بھی محفوظ کیا جا سکے گا۔ یہ تو قصہ ہوا اسپیچ ٹو ٹیکسٹ کا، جو کہ ٹیکسٹ ٹو اسپیچ سے کہیں زیادہ مشکل عمل ہے۔ بہر کیف اس ڈیٹا میں سے کسی اچھے تلفظ و لب و لہجے کا منتخب کر کے اس کی مد سے ٹیکسٹ ٹو اسپیچ پر تجربات کیے جا سکتے ہیں۔ اولاً ایک ایک لفظ علیحدہ علیحدہ بولے جائیں گے لیکن ان میں تسلسل لانے پر کافی ریسرچ موجود ہے جس سے استفادہ کیا جا سکتا ہے