دوست
محفلین
اوپن اے آئی کی جانب سے وسپر whisper سیریز کے ماڈل تین چار سال سے ٹرانسکرپشن اور ڈکٹیشن میں مقبول ہیں ، جس کی وجہ ان کا مفت ہونا ہے۔ انگریزی کے لیے اس ماڈل کی ایکیوریسی بہت ہی اچھی ہے (90 فیصد سے زائد)۔ وسپر لارج 3 کے ساتھ کچھ مسائل ہیں (ہیلوسی نیشن کرتا ہے)، تاہم وسپر لارج 2 کمال کا نتیجہ دیتا ہے۔ وسپر کئی لاکھ گھنٹے کی کثیر لسانی آڈیو پر ٹرین کیا گیا ہے۔ اس کی گٹ ہب ریپازٹری سے پتہ چلتا ہے کہ زبانوں میں اردو اور ہندی بھی شامل ہیں۔ اس کے نتائج کے گراف بھی نیچے دیے گئے ہیں جن کے مطابق اردو کا ورڈ ایرر ریٹ کوئی 20 کے قریب ہے (ہندی سے زیادہ)۔
مذکورہ بالا گرافس میں سے ایک موزیلا کامن وائس ڈیٹا سیٹ 15 پر کیے گئے تجربات پر مشتمل ہے (ہگنگ فیس ریپو)۔ اب کامن وائس کا ورژن 17 آ چکا ہے (ویسے تو 18 بھی موجود ہے لیکن ہگنگ فیس پر 17 ہی ملا ہے فی الحال)۔
مندرجہ بالا کا نتیجہ کُل ملا کر یہ کہ اپنے دماغ میں یہ بات پھنس گئی تھی کہ ایک عدد جی پی یو یونیورسٹی کی طرف سے ملا ہے تو اس پر کچھ چلا کر دیکھا جائے۔ پھر اس پر وسپر سمال whisper small کی فائن ٹیوننگ ہی چلائی۔ جس کے لیے اس گائیڈ سے مدد لی جا سکتی ہے۔ بس ہندی کی جگہ اردو کرتے جائیں باقی سب ایسے ہی رہے گا۔ قصہ مختصر گزرے کل کچھ 4 گھنٹے بجلی جلا کر وسپر سمال اردو بنایا ہے۔ لیکن اس کا نتیجہ ویسا ہی لگتا ہے جیسا سادہ وسپر کا ہو گا۔ یعنی املاء کی غلطیاں، رموز اوقات (پنکچویشن) کے بغیر جملے، غلط الفاظ وغیرہ وغیرہ۔
پھر پتہ چلا کہ کامن وائس 17 آ چکا ہے اور اس میں دیگرother کے ذیل میں کوئی ایک لاکھ تیس ہزار سے اوپر مثالیں (جملے اور آڈیو) موجود ہیں۔ ساتھ ہی سوچا کہ بڑے ماڈل کو ٹرین کر کے دیکھیں، لیکن ڈیڑھ لاکھ مثالوں اور وسپر لارج وی 2 whisper large v کے لیے مناسب ریسورسز نہیں تھے۔ چنانچہ ساڑھے نو ہزار ٹرین اور چار ہزار ٹیسٹ مثالوں پر واپس تشریف آوری ہوئی۔ اس وقت وسپر میڈیم ٹرین (فائن ٹیون) ہو رہا ہے۔ جس میں آٹھ دس گھنٹے لگ جائیں گے۔ اس کے مکمل ہونے پر یہاں مہیا کر دیا جائے گا۔ وسپر سمال اردو یہاں سے اتارا جا سکتا ہے (بے کار نتائج کی وجہ سے ہگنگ فیس پر نہیں ڈالا)۔ جیوپیٹر نوٹ بُک والی ڈائریکٹری میں ان زپ کریں اور ایسے چلایا جا سکتا ہے (پائیتھون، این ویڈیا گرافکس کارڈ ہونا چاہیے ورنہ گوگل کولیب استعمال کریں)۔ کولیب کے لیے گوگل ڈرائیو پر اپلوڈ کرنا پڑے گا (انٹرنیٹ پر سرچ کرکے دیکھنا پڑے گاکہ ڈرائیو کیسے کولیب میں ماؤنٹ کرنی ہے)۔ بہرحال، سب کچھ ٹھیک کرنے پر بھی ضروری نہیں کہ یہ چل جائے، جس کی ذمہ دار انتظامیہ نہ ہو گی۔
اس سے پہلے یہ پیکچز انسٹال کرنا نہ بھولیں۔
بہرحال اس ساری مشق کا مقصد یہ بتانا تھا کہ کوئی صاحبِ استطاعت (بمعنی پروگرامنگ و اے آئی ٹریننگ استطاعت، اور ڈھیر سارے وڈے وڈے جی پی یوز کی استطاعت) بندہ موزیلا کامن وائس 17 پر وسپر لارج 2 کو ٹرین (یا فائن ٹیون) کر سکتا ہے (ساری مثالیں جو کوئی ڈیڑھ لاکھ کے قریب ہیں)۔ یا اس کا جائزہ لے سکتا ہے کہ ایسا کرنے سے کسی کا کوئی بھلا ہو گا یا بس وقت اور بجلی ہی ضائع ہو گی۔شاید اس طرح اردو کے لیے سپیچ ٹو ٹیکسٹ بن سکے (یا موجودہ بہتر ہو سکے)۔
مذکورہ بالا گرافس میں سے ایک موزیلا کامن وائس ڈیٹا سیٹ 15 پر کیے گئے تجربات پر مشتمل ہے (ہگنگ فیس ریپو)۔ اب کامن وائس کا ورژن 17 آ چکا ہے (ویسے تو 18 بھی موجود ہے لیکن ہگنگ فیس پر 17 ہی ملا ہے فی الحال)۔
مندرجہ بالا کا نتیجہ کُل ملا کر یہ کہ اپنے دماغ میں یہ بات پھنس گئی تھی کہ ایک عدد جی پی یو یونیورسٹی کی طرف سے ملا ہے تو اس پر کچھ چلا کر دیکھا جائے۔ پھر اس پر وسپر سمال whisper small کی فائن ٹیوننگ ہی چلائی۔ جس کے لیے اس گائیڈ سے مدد لی جا سکتی ہے۔ بس ہندی کی جگہ اردو کرتے جائیں باقی سب ایسے ہی رہے گا۔ قصہ مختصر گزرے کل کچھ 4 گھنٹے بجلی جلا کر وسپر سمال اردو بنایا ہے۔ لیکن اس کا نتیجہ ویسا ہی لگتا ہے جیسا سادہ وسپر کا ہو گا۔ یعنی املاء کی غلطیاں، رموز اوقات (پنکچویشن) کے بغیر جملے، غلط الفاظ وغیرہ وغیرہ۔
پھر پتہ چلا کہ کامن وائس 17 آ چکا ہے اور اس میں دیگرother کے ذیل میں کوئی ایک لاکھ تیس ہزار سے اوپر مثالیں (جملے اور آڈیو) موجود ہیں۔ ساتھ ہی سوچا کہ بڑے ماڈل کو ٹرین کر کے دیکھیں، لیکن ڈیڑھ لاکھ مثالوں اور وسپر لارج وی 2 whisper large v کے لیے مناسب ریسورسز نہیں تھے۔ چنانچہ ساڑھے نو ہزار ٹرین اور چار ہزار ٹیسٹ مثالوں پر واپس تشریف آوری ہوئی۔ اس وقت وسپر میڈیم ٹرین (فائن ٹیون) ہو رہا ہے۔ جس میں آٹھ دس گھنٹے لگ جائیں گے۔ اس کے مکمل ہونے پر یہاں مہیا کر دیا جائے گا۔ وسپر سمال اردو یہاں سے اتارا جا سکتا ہے (بے کار نتائج کی وجہ سے ہگنگ فیس پر نہیں ڈالا)۔ جیوپیٹر نوٹ بُک والی ڈائریکٹری میں ان زپ کریں اور ایسے چلایا جا سکتا ہے (پائیتھون، این ویڈیا گرافکس کارڈ ہونا چاہیے ورنہ گوگل کولیب استعمال کریں)۔ کولیب کے لیے گوگل ڈرائیو پر اپلوڈ کرنا پڑے گا (انٹرنیٹ پر سرچ کرکے دیکھنا پڑے گاکہ ڈرائیو کیسے کولیب میں ماؤنٹ کرنی ہے)۔ بہرحال، سب کچھ ٹھیک کرنے پر بھی ضروری نہیں کہ یہ چل جائے، جس کی ذمہ دار انتظامیہ نہ ہو گی۔
Python:
from transformers import pipeline
import gradio as gr
pipe = pipeline(
model='./whisper-small-ur/whisper-small-ur3',
tokenizer='./whisper-small-ur/whisper-small-ur3',
task='automatic-speech-recognition',
device='cuda',
return_timestamps=True
)
def transcribe(audio):
text = pipe(audio)['text']
return text
iface = gr.Interface(
fn=transcribe,
inputs=gr.Audio(sources=['microphone', 'upload'], type='filepath'),
outputs='text'
)
iface.launch(share=True)
اس سے پہلے یہ پیکچز انسٹال کرنا نہ بھولیں۔
Python:
!pip install --upgrade --quiet pip
!pip install --upgrade --quiet datasets[audio] transformers accelerate evaluate jiwer tensorboard gradio
بہرحال اس ساری مشق کا مقصد یہ بتانا تھا کہ کوئی صاحبِ استطاعت (بمعنی پروگرامنگ و اے آئی ٹریننگ استطاعت، اور ڈھیر سارے وڈے وڈے جی پی یوز کی استطاعت) بندہ موزیلا کامن وائس 17 پر وسپر لارج 2 کو ٹرین (یا فائن ٹیون) کر سکتا ہے (ساری مثالیں جو کوئی ڈیڑھ لاکھ کے قریب ہیں)۔ یا اس کا جائزہ لے سکتا ہے کہ ایسا کرنے سے کسی کا کوئی بھلا ہو گا یا بس وقت اور بجلی ہی ضائع ہو گی۔شاید اس طرح اردو کے لیے سپیچ ٹو ٹیکسٹ بن سکے (یا موجودہ بہتر ہو سکے)۔