عباس اعوان
محفلین
یہ کہتے ہیں کہ ان لوگوں نے لاطینی نسل کی زبانوں کے لیے چار لاکھ سطروں کے ساتھ ماڈل کو ٹرین کیا ہے۔
یہ کام لاطینی زبانوں کے لیے تو آسان ہے، اردو کے لیے کچھ مشکل پیش آئے گی۔
بہرحال، میرے ذہن میں ایک تجویزہے، جو کہ اردو کے ٹریننگ ڈیٹا اور فیڈ بیک کو دیکھنے کے بعد پیش کروں گا۔
میری تجویز بھی تقریباً یہی تھی۔مینوں لگدا اج اپنا کم نہیں یہی کروں گا، مشورے بازی
لو فیر اگلا مشورہ
بنیادی مقصد امیجز اور ٹیکسٹ کے سطری جوڑے ہیں۔ تو ٹیکسٹ (اردو محفل فورم کی لائبریری سے حاصل کردہ کتب والا) لیں اور جمیل نوری نستعلیق میں رینڈر کرا کے جملہ بہ جملہ امیجز جنریٹ کر لیں۔ اس بات کا ذکر ٹیسرکٹ دستاویزات میں بھی کہیں ہے، فونٹ سے حاصل شدہ امیجز۔
شیخ چلی کی پیروی میں ایک قدم اور آگے بڑھتے ہوئے مزید مشورہ ہے کہ جمیل نوری نستعلیق کی لگیچر فائلیں اس کام کے لیے استعمال ہو سکتی ہیں۔ اس حوالے سے ایک پروگرام بھی بنایا گیا تھا لگیچر لسٹ سے خودبخود امیجز جنریٹ کرنا۔ لگیچر بیسڈ نفیس نستعلیق تیار گیا تھا اس کے استعمال سے۔
مندرجہ بالا کوئک اینڈ ڈرٹی سلوشن ہے۔
نمبر دو تو بالکل ہی گیا گزرا ہو گا کیونکہ اس میں بائی گرامز (دو دو الفاظ کے جوڑے) حاصل نہیں ہوں گے، کہ ان پٹ ہی ان، پٹ، پٹی جیسے لگیچرز یا ترسیموں پر مبنی ہو گی۔
نمبر ایک میں جملوں کی وجہ سے یہ تو نہیں ہو گا ، البتہ ٹریننگ ڈیٹا ظاہر ہے مصنوعی ہو گا۔ گندی مندی سکین امیجز سے پاک۔ اور پروگرام چلے گا بھی صرف نوری نستعلیق پر، چونکہ اسی پر ٹرین کیا گیا ہو گا۔ دستی کتابت گئی تیل لینے۔
البتہ مختلف نستعلیق فونٹ استعمال کر کے ڈیٹا کو متنوع بنایا جا سکتا ہے۔
سچ پوچھیں تو یہ ٹیکسٹ سے فونٹ استعمال کر کے امیج جنریٹ کروانے والا آئیڈیا سب سے سستا پڑے گا، ہر لحاظ سے۔
ہمارے پاس بہت سی کتابیں اور دیگر مواد یونی کوڈمیں موجود ہے، ان کا متن رینڈر کر کے امیج اور ڈیٹا کا جوڑا حاصل کیا جا سکتا ہے۔
اس تکنیک کے کچھ فوائد مندرجہ ذیل ہیں:
- ڈیٹا: ہمارے پاس بہت کم وقت میں کافی سارا ڈیٹا دستیاب ہو گا۔
- درستی: امیج اور ڈیٹا آپس میں عین مطابقت رکھتے ہوں گے، بغیر کسی اغلاط کے۔
- وقت اور محنت کی بچت: اس تکنیک سے ہمارے پاس بہت کم وقت اور محنت سے بہت سارا ڈیٹا دستیاب ہو گا۔
- مختلف فونٹس کی سہولت: یونی کوڈ ڈیٹا کو ہم اپنی مرضی کے کسی بھی فونٹ میں رینڈر کر سکتے ہیں، یوں ہمارا ماڈل بیک وقت کئی فونٹس کو سپورٹ کرے گا۔
- متن کا بگاڑ: ہم اپنے ڈیٹا کو مصنوعی طریقے سے بگاڑ کر رینڈر کر سکتے ہیں، مثلاً لکھائی کا مدہم ہونا، متن کا بیک گراؤنڈ میں ضم ہونا، دھندلا متن، صفحے پر چائے کافی کے نشانات، صفحے کا یوں نظر آنا جیسے سکین کرتے ہوئی صفحہ ہِل گیا ہو، وغیرہ وغیرہ