ناصر محمود 313
محفلین
اس سے بننے والی ٹیب فائل سے معلوم ہوا کہ سکریپنگ میں بھی شاید کچھ مسائل ہیں:
سکریپنگ تو محمد عمر بھائی نے کی ہے، امید ہے وہ اس طرف بھی توجہ دیں گے۔ ویسے اس فرہنگ سےکوئی بھی لفظ تلاش کرنے پر مطلوبہ لفظ کے معنی بجائے وہ لفظ جن الفاظ کے معنی میں آ رہا ہو وہ سامنے آتے ہیں!ڈیٹا سکریپنگ کی بات ہورہی ہے تو فرہنگ تلفظ کو سکریپ کرنا بھی عین باعث ثواب ہوگا
اس سے بننے والی ٹیب فائل سے معلوم ہوا کہ سکریپنگ میں بھی شاید کچھ مسائل ہیں:
آپ کی فائل دیکھنے اور سکریپ شدہ ڈیٹا کا جائزہ لینے پر بظاہر ایسا معلوم ہوتا ہے کہ آپ نے الفاظ کے معانی اخذ کرتے وقت جو StripNumber فنکشن استعمال کیا ہے اس میں آپ نے ایک مخصوص علامت (شاید ختمہ) کو معانی میں سے ہندسے علیحدہ کرنے کے لیے استعمال کیا ہے جس کی وجہ سے وہ تمام معانی جن کے اندر ہندسے اور ان کے بعد یہ علامت موجود نہیں تھی وہاں معانی کے آخر میں موجود علامت تک متن حذف ہو گیا اور ان تمام الفاظ کے معانی شامل نہیں ہوئے جن میں شروع میں ہندسے کے بعد مذکورہ علامت موجود نہ تھی اور آخر میں موجود تھی۔ آئندہ فرصت ملنے پر کبھی پارسنگ دوبارہ کریں تو اگر اس فنکشن کو ختم کر دیں یا یوں کر دیں کہ صرف ۲ یا ۳ انڈیکس پر موجود ختمہ کی علامت کو ہی ہندسے حذف کرنے کے لیے استعمال کرے تو بہت سارے الفاظ جن کا ایک ہی معنی ہے یا معنی کے شروع میں ہندسہ موجود نہیں ہے اور ان کے معانی فی الحال اخذ نہیں ہو سکے وہ بھی ہو جائیں گے۔ جزاک اللہ!سکریپنگ میں ضرور مسائل ہوں گے اور میں اس پر دوبارہ کام کر وں گا۔ امید ہے کہ اس ویک اینڈ پر موقع ملے گا۔
اگر آپ چاہیں تو سکریپنگ کوڈ یہاں یا اس فائل میں دیکھ سکتے ہیں۔یہ ڈاٹ نیٹ میں ہے۔
ڈیٹا سکریپنگ کی بات ہورہی ہے تو فرہنگ تلفظ کو سکریپ کرنا بھی عین باعث ثواب ہوگا
آپ کی بات درست معلوم ہو رہی ہے۔ میں اسکی درستگی کر کے نئی فائل مہیا کروں گا۔آپ کی فائل دیکھنے اور سکریپ شدہ ڈیٹا کا جائزہ لینے پر بظاہر ایسا معلوم ہوتا ہے کہ آپ نے الفاظ کے معانی اخذ کرتے وقت جو StripNumber فنکشن استعمال کیا ہے اس میں آپ نے ایک مخصوص علامت (شاید ختمہ) کو معانی میں سے ہندسے علیحدہ کرنے کے لیے استعمال کیا ہے جس کی وجہ سے وہ تمام معانی جن کے اندر ہندسے اور ان کے بعد یہ علامت موجود نہیں تھی وہاں معانی کے آخر میں موجود علامت تک متن حذف ہو گیا اور ان تمام الفاظ کے معانی شامل نہیں ہوئے جن میں شروع میں ہندسے کے بعد مذکورہ علامت موجود نہ تھی اور آخر میں موجود تھی۔ آئندہ فرصت ملنے پر کبھی پارسنگ دوبارہ کریں تو اگر اس فنکشن کو ختم کر دیں یا یوں کر دیں کہ صرف ۲ یا ۳ انڈیکس پر موجود ختمہ کی علامت کو ہی ہندسے حذف کرنے کے لیے استعمال کرے تو بہت سارے الفاظ جن کا ایک ہی معنی ہے یا معنی کے شروع میں ہندسہ موجود نہیں ہے اور ان کے معانی فی الحال اخذ نہیں ہو سکے وہ بھی ہو جائیں گے۔ جزاک اللہ!
میں بھی کچھ سی شارپ جانتا ہوں لیکن مجھے ایسے کسی ڈیٹا سورس سے سکریپنگ کرتے ہوئے ہمیشہ مشکل پیش آتی ہے۔ آپ ویب پیج کیسے ڈاون لوڈ کر رہے ہیں؟ کیونکہ اس کے بعد والا کام تو پروگرام نے کرنا ہوتا ہے اور ایچ ٹی ایم ایل میں سے ٹیکسٹ نکالنا کوئی ایسا مسئلہ نہیں ہے۔ اس کام کے لیے میں ایچ ٹی ایم ایل اگلیٹی پیک نامی لائبریری استعمال کرتا ہوں۔ لاجواب چیز ہے۔
تدوین: ایچ ٹی ایم ایل سے نکالنے کے لیے آپ بھی یہ لائبریری استعمال کر رہے ہیں اور اس کا استعمال کافی کمپلیکس بھی ہے جو کہ میرے سادہ سے پروگرامز کے مقابلے میں کافی اوپر کی چیز ہے۔ لیکن ڈیٹا حاصل کیسے کیا جا رہا ہے یہ سوال باقی ہے۔
آپ کی فائل دیکھنے اور سکریپ شدہ ڈیٹا کا جائزہ لینے پر بظاہر ایسا معلوم ہوتا ہے کہ آپ نے الفاظ کے معانی اخذ کرتے وقت جو StripNumber فنکشن استعمال کیا ہے اس میں آپ نے ایک مخصوص علامت (شاید ختمہ) کو معانی میں سے ہندسے علیحدہ کرنے کے لیے استعمال کیا ہے جس کی وجہ سے وہ تمام معانی جن کے اندر ہندسے اور ان کے بعد یہ علامت موجود نہیں تھی وہاں معانی کے آخر میں موجود علامت تک متن حذف ہو گیا اور ان تمام الفاظ کے معانی شامل نہیں ہوئے جن میں شروع میں ہندسے کے بعد مذکورہ علامت موجود نہ تھی اور آخر میں موجود تھی۔ آئندہ فرصت ملنے پر کبھی پارسنگ دوبارہ کریں تو اگر اس فنکشن کو ختم کر دیں یا یوں کر دیں کہ صرف ۲ یا ۳ انڈیکس پر موجود ختمہ کی علامت کو ہی ہندسے حذف کرنے کے لیے استعمال کرے تو بہت سارے الفاظ جن کا ایک ہی معنی ہے یا معنی کے شروع میں ہندسہ موجود نہیں ہے اور ان کے معانی فی الحال اخذ نہیں ہو سکے وہ بھی ہو جائیں گے۔ جزاک اللہ!
جی درست فرمایا۔ یو آر ایل کیوری سٹرنگ سے ہی کام چل گیا۔یعنی لنک کے لیے کیوری نہیں دینا پڑی ورنہ مشکل ہوتا. فرہنگ تلفظ میں کوئی فکسڈ پیٹرن نہیں لگتا. کیوری پر ہی صفحہ لوڈ ہوتا ہے.
اس لغت میں سرچ کے بعد پچاس سے اوپر ریکارڈز نہیں آتے، اور اگلے پچھلے صفحہ کے لیے لنک بھی نہیں۔ڈیٹا سکریپنگ کی بات ہورہی ہے تو فرہنگ تلفظ کو سکریپ کرنا بھی عین باعث ثواب ہوگا
عمر بھائی نئی فائل پہلے سے بہت بہتر ہے اور بہت سارے الفاظ کے معانی شامل ہو گئے ہیں لیکن ابھی بھی کچھ مسائل موجود ہیں مثلاً:میں نے آپ کے سکرپٹ کو استعمال کر کے اور معانی کے نقائص دور کر کے نئی فائل اپلوڈ کر دی ہے۔ اگر ایک دفعہ نظر دوڑائیں کہ کچھ بہتر ہوئی ہے ۔
میں نے زپ فائل میں سی ایس وی بھی ڈال دی ہے ۔میری کوشش میں درست فارمیٹ بنا ہے یا نہیں یہ دیکھنا پڑے گا۔
عمر بھائی نئی فائل پہلے سے بہت بہتر ہے اور بہت سارے الفاظ کے معانی شامل ہو گئے ہیں لیکن ابھی بھی کچھ مسائل موجود ہیں مثلاً:
۱۔ کچھ الفاظ کے درمیان میں موجود پہلی سپیس حذف ہو گئی ہے۔ (مثلاً "آنکھ سینکنا" کی جگہ "آنکھسینکنا")
۲۔ کچھ الفاظ میں اضافی حروف شامل ہو گئے ہیں۔ (مثلاً "آپ آئے بھاگ آئے" کی جگہ "آپ و آئے بھاگ آئے")
۳۔ کچھ الفاظ میں اضافی حصے شامل ہو گئے ہیں۔ (مثلاً "سعید" کی جگہ "سعی سعید")
۴۔ کچھ الفاظ کے چند معانی تو شامل ہو گئے ہیں لیکن چند نہیں۔(مثلاً "سعی" میں چار معانی موجود ہیں اور تین اخذ ہوئے)
ابتدائی تین مسائل والے الفاظ میں ایک قدر مشترک ہے کہ ان تمام الفاظ کے ٹائٹل میں کسی دوسرے لفظ کا لنک موجود ہے۔ اس کی وجہ سکریپنگ کا مسئلہ بھی ہو سکتا ہے، یہ بھی ہو سکتا ہے کہ اعراب اور غیر ضروری کریکٹرز حذف کرتے ہوئے مسئلہ ہوا ہو اور یہ بھی ہو سکتا ہے کہ پہلے ویب سائٹ میں غلط ہو اور بعد میں درست کیا گیا ہو۔ اگر آپ ان مثالوں کے صفحات کا اپنے پاس ڈسک پر موجود صفحات سے تقابل کر لیں اور پھر سکریپنگ کے بعد ان میں آنے والی تبدیلی کا جائزہ لے لیں تو ان مسائل کی وجوہات کا تعین کرنے میں آسانی رہے گی۔
سکریپنگ میں تو اس کے علاوہ کوئی خاص غلطی نظر نہیں آئی البتہ لغت کے اندر ایک سقم یہ ہے کہ کئی محاورات، تراکیب اور ضرب الامثال میں جہاں ایک سے زیادہ متبادل الفاظ استعمال کیے جاتے ہیں وہاں پہ تمام ممکنہ متبادل الفاظ بھی ساتھ ہی درج کر دیے گئے ہیں۔ جہاں پہ متبادل الفاظ بریکٹ میں لکھے گئے ہیں انہیں تو بآسانی حذف کیا جا سکتا ہے البتہ جہاں متبادل الفاظ سلیش سے علیحدہ کیے گئے ہیں وہاں ایسی تراکیب کی تلاش میں مشکل پیش آ سکتی ہے۔ اس مسئلے کے حل کے لیے کسی کے ذہن میں کوئی جگاڑ ہو تو استعمال کیا جا سکتا ہے۔اس کے علاوہ اگر کوئی سقم موجود ہو تو ضرور مطلع کیجئے ۔۔
سکریپنگ میں تو اس کے علاوہ کوئی خاص غلطی نظر نہیں آئی البتہ لغت کے اندر ایک سقم یہ ہے کہ کئی محاورات، تراکیب اور ضرب الامثال میں جہاں ایک سے زیادہ متبادل الفاظ استعمال کیے جاتے ہیں وہاں پہ تمام ممکنہ متبادل الفاظ بھی ساتھ ہی درج کر دیے گئے ہیں۔ جہاں پہ متبادل الفاظ بریکٹ میں لکھے گئے ہیں انہیں تو بآسانی حذف کیا جا سکتا ہے البتہ جہاں متبادل الفاظ سلیش سے علیحدہ کیے گئے ہیں وہاں ایسی تراکیب کی تلاش میں مشکل پیش آ سکتی ہے۔ اس مسئلے کے حل کے لیے کسی کے ذہن میں کوئی جگاڑ ہو تو استعمال کیا جا سکتا ہے۔
عمر بھائی نئی فائل پہلے سے بہت بہتر ہے اور بہت سارے الفاظ کے معانی شامل ہو گئے ہیں لیکن ابھی بھی کچھ مسائل موجود ہیں مثلاً:
۱۔ کچھ الفاظ کے درمیان میں موجود پہلی سپیس حذف ہو گئی ہے۔ (مثلاً "آنکھ سینکنا" کی جگہ "آنکھسینکنا")
۲۔ کچھ الفاظ میں اضافی حروف شامل ہو گئے ہیں۔ (مثلاً "آپ آئے بھاگ آئے" کی جگہ "آپ و آئے بھاگ آئے")
۳۔ کچھ الفاظ میں اضافی حصے شامل ہو گئے ہیں۔ (مثلاً "سعید" کی جگہ "سعی سعید")
۴۔ کچھ الفاظ کے چند معانی تو شامل ہو گئے ہیں لیکن چند نہیں۔(مثلاً "سعی" میں چار معانی موجود ہیں اور تین اخذ ہوئے)
ابتدائی تین مسائل والے الفاظ میں ایک قدر مشترک ہے کہ ان تمام الفاظ کے ٹائٹل میں کسی دوسرے لفظ کا لنک موجود ہے۔ اس کی وجہ سکریپنگ کا مسئلہ بھی ہو سکتا ہے، یہ بھی ہو سکتا ہے کہ اعراب اور غیر ضروری کریکٹرز حذف کرتے ہوئے مسئلہ ہوا ہو اور یہ بھی ہو سکتا ہے کہ پہلے ویب سائٹ میں غلط ہو اور بعد میں درست کیا گیا ہو۔ اگر آپ ان مثالوں کے صفحات کا اپنے پاس ڈسک پر موجود صفحات سے تقابل کر لیں اور پھر سکریپنگ کے بعد ان میں آنے والی تبدیلی کا جائزہ لے لیں تو ان مسائل کی وجوہات کا تعین کرنے میں آسانی رہے گی۔
شکریہ عمر بھائی، لیکن نئی فائل میں الفاظ و تراکیب کی تعداد پہلے سے کافی کم ہے بہت سے ایسے الفاظ نئی فائل میں موجود نہیں ہیں جو سابقہ فائل میں موجود تھے۔ مثلاً لفظ "عمدگی"۔ شاید آپ نے دوبارہ ڈاؤن لوڈ کیا تو کچھ صفحات ڈاؤن لوڈ نہیں ہوئے۔ اس کے علاوہ کچھ ایسے الفاظ جن کی تفصیلات ایک سے زیادہ صفحات تھے ان میں سے زیادہ تر میں ایک یا دو صفحات کی تفصیلات شامل ہوئی ہیں باقی نہیں۔ مثلاً لفظ "سال"۔ شاید اس کی وجہ بھی وہی ہو کہ ابھی تک تمام صفحات ڈاؤن لوڈ نہیں ہوئے۔ نیز سلیش والے الفاظ کے لیے ایک مشورہ ہے کہ ایسے الفاظ جن میں سلیش ہے اور سلیش کے دونوں طرف اعراب حذف کرنے کے بعد ایک جیسا ہی لفظ ہے ان میں سلیش کو ختم کر کے لفظ کو ایک ہی بار شامل کر دیا جائے۔ یہ طریقہ ایسے الفاظ کے لیے کارگر ہو سکتا ہے جن میں صرف اعراب کے فرق کے ساتھ ایک لفظ کو دو بار لکھا گیا ہے۔ مثلاً لفظ "آتش" اور اس کے مرکبات وغیرہ۔میں نے نئی فائل آپلوڈ کر دی ہے۔ یہاں ملاحظہ کریں۔