سید عاطف علی
لائبریرین
رموز و اقاف یعنی پنکچویشن کے معیارات کو متعین کر کے اس کام کو آسان کیا جاسکتا ہے ۔البتہ ان کا حتمی تعین بجائے خود ایک مفصل مساعی کا متقاضی ہے ۔
جی ہاں ۔ یہ جملے قواعد کی زبان میں شرط اور جواب شرط کہلاتے ہیں ۔ کوئی شرطیہ جملہ جواب شرط کے بغیر مکمل نہیں ہوتا ۔درست فرمایا۔ اسی طرح:
جو ، جن ، جس ، جنہیں سے شروع ہونے والے جملے
تبدیلی کی ہے اب اپروو ہونے کے بعد چینجز لاگو ہوجائیں گی۔اس اے پی آئی کو اپڈیٹ ہونا چاہیئے، اوپن سورس اور گٹ ہب کا یہی فائدہ ہے۔ پُل ریکوئسٹ اور مرج؟
from urduhack.normalization import normalize
from urduhack.preprocess import normalize_whitespace
from urduhack.tokenization import sentence_tokenizer
text=" ﻭﻩ ﺟﻨﮕﻞ ﺑﯿﺎﺑﺎﻥ ﻣﯿﮟ ﺍﭘﻨﯽ ﺳﻮﺍﺭﯼ ﭘﺮ ﺳﻔﺮ ﮐﺮ ﺭﮨﺎ ﺗﮭﺎ ﺍﺱ ﭘﺮ ﺍﺱ ﮐﺎ ﮐﮭﺎﻧﺎ ﭘﯿﻨﺎ ﺑﮭﯽ ﺗﮭﺎ ۔۔۔۔ اِن شَاء اللہ آن۔۔۔ا جَان۔۔۔ا لَ۔۔۔گا رہے گا\n\n\t"
# normalize function does not removes whitespace from text , so explicitly call to normalize_whitespace after normaliz
normalized_text = normalize_whitespace(normalize(text))
# remove tatweel from text
translation_table = dict.fromkeys(map(ord, '۔'), None)
normalized_text = normalized_text.translate(translation_table)
print('normalized text is:')
print(normalized_text)
# after sentencet tokenization multiple "۔۔۔۔" are eliminated
sentences=sentence_tokenizer(normalized_text)
print(sentences)
اس مسئلہ کا حل مل گیا ہے
مندرجہ ذیل فائل کی سطر 6 میں یہ چار الفاظ ( 'جنہیں','جس','جن','جو' ) شامل کرنے سے مسئلہ حل ہو جاتا ہے
urduhack/urduhack/tokenization/eos.py
URDU_CONJUNCTIONS = ['جنہیں','جس','جن','جو','اور', 'اگر', 'اگرچہ', 'لیکن', 'مگر', 'پر', 'یا', 'تاہم', 'کہ', 'کر']URDU_NEWLINE_WORDS = ['کیجئے', 'گئیں', 'تھیں', 'ہوں', 'خریدا', 'گے', 'ہونگے', 'گا', 'چاہیے', 'ہوئیں', 'گی',
'تھا', 'تھی', 'تھے', 'ہیں', 'ہے',
]
from urduhack.normalization import normalize
from urduhack.preprocess import normalize_whitespace
from urduhack.tokenization import *
text='چند دن پہلے ایک دوست سے ملاقات ہوئی، وہ رنجیدہ دکھائی دئیے، معلوم ہوا کہ ان کے ایک محلے دار کا نوجوان لڑکا انتقال کر گیا ہے، وہ کینسر کا مریض تھا۔'
normalized_text = normalize_whitespace(normalize(text))
sentences=sentence_tokenizer(normalized_text)
print(sentences)
لیکن اس میں مزید جملے موجود ہیں جو کو اخذ کرنے کا بھی طریقہ کار موجود ہونا چاہیےرموزِ اوقاف کے مطابق ایک ہی جملہ ہے۔
آپ کی مراد ہے، "فقرے"؟لیکن اس میں مزید جملے موجود ہیں جو کو اخذ کرنے کا بھی طریقہ کار موجود ہونا چاہیے
جی بالکل یہی مراد ہے۔آپ کی مراد ہے، "فقرے"؟