عامر گولڑوی
محفلین
السلام علیکم ورحمتہ اللہ وبرکاتہ
الف عین الف نظامی سیما علی سید عاطف علی سید عمران محمد عبدالرؤوف وجی
الف عین الف نظامی سیما علی سید عاطف علی سید عمران محمد عبدالرؤوف وجی
اصل میں یہ خیال محترم الف نظامی صاحب کا ہے تو ہم نے سوچا کہ جہاں تک ہم سے ہو سکے ہم اتنی کوشش کر لیتے ہیں اور باقی احباب سے بھی التماس ہے کہ وہ بھی ہمارا ساتھ دیں۔ بہت شکریہ سلامت رہیں۔عمدہ!
عامر بھائی، آپ کو ایسی کسی فہرست کی تلاش ہے یا آپ یہ نیک کام کرنے کا ارادہ رکھتے ہیں؟
حامد | 227 |
حامد | 6 |
حامدؒ | 1 |
حامد | 3 |
حامد | 1 |
حامد: | 3 |
حامد: اپنے | 1 |
حامد: اٹھ | 1 |
حامد: اخبار | 3 |
حامد: بستر | 1 |
حامد: پھر | 1 |
حامد: چوڑی | 1 |
حامد: چوڑیوں | 1 |
حامد: حیرت | 1 |
حامد: خوش | 1 |
حامد: دوکان | 1 |
حامد: دوکاندار | 1 |
حامد: شوکیس | 1 |
حامد: کرسی | 1 |
حامد: گاتا | 1 |
حامد: ماں | 1 |
حامد:اب | 2 |
حامد:اباجی | 1 |
حامد:اس | 2 |
حامد:آپ | 4 |
حامد:آج | 1 |
حامد:بہت | 1 |
حامد:تحفہ | 1 |
حامد:تحفوں | 1 |
حامد:تو | 2 |
حامد:ٹھہرو | 1 |
حامد:جس | 1 |
حامد:جی | 1 |
حامد:چلئے | 1 |
حامد:دیکھئے | 1 |
حامد:ڈپٹی | 1 |
حامد:رہی | 1 |
حامد:غالبا | 1 |
حامد:فی | 1 |
حامد:قبلہ | 1 |
حامد:کالج | 2 |
حامد:کوئی | 1 |
حامد:مجھے | 1 |
حامد:میری | 1 |
حامد:میں | 6 |
حامد:ہاں | 2 |
حامد:ہر | 1 |
حامد:یا | 1 |
حامد:یعنی | 1 |
حامد:یہ | 3 |
حامد:یہاں | 1 |
حامد‘ | 1 |
جزاک اللہ خیرا کثیراکارپس کا تجزیہ کرنے کے بعد ایک خام فہرست حاصل ہوئی جو دو کالمز پر مشتمل ہے پہلا کالم لفظ اور دوسرا اس کی تعداد بتاتا ہے۔
اس کی وجہ صرف یہ ہے کہ کولن : کے بعد وقفہ نہیں دیا گیا اس لئے تکنیکی طور پر کولن کو بطور حرف مان کر علیحدہ الفاظ بنا دیے گئے ہیں ۔ زیادہ درست یہ ہو گا کہ ان اوقاف کو حروف کی طرح برتاؤ نہ کرنے کا نظم ہوکارپس کا تجزیہ کرنے کے بعد ایک خام فہرست حاصل ہوئی جو دو کالمز پر مشتمل ہے پہلا کالم لفظ اور دوسرا اس کی تعداد بتاتا ہے۔
یہ سب ایک ہی لفظ ہیں لیکن کسی کے ساتھ تخلص کی علامت اور کسی کے ساتھ ! سٹار کا نشان یا ؟ ، - ۔ موجود تھے جنہیں فہرست سے فانڈ اینڈ ریپلیس کرنے سے اس طرح کی صورت حال پیدا ہوئی۔
حامد 227حامد 6حامدؒ 1حامد 3حامد 1حامد: 3حامد: اپنے 1حامد: اٹھ 1حامد: اخبار 3حامد: بستر 1حامد: پھر 1حامد: چوڑی 1حامد: چوڑیوں 1حامد: حیرت 1حامد: خوش 1حامد: دوکان 1حامد: دوکاندار 1حامد: شوکیس 1حامد: کرسی 1حامد: گاتا 1حامد: ماں 1حامد:اب 2حامد:اباجی 1حامد:اس 2حامد:آپ 4حامد:آج 1حامد:بہت 1حامد:تحفہ 1حامد:تحفوں 1حامد:تو 2حامد:ٹھہرو 1حامد:جس 1حامد:جی 1حامد:چلئے 1حامد:دیکھئے 1حامد:ڈپٹی 1حامد:رہی 1حامد:غالبا 1حامد:فی 1حامد:قبلہ 1حامد:کالج 2حامد:کوئی 1حامد:مجھے 1حامد:میری 1حامد:میں 6حامد:ہاں 2حامد:ہر 1حامد:یا 1حامد:یعنی 1حامد:یہ 3حامد:یہاں 1حامد‘ 1
ٹھیک ہے سر۔ فہرست کی صفائی کر رہا ہوں۔اس کی وجہ صرف یہ ہے کہ کولن : کے بعد وقفہ نہیں دیا گیا اس لئے تکنیکی طور پر کولن کو بطور حرف مان کر علیحدہ الفاظ بنا دیے گئے ہیں ۔ زیادہ درست یہ ہو گا کہ ان اوقاف کو حروف کی طرح برتاؤ نہ کرنے کا نظم ہو
غالباً کی تنوین کے بغیر وہ بھی کن سے جڑ گیا ہے
یؤْتکم | 2 |
یؤْتوْن | 6 |
یؤْتون | 1 |
یؤْتی | 2 |
یؤْتیْ | 3 |
یؤْتیہ | 2 |
یؤْذن | 1 |
یؤْذی | 1 |
یؤْذیک | 3 |
یؤْذین | 1 |
یؤْفکون | 2 |
یؤْفکون | 1 |
یؤْقنوْن | 1 |
یؤْلوْن | 1 |
یؤْلون | 3 |
یؤْمروْن | 1 |
یؤْمن | 7 |
یؤْمنْ | 1 |
یؤْمنّ | 4 |
یؤْمنوْا | 3 |
یؤْمنوْن | 18 |
یؤْمنوْن الانبیاء | 1 |
یؤْمنوا | 2 |
یؤْمنون | 16 |
یؤْمنون | 2 |
یؤاخذ | 2 |
یؤاخذکم | 3 |
یؤاخذکمْ | 3 |
یؤت | 1 |
یؤتمن | 1 |
یؤتون | 1 |
یؤتیہ | 5 |
یؤحی | 1 |
یؤخّرھمْ | 1 |
یؤخذ | 4 |
یؤخر | 2 |
یؤدّونہا | 1 |
یؤدّی | 1 |
سعادت اور زیک تو یقیناً کہیں گے کہ انہیں رہنے دیا جائے، لیکن میں پریکٹس کے لحاظ سے اسے ترجیح دوں گا کہ ان کو نکال دیا جائے لیکن زونج کو سپیس سے تبدیل کردیا جائے
جی بہتر ، ایسا ہی کرتا ہوں۔ بہت شکریہسعادت اور زیک تو یقیناً کہیں گے کہ انہیں رہنے دیا جائے، لیکن میں پریکٹس کے لحاظ سے اسے ترجیح دوں گا کہ ان کو نکال دیا جائے لیکن زونج کو سپیس سے تبدیل کردیا جائے
import collections as cs
import unicodecsv as csv
import pandas as pd
path = "D:\\urdu-sentences-master\\sentences\\literature\\merged\\"
input_file = "data.txt"
output_file = "frequent_words_raw.xlsx"
corpus_text = ""
with open(path + input_file , 'r', encoding="utf-8") as fp:
corpus_text = fp.read()
# create list of words
words = corpus_text.split()
# clean each word
def remove_unwanted_characters(text):
unwanted_characters = "ٌّْۭؒؓؐۙۤۚۧٓ#%,?@[]_`{}~¦¨¯´¸¿؛؟٬٬‘’’’’¢£¤¥+<>±«»×÷§©®°µ¶…ۙ؎٭٭۞؏؍nanßþüýÿۗ$&*﴾.0123456789:=\;¡ª²³¹º¼½¾ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖØÙÚÛÜÝÞĄĆĈĊČĎǺǼàáâãäåæçèéêëìíîïðñòóôõöøùúû"
translation_table = str.maketrans('', '', unwanted_characters)
cleaned_text = text.translate(translation_table)
return cleaned_text
clean_words=[]
for w in words:
clean_words.append(remove_unwanted_characters(w))
# find count of word
word_counts = cs.Counter(clean_words)
# counter to pandas df
df = pd.DataFrame.from_dict(word_counts, orient='index').reset_index()
# save to excel
df.to_excel(path + output_file, engine='xlsxwriter')
print("done")
import pandas as pd
from urduhack.normalization import normalize
import re
path = "D:\\urdu-sentences-master\\sentences\\literature\\merged\\"
input_file="frequent_words_V25.xlsx"
output_file="frequent_words_V25.1 "
df= pd.read_excel(path + input_file)
word_column = df['word']
#function to remove whitespaces
import pandas as pd
def remove_unwanted_characters(text):
unwanted_characters = "ٌّْۭؒؓؐۙۤۚۧٓx#%,?@[]_`{}~¦¨¯´¸¿؛؟٬٬‘’’’’¢£¤¥+<>±«»×÷§©®°µ¶…ۙ؎٭٭۞؏؍nanßþüýÿۗ$&*﴾.0123456789:=\;¡ª²³¹º¼½¾ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖØÙÚÛÜÝÞĄĆĈĊČĎǺǼàáâãäåæçèéêëìíîïðñòóôõöøùúû!"
translation_table = str.maketrans('', '', unwanted_characters)
cleaned_text = text.translate(translation_table)
return cleaned_text
# clean text by removing unwanted characters
word_column = df['word']
new_word_column = word_column.apply(remove_unwanted_characters)
# Assign the new values back to the column
df['word'] = new_word_column
#normalise words
def norm(x):
return normalize(x)
word_column = df['word']
new_word_column = word_column.apply(norm)
# Assign the new values back to the column
df['word'] = new_word_column
# aggrigate duplicates
df = df.value_counts(normalize=False, sort=True, ascending=False,dropna=False).reset_index(name='num')
#update count
df['total_count'] = df['count'] * df['num']
# drop columns
df.drop(columns=["count", "num"], inplace=True)
print(df.head())
# rename columns
df.rename(columns={"total_count": "count"}, inplace=True)
#consolidated count
df = df.groupby('word')['count'].sum().reset_index()
#split words
df_split = df.assign(word=df['word'].str.split()).explode('word')
#consolidated count
df_split = df_split.groupby('word')['count'].sum().reset_index()
# save dataframe to excel file
df_split.to_excel(path + output_file + str(df_split.index.size) + ".xlsx", engine='xlsxwriter')
print("done")
ابھی جو کارپس استعمال کیا گیا ہے اس میں آپ کی لائبریری والی کتابوں کا متن شامل ہے جومحمد شاکر عزیز اور محب علوی نے مرتب کیا تھا۔کارپس کے لئے بھی میری فہرست ہی بہتر ہے۔
ﷺ | 1717 |
ﷺاخلاق | 1 |
ﷺالبقرۃ | 1 |
ﷺاور | 3 |
ﷺایکم | 1 |
ﷺبس | 1 |
ﷺتمہارا | 1 |
ﷺسے | 9 |
ﷺقال | 1 |
ﷺقالوالذی | 1 |
ﷺمثل | 1 |
ﷺمن | 1 |
ﷺنے | 7 |
ﷺپر | 2 |
ﷺکا | 3 |
ﷺکو | 4 |
ﷺکواس | 1 |
ﷺکہلوانا | 1 |
ﷺکی | 8 |
ﷺکے | 5 |
ﷺہیں | 2 |