A json file contains 8816 persian name with their gender (some of them is not labeled)
یک فایل json که حاوی ۸۸۱۶ نام ایرانی به همراه جنسیت آنها (برخی از اسامی بدون برچسب جنسیت هستند) میباشد.
- http://rastan.parsiblog.com/posts/271
- https://www.kaggle.com/datasets/hamedetezadi/persianfarsi-names-dataset
I just download 2 xls and csv files from the internet, then preprocessed them to make the data of the two files compatible and finally merge them into one json file.
- removeing arabic standard characters that are not in persian words, like
ئ
or ك
- removing arabic irabs from words, like
ـَـِـُ
بنده دو فایل اکسل و csv که از اینترنت پیدا کردم را ابتدا با استفاده از پردازشهای ساده با یکدیگر سازگار کرده سپس دادههای دو فایل را با هم ادغام کردم.
- حذف حروف استاندارد عربی مانند
ئ
وك
- حذف اعراب از اسامی مانند
ـَـِـُ
- parse and merge two name files
- add missing genders to rest of the names
- add names latin version to the results
- add names pronounciations (maybe in audio format) to the results