Skip to content

MinSiThu/Myanmar-Agriculture-1K

Repository files navigation

Myanmar-Agriculture-1K

Agriculture Dataset in Burmese Language

Contributors - Min Si Thu, Khin Myat Noe

Myanmar Agriculture 1K - Dataset Logo

Myanmar is an agricultural country, that mainly grows rice all over the country. But there is no single open source dataset about Agriculture Question-Answering in the Burmese Language as far as my knowledge reaches.

Purpose

The "Myanmar Agriculture 1K" Dataset is curated to build a knowledge bank for further studies in Natural Language Processing in the Burmese Language and to train instruction fine-tuned language model for the Burmese Language.

Moreover, this dataset is a motivation to move the Burmese language from a low-resource language to a high-resource language.

Dataset Curation Process

The dataset is curated in 2024, August by two contributors - Min Si Thu and Khin Myat Noe. The dataset contains two columns - Instruction and Output. The dataset rows are stored in \textbf{Agriculture.csv} file.

The dataset contains information about major crops and trees in Myanmar, methods of agriculture, and horticulture, chemicals and pesticides, phytopathology, climate change, and organic manure. 1053 rows of instruction, output pairs are included in the dataset.

The process of curation of the dataset has two phases. The first phase is annotating the information from the Wikipedia website "https://www.doa.gov.mm/fes/index.php?route=common/home". The second phase is reviewing the spelling and vocabulary mistakes in the dataset.

Examples

  • စပါးကြဲပက်စိုက်ပျိုးနည်းကို ဘယ်အခါတွေမှာ အသုံးပြုသင့်သလဲ?,မိုးဦးကာလနှင့် မိုးလယ်ကာလ၊ မိုးခေါင်သောအခါ၊ ရေကြီးနစ်မြုပ်ဖြစ်တတ်သော ရေနက်ကွင်းများ၊ ဒီရေအတက်အကျရှိသော နေရာများ၊ သွင်းရေရရှိရန် မလွယ်ကူသော မိုးရေသောက် ကုန်းမြင့်ပိုင်းလယ်များ၊ အချိန်လု၍ စိုက်ပျိုးရန်လိုအပ်သည့် ကာလများ

  • Paris Climate Agreement ကို ဘယ်အချိန်က စတင်ချုပ်ဆိုခဲ့တာလဲ?,၂၀၁၅ ခုနှစ် ဒီဇင်ဘာလမှာ ပြင်သစ်နိုင်ငံ ပါရီမြို့တွင် ကျင်းပတဲ့ COP21 ညီလာခံမှာ စတင်ချုပ်ဆိုခဲ့ပါတယ်။

  • စပါးဂုတ်ကျိုးရောဂါ၏ လက္ခဏာရပ်များကို ဖော်ပြပါ,ပျိုးခင်းကတည်းက ရောဂါစတင်ဖြစ်ပေါ်နိုင်သည်။ စပါးရွက်ပေါ်တွင် လွန်းပုံသဏ္ဍာန်ရှိသော အကွက်များတွေ့ရသည်။ အကွက်များကြီးခဲ့လျှင် အလယ်တွင် မီးခိုးရောင်ပေါ်တတ်သည်။ ရောဂါကွက်တစ်ခုနှင့်တစ်ခုဆက်သွားပြီး စပါးရွက်များ သေသွားတတ်သည်။

  • ရွက်ဖြန်းအားဆေးများ၏ ဖြစ်နိုင်ချေရှိသော ဘေးထွက်ဆိုးကျိုးများကို ဖော်ပြပါ။,ရွက်ဖြန်းအားဆေးများကို မှားယွင်းစွာ အသုံးပြုပါက အပင်များ အရွက်လောင်ကျွမ်းခြင်း (leaf burn)၊ အဆိပ်သင့်ခြင်း (toxicity)၊ ပတ်ဝန်းကျင်ညစ်ညမ်းမှု (environmental pollution) နှင့် ရေအရင်းအမြစ်များ ညစ်ညမ်းခြင်း (water contamination) တို့ ဖြစ်ပွားနိုင်ပါသည်။

Where to download the dataset

Github - https://github.com/MinSiThu/Myanmar-Agriculture-1K

Zenodo - https://zenodo.org/records/13318601

Hugginface - https://huggingface.co/datasets/jojo-ai-mst/Myanmar-Agricutlure-1K

Kaggle - https://www.kaggle.com/datasets/minsithu/myanmar-agriculture-1k

Applications

Myanmar Agriculture 1K Dataset can be used to build various agriculture-related NLP applications.

  • The dataset can be used for pretraining or finetuning the dataset on Burmese Large Langauge Models.
  • The dataset is ready to use in building RAG-based Applications.

Acknowledgements

Special thanks to magickospace.org for supporting the curation process of the Myanmar Agriculture 1K Dataset.

References for this dataset

How to cite

If you find this project useful, please cite the following

@misc{Myanmar-Agriculture-1K,
  author = {{MinSiThu,Khin Myat Noe}},
  title = {Myanmar-Agriculture-1K},
  version={1}
  url = {https://github.com/MinSiThu/Myanmar-Agriculture-1K},
  urldate = {2024-08-14}
  date = {2024-08-14},
}

Releases

No releases published

Packages

No packages published