ဖြစ်နိုင်ခြေရှိသော အရာများ (အမှတ်တံဆိပ်များ၊ လူများ၊ နေရာအမည်များ)၊ အများဆုံးတွေ့ရသော သော့ချက်စာလုံးများနှင့် စကားလုံး ၂-၃ လုံး (n-grams) ကို သင့်စာသားမှ အခမဲ့ ချက်ချင်းထုတ်ယူပါ။ ၎င်းသည် heuristic frequency analysis ကို အသုံးပြု၍ သင့်ဘရောက်ဆာတွင် အပြည့်အဝအလုပ်လုပ်ပါသည်။
| # | သက်တမ်း | ကြိမ်နှုန်း | % |
|---|
| # | စကားလုံး | ကြိမ်နှုန်း | ပြင်းထန်မှု |
|---|
| # | အစုအဝေး | ကြိမ်နှုန်း | % |
|---|
Entity နှင့် keyword ထုတ်ယူခြင်းSEO ဗျူဟာများ၊ အကြောင်းအရာ ခွဲခြမ်းစိတ်ဖြာခြင်းနှင့် ယှဉ်ပြိုင်မှုဆိုင်ရာ သုတေသနတို့သည် အရေးကြီးသော လုပ်ငန်းစဉ်များဖြစ်သည်။ ရှာဖွေရေးအင်ဂျင်များသည် စာမျက်နှာ၏ အဓိကအကြောင်းအရာကို ဆုံးဖြတ်ရန် စာသားရှိ အရာဝတ္ထုများ (လူများ၊ အမှတ်တံဆိပ်များ၊ နေရာများ၊ အဖွဲ့အစည်းများ) နှင့် မကြာခဏ ထပ်ခါတလဲလဲ အသုံးပြုသော သော့ချက်စာလုံးများကို အနီးကပ် စစ်ဆေးသည်။ ဤအခမဲ့ကိရိယာသည် သင့်စာသားရှိ ဖြစ်နိုင်ခြေရှိသော အရာဝတ္ထုများနှင့် မြင့်မားသောသိပ်သည်းဆရှိသော သော့ချက်စာလုံးများကို ချက်ချင်းဖော်ပြသည်။
ဒီကိရိယာက ခွဲခြမ်းစိတ်ဖြာမှုအလွှာသုံးလွှာကို ပေးစွမ်းပါတယ်- ပထမအလွှာမှာ စာလုံးကြီးဖြင့်စသော တစ်လုံး သို့မဟုတ် တစ်လုံးထက်ပိုသော စကားလုံးများ၏ အစီအစဥ်များ စကင်ဖတ်ခြင်းဖြင့်၊ ၎င်းသည် အမှတ်တံဆိပ်အမည်များ၊ ကိုယ်ပိုင်အမည်များ သို့မဟုတ် နေရာအမည်များ ဖြစ်နိုင်သည့် အလားအလာရှိသော အရာများနှင့် စာသားအတွင်း ၎င်းတို့၏ ကြိမ်နှုန်းကို စာရင်းပြုစုထားသည်။ ဒုတိယအလွှာသည် တူရကီဘာသာစကားဖြင့် ဖြစ်သည်။ ရပ်တန့်စကားလုံးစာရင်း ဆက်စပ်စကားလုံးများ၊ နာမ်စားများ၊ ကြိယာဝိသေသနများ စသည်တို့ကို ဖယ်ရှားပြီးနောက်၊ ကျန်ရှိသော အဓိပ္ပာယ်ရှိသော စကားလုံးများ၏ ကြိမ်နှုန်းနှင့် ရာခိုင်နှုန်းသိပ်သည်းဆကို တွက်ချက်သည်။ တတိယအလွှာတွင်၊ စကားလုံး ၂-၃ လုံးပါ စကားစုများ (n-grams) စကားလုံးများကို ထုတ်ယူခြင်းဖြင့် စာသားရှိ အဓိကစကားလုံးပေါင်းစပ်မှုများကို ပြသထားသည်။
ဤခွဲခြမ်းစိတ်ဖြာမှုကို ဘလော့ဂ်ပို့စ်များ၊ ထုတ်ကုန်ဖော်ပြချက်များ၊ သတင်းထုတ်ပြန်ချက်များ သို့မဟုတ် ပြိုင်ဘက်ဆိုက်အကြောင်းအရာများကို ပြန်လည်သုံးသပ်ရန်အတွက် အမြန်ကနဦးအကဲဖြတ်ကိရိယာတစ်ခုအဖြစ် အသုံးပြုနိုင်ပါသည်။ လုပ်ငန်းစဉ်တစ်ခုလုံး... သင့် browser မှာ အပြည့်အဝ ဒီလိုဖြစ်တတ်ပါတယ်။ သင့်ရဲ့စာသားကို ဘယ်ဆာဗာကိုမှ မပို့ပါဘူး။ အရေးကြီးမှတ်ချက်- AI-based NLP ဝန်ဆောင်မှုတွေဟာ တိကျပြီး entity recognition (NER) အတွက် လိုအပ်ပါတယ်။ ဒီ tool ဟာ frequency နဲ့ capitalization patterns တွေကို အခြေခံထားပါတယ်။ ယုတ္တိဗေဒဆိုင်ရာချဉ်းကပ်မှု ၎င်းသည် အမည်စာရင်းတစ်ခုကို တင်ပြထားသောကြောင့် အမည်အချို့ကို ချန်လှပ်ထားခြင်း သို့မဟုတ် မှားယွင်းစွာ အမျိုးအစားခွဲခြားထားခြင်း ဖြစ်နိုင်သည်။