নামকৃত সত্তা স্বীকৃতি (NER)

নামকৃত সত্তা স্বীকৃতি (NER) - ধারণা, প্রকার এবং অ্যাপ্লিকেশন

প্রতিবার যখন আমরা একটি শব্দ শুনি বা একটি পাঠ্য পড়ি, আমাদের কাছে মানুষ, স্থান, অবস্থান, মান এবং আরও অনেক কিছুর মধ্যে শব্দটিকে সনাক্ত এবং শ্রেণীবদ্ধ করার স্বাভাবিক ক্ষমতা রয়েছে। মানুষ দ্রুত একটি শব্দ চিনতে পারে, এটি শ্রেণীবদ্ধ করতে পারে এবং প্রসঙ্গ বুঝতে পারে। উদাহরণস্বরূপ, যখন আপনি 'স্টিভ জবস' শব্দটি শুনবেন, আপনি অবিলম্বে কমপক্ষে তিন থেকে চারটি বৈশিষ্ট্যের কথা ভাবতে পারেন এবং সত্তাটিকে বিভাগগুলিতে বিভক্ত করতে পারেন,

  • ব্যক্তি: স্টিভ জবস
  • বিভাগ: আপেল
  • অবস্থান: ক্যালিফোর্নিয়া

যেহেতু কম্পিউটারের এই স্বাভাবিক ক্ষমতা নেই, তাই শব্দ বা পাঠ্য শনাক্ত করতে এবং তাদের শ্রেণীবদ্ধ করতে তাদের আমাদের সাহায্যের প্রয়োজন। এটা যেখানে নামকরণ সত্তা স্বীকৃতি (NER) খেলার মধ্যে আসে।

আসুন এনইআর এবং এনএলপির সাথে এর সম্পর্ক সম্পর্কে একটি সংক্ষিপ্ত ধারণা নেওয়া যাক।

নামকরণ সত্তা স্বীকৃতি কি?

নামকৃত সত্তা স্বীকৃতি প্রাকৃতিক ভাষা প্রক্রিয়াকরণের একটি অংশ। এর প্রাথমিক উদ্দেশ্য নেরের প্রক্রিয়া করা হয় কাঠামোগত এবং কাঠামোগত ডেটা এবং এই নামকৃত সত্তাগুলিকে পূর্বনির্ধারিত বিভাগে শ্রেণীবদ্ধ করুন। কিছু সাধারণ বিভাগে নাম, অবস্থান, কোম্পানি, সময়, আর্থিক মান, ইভেন্ট এবং আরও অনেক কিছু অন্তর্ভুক্ত।

সংক্ষেপে, NER এর সাথে ডিল করে:

  • নামযুক্ত সত্তা স্বীকৃতি/শনাক্তকরণ - একটি নথিতে একটি শব্দ বা শব্দের সিরিজ সনাক্ত করা।
  • নামকৃত সত্তা শ্রেণীবিভাগ - প্রতিটি শনাক্ত সত্তাকে পূর্বনির্ধারিত বিভাগে শ্রেণীবদ্ধ করা।

কিন্তু NER কিভাবে NLP এর সাথে সম্পর্কিত?

প্রাকৃতিক ভাষা প্রক্রিয়াকরণ বক্তৃতা এবং পাঠ্য থেকে অর্থ বের করতে সক্ষম বুদ্ধিমান মেশিন বিকাশে সহায়তা করে। মেশিন লার্নিং এই বুদ্ধিমান সিস্টেমগুলিকে প্রচুর পরিমাণে প্রাকৃতিক ভাষার উপর প্রশিক্ষণ দিয়ে শেখা চালিয়ে যেতে সাহায্য করে ডেটা সেট.

সাধারণত, NLP তিনটি প্রধান বিভাগ নিয়ে গঠিত:

  • ভাষার গঠন ও নিয়ম বোঝা- বাক্য গঠন
  • শব্দ, পাঠ্য এবং বক্তৃতার অর্থ বের করা এবং তাদের সম্পর্ক চিহ্নিত করা - শব্দার্থবিদ্যা
  • কথ্য শব্দ শনাক্ত করা এবং স্বীকৃতি দেওয়া এবং সেগুলিকে পাঠ্যে রূপান্তর করা - বক্তৃতা

এনইআর এনএলপি-র শব্দার্থগত অংশে সাহায্য করে, শব্দের অর্থ বের করে, তাদের সম্পর্কের ভিত্তিতে তাদের সনাক্তকরণ এবং সনাক্ত করে।

NER এর সাধারণ উদাহরণ

একটি পূর্বনির্ধারিত সাধারণ উদাহরণ কিছু সত্তা শ্রেণীকরণ হয়:

নের উদাহরণ
নের উদাহরণ

ব্যক্তি: মাইকেল জ্যাকসন, অপরাহ উইনফ্রে, বারাক ওবামা, সুসান সারান্ডন

অবস্থান: কানাডা, হনলুলু, ব্যাংকক, ব্রাজিল, কেমব্রিজ

সংগঠন: স্যামসাং, ডিজনি, ইয়েল ইউনিভার্সিটি, গুগল

সময়: 15.35, 12 PM,

অন্যান্য বিভাগগুলির মধ্যে রয়েছে সংখ্যাসূচক মান, অভিব্যক্তি, ই-মেইল ঠিকানা এবং সুবিধা।

নামযুক্ত সত্তা স্বীকৃতিতে অস্পষ্টতা

একটি শব্দ যে বিভাগে অন্তর্ভুক্ত তা মানুষের জন্য স্বজ্ঞাতভাবে বেশ স্পষ্ট। যাইহোক, এটি কম্পিউটারের ক্ষেত্রে নয় - তারা শ্রেণীবিভাগের সমস্যার সম্মুখীন হয়। উদাহরণ স্বরূপ:

ম্যানচেস্টার শহর (সংগঠন) প্রিমিয়ার লীগ ট্রফি জিতেছে যেখানে নিম্নলিখিত বাক্যে সংগঠনটি ভিন্নভাবে ব্যবহৃত হয়েছে। ম্যানচেস্টার শহর (অবস্থান) একটি টেক্সটাইল এবং শিল্প পাওয়ার হাউস ছিল।

আপনার NER মডেলের প্রয়োজন প্রশিক্ষণ তথ্য সঠিকভাবে পরিচালনা করতে সত্তা নিষ্কাশন এবং শ্রেণীবিভাগ। আপনি যদি আপনার মডেলকে শেক্সপিয়রীয় ইংরেজিতে প্রশিক্ষণ দেন, বলা বাহুল্য, এটি ইনস্টাগ্রামের পাঠোদ্ধার করতে সক্ষম হবে না।

বিভিন্ন এনইআর পদ্ধতি

একটি প্রাথমিক লক্ষ্য NER মডেল টেক্সট নথিতে সত্তা লেবেল করা এবং তাদের শ্রেণীবদ্ধ করা। নিম্নলিখিত তিনটি পন্থা সাধারণত এই উদ্দেশ্যে ব্যবহার করা হয়. যাইহোক, আপনি এক বা একাধিক পদ্ধতিও একত্রিত করতে বেছে নিতে পারেন।

আসুন আজ আপনার এআই প্রশিক্ষণ ডেটা প্রয়োজনীয়তা নিয়ে আলোচনা করি।

এনইআর সিস্টেম তৈরির বিভিন্ন পন্থা হল:

  • অভিধান ভিত্তিক সিস্টেম

    অভিধান-ভিত্তিক সিস্টেম সম্ভবত সবচেয়ে সহজ এবং মৌলিক NER পদ্ধতি। এটি অনেক শব্দ, প্রতিশব্দ এবং শব্দভাণ্ডার সংগ্রহ সহ একটি অভিধান ব্যবহার করবে। সিস্টেমটি পরীক্ষা করবে যে পাঠ্যটিতে উপস্থিত একটি নির্দিষ্ট সত্তা শব্দভাণ্ডারেও উপলব্ধ কিনা। একটি স্ট্রিং-ম্যাচিং অ্যালগরিদম ব্যবহার করে, সত্তাগুলির ক্রস-চেকিং করা হয়।

    এই পদ্ধতি ব্যবহার করার একটি ত্রুটি হল NER মডেলের কার্যকরী কার্যকারিতার জন্য শব্দভান্ডার ডেটাসেটকে ক্রমাগত আপগ্রেড করার প্রয়োজন রয়েছে।

  • বিধি-ভিত্তিক সিস্টেমগুলি

    এই পদ্ধতিতে, পূর্বনির্ধারিত নিয়মগুলির একটি সেটের উপর ভিত্তি করে তথ্য বের করা হয়। নিয়মের দুটি প্রাথমিক সেট ব্যবহৃত হয়,

    প্যাটার্ন ভিত্তিক নিয়ম- নাম থেকে বোঝা যায়, একটি প্যাটার্ন-ভিত্তিক নিয়ম নথিতে ব্যবহৃত একটি রূপগত প্যাটার্ন বা শব্দের স্ট্রিং অনুসরণ করে।

    প্রসঙ্গ ভিত্তিক নিয়ম- প্রসঙ্গ-ভিত্তিক নিয়মগুলি নথিতে শব্দের অর্থ বা প্রসঙ্গের উপর নির্ভর করে।

  • মেশিন লার্নিং-ভিত্তিক সিস্টেম

    মেশিন লার্নিং-ভিত্তিক সিস্টেমে, পরিসংখ্যানগত মডেলিং সত্তা সনাক্ত করতে ব্যবহৃত হয়। এই পদ্ধতিতে পাঠ্য নথির একটি বৈশিষ্ট্য-ভিত্তিক উপস্থাপনা ব্যবহার করা হয়। আপনি প্রথম দুটি পদ্ধতির বিভিন্ন ত্রুটিগুলি কাটিয়ে উঠতে পারেন যেহেতু মডেলটি চিনতে পারে৷ সত্তা প্রকার তাদের বানানে সামান্য ভিন্নতা থাকা সত্ত্বেও।

নামযুক্ত সত্তা স্বীকৃতির কেস এবং উদাহরণ ব্যবহার করুন?

নামযুক্ত সত্তা স্বীকৃতি (NER) এর বহুমুখিতা উন্মোচন করা:

  1. চ্যাটবটস: NER মূল সত্তা চিহ্নিত করে ব্যবহারকারীর প্রশ্নগুলি বোঝার জন্য OpenAI-এর ChatGPT-এর মতো চ্যাটবটগুলিকে সাহায্য করে৷
  2. গ্রাহক সমর্থন: এটি পণ্যের নাম অনুসারে গ্রাহকদের প্রতিক্রিয়া সংগঠিত করে, প্রতিক্রিয়ার সময় দ্রুত করে।
  3. ফাইন্যান্স: NER আর্থিক প্রতিবেদন থেকে গুরুত্বপূর্ণ তথ্য বের করে, প্রবণতা বিশ্লেষণ এবং ঝুঁকি মূল্যায়নে সহায়তা করে।
  4. স্বাস্থ্যসেবা: এটি ক্লিনিকাল রেকর্ড থেকে প্রয়োজনীয় তথ্য টেনে নেয়, দ্রুত ডেটা বিশ্লেষণের প্রচার করে।
  5. এইচআর: এটি আবেদনকারীর প্রোফাইলের সংক্ষিপ্তকরণ এবং কর্মীদের প্রতিক্রিয়া চ্যানেল করে নিয়োগকে স্ট্রীমলাইন করে।
  6. সংবাদ প্রদানকারী: NER বিষয়বস্তুকে প্রাসঙ্গিক তথ্য এবং প্রবণতায় শ্রেণীবদ্ধ করে, প্রতিবেদনের গতি বাড়ায়।
  7. প্রস্তাব ইঞ্জিনগুলি: Netflix এর মতো কোম্পানিগুলি ব্যবহারকারীর আচরণের উপর ভিত্তি করে সুপারিশগুলিকে ব্যক্তিগতকৃত করতে NER নিয়োগ করে।
  8. অনুসন্ধান ইঞ্জিনগুলি: ওয়েব বিষয়বস্তু শ্রেণীবদ্ধ করে, NER অনুসন্ধান ফলাফলের নির্ভুলতা বাড়ায়।
  9. অনুভূতির বিশ্লেষণ: এনইআর রিভিউ থেকে ব্র্যান্ডের উল্লেখ বের করে, অনুভূতি বিশ্লেষণের টুলকে জ্বালানি দেয়।

এনইআর এর আবেদন

প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং প্রশিক্ষণ ডেটাসেট তৈরির সাথে সম্পর্কিত অনেক ক্ষেত্রে এনইআর-এর বেশ কয়েকটি ব্যবহার রয়েছে মেশিন লার্নিং এবং গভীর জ্ঞানার্জন সমাধান NER এর কিছু অ্যাপ্লিকেশন হল:

  • স্ট্রীমলাইন কাস্টমার সাপোর্ট

    একটি NER সিস্টেম পণ্যের নাম, স্পেসিফিকেশন, শাখার অবস্থান এবং আরও অনেক কিছুর মতো গুরুত্বপূর্ণ তথ্যের উপর ভিত্তি করে প্রাসঙ্গিক গ্রাহকের অভিযোগ, প্রশ্ন এবং প্রতিক্রিয়া সহজেই খুঁজে পেতে পারে। অভিযোগ বা প্রতিক্রিয়া যথাযথভাবে শ্রেণীবদ্ধ করা হয় এবং অগ্রাধিকার কীওয়ার্ড ফিল্টার করে সঠিক বিভাগে পাঠানো হয়।

  • দক্ষ মানবসম্পদ

    NER হিউম্যান রিসোর্স দলগুলিকে তাদের নিয়োগ প্রক্রিয়া উন্নত করতে এবং আবেদনকারীদের জীবনবৃত্তান্তের দ্রুত সারসংক্ষেপের মাধ্যমে সময়সীমা কমাতে সাহায্য করে। NER টুলগুলি জীবনবৃত্তান্ত স্ক্যান করতে পারে এবং প্রাসঙ্গিক তথ্য বের করতে পারে - নাম, বয়স, ঠিকানা, যোগ্যতা, কলেজ এবং আরও অনেক কিছু।

    উপরন্তু, HR বিভাগ কর্মীদের অভিযোগ ফিল্টার করে এবং সংশ্লিষ্ট বিভাগীয় প্রধানদের কাছে ফরোয়ার্ড করে অভ্যন্তরীণ কর্মপ্রবাহকে প্রবাহিত করতে NER সরঞ্জামগুলি ব্যবহার করতে পারে।

  • সরলীকৃত বিষয়বস্তুর শ্রেণীবিভাগ

    বিষয়বস্তু শ্রেণীবিভাগ সংবাদ প্রদানকারীদের জন্য একটি বিশাল কাজ। বিষয়বস্তুকে বিভিন্ন শ্রেণীতে শ্রেণীবদ্ধ করা সহজতর করে আবিষ্কার করা, অন্তর্দৃষ্টি অর্জন করা, প্রবণতা শনাক্ত করা এবং বিষয়গুলি বোঝা। একজন নামধারী সত্তা স্বীকৃতি টুল সংবাদ প্রদানকারীদের জন্য কাজে আসতে পারে। এটি অনেক নিবন্ধ স্ক্যান করতে পারে, অগ্রাধিকারের কীওয়ার্ড সনাক্ত করতে পারে এবং ব্যক্তি, সংস্থা, অবস্থান এবং আরও অনেক কিছুর উপর ভিত্তি করে তথ্য বের করতে পারে।

  • সার্চ ইঞ্জিন অপ্টিমাইজ করা

    সন্ধান যন্ত্র নিখুতকরন নেরের অনুসন্ধান ফলাফলের গতি এবং প্রাসঙ্গিকতা সরলীকরণ এবং উন্নত করতে সাহায্য করে। হাজার হাজার নিবন্ধের জন্য অনুসন্ধান ক্যোয়ারী চালানোর পরিবর্তে, একটি NER মডেল একবার ক্যোয়ারী চালাতে পারে এবং ফলাফল সংরক্ষণ করতে পারে। সুতরাং, অনুসন্ধান ক্যোয়ারীতে ট্যাগের উপর ভিত্তি করে, প্রশ্নের সাথে যুক্ত নিবন্ধগুলি দ্রুত বাছাই করা যেতে পারে।

     

  • সঠিক বিষয়বস্তু সুপারিশ

    একটি অপ্টিমাইজড এবং কাস্টমাইজড গ্রাহক অভিজ্ঞতা প্রদানের জন্য বেশ কিছু আধুনিক অ্যাপ্লিকেশন এনইআর টুলের উপর নির্ভর করে। উদাহরণ স্বরূপ, Netflix ব্যবহারকারীর অনুসন্ধান এবং নামকৃত সত্তা স্বীকৃতি ব্যবহার করে ইতিহাস দেখার ভিত্তিতে ব্যক্তিগতকৃত সুপারিশ প্রদান করে।

নামকৃত সত্তা স্বীকৃতি আপনার করে মেশিন লার্নিং মডেল আরো দক্ষ এবং নির্ভরযোগ্য। যাইহোক, আপনার মডেলগুলিকে তাদের সর্বোত্তম স্তরে কাজ করতে এবং অভিপ্রেত লক্ষ্যগুলি অর্জনের জন্য আপনার মানসম্পন্ন প্রশিক্ষণ ডেটাসেটগুলির প্রয়োজন৷ আপনার প্রয়োজন একজন অভিজ্ঞ পরিষেবা অংশীদার যিনি আপনাকে ব্যবহার করার জন্য প্রস্তুত মানসম্পন্ন ডেটাসেট সরবরাহ করতে পারেন। যদি তাই হয়, Shaip এখনও আপনার সেরা বাজি. আপনার AI মডেলগুলির জন্য দক্ষ এবং উন্নত ML সমাধানগুলি বিকাশে সহায়তা করার জন্য ব্যাপক NER ডেটাসেটের জন্য আমাদের সাথে যোগাযোগ করুন৷

[এছাড়াও পড়ুন: কেস স্টাডি: ক্লিনিকাল NLP-এর জন্য নামকৃত সত্তা স্বীকৃতি (NER)]

নাম-সত্তা স্বীকৃতি কীভাবে কাজ করে?

নামযুক্ত এন্টিটি রিকগনিশন (NER) এর রাজ্যে প্রবেশ করা বেশ কয়েকটি পর্যায় সমন্বিত একটি পদ্ধতিগত যাত্রা উন্মোচন করে:

  • টোকেনাইজেশন

    প্রাথমিকভাবে, টেক্সচুয়াল ডেটাকে ছোট ছোট ইউনিটে বিভক্ত করা হয়, যাকে টোকেন বলা হয়, যা শব্দ থেকে বাক্য পর্যন্ত হতে পারে। উদাহরণস্বরূপ, "বারাক ওবামা মার্কিন যুক্তরাষ্ট্রের রাষ্ট্রপতি ছিলেন" বিবৃতিটি "বারাক", "ওবামা", "ওয়াজ", "দ্য", "প্রেসিডেন্ট", "অফ", "দ্য", এবং "এর মতো টোকেনগুলিতে বিভক্ত। আমেরিকা".

  • সত্তা সনাক্তকরণ

    ভাষাগত নির্দেশিকা এবং পরিসংখ্যানগত পদ্ধতির একটি সংকলন ব্যবহার করে, সম্ভাব্য নামযুক্ত সত্তাগুলিকে আলোকিত করা হয়। নামের ক্যাপিটালাইজেশন ("বারাক ওবামা") বা স্বতন্ত্র বিন্যাস (তারিখের মতো) এর মতো প্যাটার্নগুলি সনাক্ত করা এই পর্যায়ে অত্যন্ত গুরুত্বপূর্ণ৷

  • সত্তা শ্রেণীবিভাগ

    সনাক্তকরণের পরে, সত্তাগুলিকে পূর্বনির্ধারিত বিভাগে সাজানো হয় যেমন "ব্যক্তি", "সংস্থা", বা "অবস্থান"। মেশিন লার্নিং মডেল, লেবেলযুক্ত ডেটাসেটে লালিত, প্রায়শই এই শ্রেণীবিভাগকে চালিত করে। এখানে, "বারাক ওবামা" কে "ব্যক্তি" এবং "মার্কিন যুক্তরাষ্ট্র" কে "অবস্থান" হিসাবে ট্যাগ করা হয়েছে।

  • প্রাসঙ্গিক মূল্যায়ন

    এনইআর সিস্টেমের দক্ষতা প্রায়শই আশেপাশের প্রসঙ্গ মূল্যায়ন করে প্রশস্ত করা হয়। উদাহরণস্বরূপ, "ওয়াশিংটন একটি ঐতিহাসিক ঘটনার প্রত্যক্ষদর্শী" বাক্যাংশে, প্রসঙ্গটি একজন ব্যক্তির নামের পরিবর্তে "ওয়াশিংটন" একটি অবস্থান হিসাবে বুঝতে সাহায্য করে।

  • মূল্যায়ন পরবর্তী পরিমার্জন

    প্রাথমিক শনাক্তকরণ এবং শ্রেণীবিভাগের পর, একটি মূল্যায়ন-পরবর্তী পরিমার্জন ফলাফলকে আরও উন্নত করতে পারে। এই পর্যায়টি অস্পষ্টতা মোকাবেলা করতে পারে, মাল্টি-টোকেন সত্ত্বাকে ফিউজ করতে পারে, বা সত্তার ডেটা বাড়ানোর জন্য জ্ঞানের ভিত্তি ব্যবহার করতে পারে।

এই চিত্রিত পদ্ধতিটি শুধুমাত্র NER-এর মূল বিষয়কে রহস্যময় করে না বরং সার্চ ইঞ্জিনের জন্য বিষয়বস্তুকে অপ্টিমাইজ করে, যা NER মূর্ত করে এমন জটিল প্রক্রিয়াটির দৃশ্যমানতা বাড়ায়।

NER সুবিধা এবং চ্যালেঞ্জ?

উপকারিতা:

  1. তথ্য আহরণ: NER মূল তথ্য সনাক্ত করে, তথ্য পুনরুদ্ধারে সহায়তা করে।
  2. বিষয়বস্তু সংস্থা: এটি ডেটাবেস এবং সার্চ ইঞ্জিনের জন্য উপযোগী বিষয়বস্তুকে শ্রেণীবদ্ধ করতে সাহায্য করে।
  3. বর্ধিত ব্যবহারকারীর অভিজ্ঞতা: NER অনুসন্ধানের ফলাফলগুলিকে পরিমার্জিত করে এবং সুপারিশগুলিকে ব্যক্তিগতকৃত করে৷
  4. অন্তর্দৃষ্টিপূর্ণ বিশ্লেষণ: এটা অনুভূতি বিশ্লেষণ এবং প্রবণতা সনাক্তকরণ সহজতর.
  5. স্বয়ংক্রিয় কর্মপ্রবাহ: NER স্বয়ংক্রিয়তা প্রচার করে, সময় এবং সম্পদ সংরক্ষণ করে।

সীমাবদ্ধতা/ চ্যালেঞ্জ:

  1. অস্পষ্টতা সমাধান: অনুরূপ সত্তা পার্থক্য সঙ্গে সংগ্রাম.
  2. ডোমেন-নির্দিষ্ট অভিযোজন: বিভিন্ন ডোমেন জুড়ে সম্পদ-নিবিড়।
  3. ভাষা নির্ভরতা: ভাষাভেদে কার্যকারিতা পরিবর্তিত হয়।
  4. লেবেলযুক্ত ডেটার অভাব: প্রশিক্ষণের জন্য বড় লেবেলযুক্ত ডেটাসেট প্রয়োজন।
  5. অসংগঠিত ডেটা পরিচালনা করা: উন্নত কৌশল প্রয়োজন.
  6. কর্মক্ষমতা পরিমাপ: সঠিক মূল্যায়ন জটিল।
  7. রিয়েল-টাইম প্রসেসিং: নির্ভুলতার সাথে গতির ভারসাম্য রাখা চ্যালেঞ্জিং।

সামাজিক ভাগ

তুমিও পছন্দ করতে পার