সংজ্ঞা
ডকুমেন্ট ক্লাসিফিকেশন হল মেশিন লার্নিং বা নিয়ম-ভিত্তিক পদ্ধতি ব্যবহার করে টেক্সট ডকুমেন্টগুলিকে পূর্বনির্ধারিত ক্লাসে শ্রেণীবদ্ধ করার প্রক্রিয়া। ক্লাসে বিষয়, স্প্যাম সনাক্তকরণ বা অনুভূতি অন্তর্ভুক্ত থাকতে পারে।
উদ্দেশ্য
এর উদ্দেশ্য হলো বৃহৎ পরিমাণে লেখা দক্ষতার সাথে সংগঠিত করা এবং ফিল্টার করা। এটি অনুসন্ধান, বিষয়বস্তু নিয়ন্ত্রণ এবং স্বয়ংক্রিয় কর্মপ্রবাহ সমর্থন করে।
গুরুত্ব
- স্বয়ংক্রিয়ভাবে শ্রেণীবদ্ধকরণের মাধ্যমে সময় সাশ্রয় করে।
- ইমেল স্প্যাম ফিল্টারিং, আইনি আবিষ্কার এবং জ্ঞান ব্যবস্থাপনার জন্য কী।
- ত্রুটির কারণে নথি মিস হয়ে যেতে পারে বা ভুল শ্রেণীবদ্ধ করা হতে পারে।
- অনুভূতি বিশ্লেষণের মতো NLP কাজের সাথে সম্পর্কিত।
কিভাবে এটা কাজ করে
- টেক্সট ডকুমেন্ট সংগ্রহ এবং প্রি-প্রসেস করা।
- বৈশিষ্ট্য সহ টেক্সট উপস্থাপন করুন (যেমন, TF-IDF, এম্বেডিং)।
- ট্রেনের শ্রেণীবিভাগ মডেল (SVM, নিউরাল নেটওয়ার্ক)।
- লেবেলযুক্ত পরীক্ষার সেটগুলিতে মডেলের নির্ভুলতা যাচাই করুন।
- নতুন নথি শ্রেণীবদ্ধ করার জন্য শ্রেণিবদ্ধকারী স্থাপন করুন।
উদাহরণ (বাস্তব জগৎ)
- জিমেইল স্প্যাম ফিল্টার: ইমেলগুলিকে স্প্যাম এবং নন-স্প্যামে শ্রেণীবদ্ধ করে।
- সংবাদ সংগ্রহকারী: বিষয় অনুসারে নিবন্ধগুলিকে শ্রেণীবদ্ধ করুন।
- আইনি প্রযুক্তি: আবিষ্কার এবং সম্মতির জন্য নথিগুলিকে শ্রেণীবদ্ধ করে।
তথ্যসূত্র / আরও পড়া
- ম্যানিং এবং অন্যান্যরা। তথ্য পুনরুদ্ধারের ভূমিকা। কেমব্রিজ ইউনিভার্সিটি প্রেস।
- জুরাফস্কি এবং মার্টিন। বক্তৃতা এবং ভাষা প্রক্রিয়াকরণ। স্ট্যানফোর্ড।
- জ্ঞান এবং ডেটা ইঞ্জিনিয়ারিং সম্পর্কিত IEEE লেনদেন।