ML এর জন্য NLP ডেটাসেট

আপনার মেশিন লার্নিং মডেলগুলিকে সুপারচার্জ করতে শীর্ষ NLP ডেটাসেটগুলি৷

এনএলপি কী?

এনএলপি (প্রাকৃতিক ভাষা প্রক্রিয়াকরণ) কম্পিউটারকে মানুষের ভাষা বুঝতে সাহায্য করে। এটি কম্পিউটারকে পাঠ্য এবং বক্তৃতা পড়তে, বুঝতে এবং প্রতিক্রিয়া জানাতে শেখানোর মতো যেভাবে মানুষ করে।

NLP কি করতে পারে?

  • অগোছালো পাঠ্যকে সংগঠিত ডেটাতে পরিণত করুন
  • মন্তব্য ইতিবাচক নাকি নেতিবাচক তা বুঝুন
  • ভাষার মধ্যে অনুবাদ করুন
  • দীর্ঘ পাঠ্যের সারাংশ তৈরি করুন
  • এবং আরো অনেক কিছু!
  • NLP দিয়ে শুরু করা:

ভাল এনএলপি সিস্টেম তৈরি করার জন্য, আপনাকে তাদের প্রশিক্ষণ দেওয়ার জন্য প্রচুর উদাহরণের প্রয়োজন - ঠিক যেমন মানুষ কীভাবে আরও অনুশীলনের মাধ্যমে আরও ভাল শিখতে পারে। ভাল খবর হল যে অনেকগুলি বিনামূল্যের সংস্থান রয়েছে যেখানে আপনি এই উদাহরণগুলি খুঁজে পেতে পারেন: আলিঙ্গন মুখ, Kaggle এবং GitHub

এনএলপি বাজারের আকার এবং বৃদ্ধি:

2023 সালের হিসাবে, প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) বাজারের মূল্য ছিল প্রায় $26 বিলিয়ন। 30 থেকে 2023 সাল পর্যন্ত প্রায় 2030% চক্রবৃদ্ধি বার্ষিক বৃদ্ধির হার (CAGR) সহ এটি উল্লেখযোগ্যভাবে বৃদ্ধি পাবে বলে আশা করা হচ্ছে৷ এই বৃদ্ধি স্বাস্থ্যসেবা, অর্থ এবং গ্রাহক পরিষেবার মতো শিল্পগুলিতে NLP অ্যাপ্লিকেশনগুলির চাহিদা বৃদ্ধির দ্বারা চালিত হয়েছে৷

কীভাবে একটি ভাল এনএলপি ডেটাসেট চয়ন করবেন, নিম্নলিখিত বিষয়গুলি বিবেচনা করুন:

  • প্রাসঙ্গিকতা: নিশ্চিত করুন যে ডেটাসেট আপনার নির্দিষ্ট কাজ বা ডোমেনের সাথে সারিবদ্ধ।
  • আয়তন: বড় ডেটাসেটগুলি সাধারণত মডেলের কার্যকারিতা উন্নত করে, কিন্তু মানের সাথে আকারের ভারসাম্য বজায় রাখে।
  • বৈচিত্র্য: মডেলের দৃঢ়তা বাড়ানোর জন্য বিভিন্ন ভাষার শৈলী এবং প্রসঙ্গ সহ ডেটাসেটগুলি সন্ধান করুন৷
  • গুনাগুন: ত্রুটিগুলি প্রবর্তন এড়াতে ভাল-লেবেলযুক্ত এবং সঠিক ডেটা পরীক্ষা করুন৷
  • অভিগম্যতা: নিশ্চিত করুন যে ডেটাসেটটি ব্যবহারের জন্য উপলব্ধ এবং লাইসেন্সিং বিধিনিষেধ বিবেচনা করুন৷
  • প্রাক প্রসেসিং: ডেটাসেটের উল্লেখযোগ্য পরিস্কার বা প্রিপ্রসেসিং প্রয়োজন কিনা তা নির্ধারণ করুন।
  • কমিউনিটি সাপোর্ট: জনপ্রিয় ডেটাসেটগুলিতে প্রায়শই আরও সংস্থান এবং সম্প্রদায়ের সমর্থন থাকে, যা সহায়ক হতে পারে।

এই বিষয়গুলি মূল্যায়ন করে, আপনি একটি ডেটাসেট নির্বাচন করতে পারেন যা আপনার প্রকল্পের প্রয়োজনের সাথে সবচেয়ে উপযুক্ত

NLP-এর জন্য শীর্ষ 33টি ওপেন ডেটাসেট দেখতে হবে৷

সাধারণ

  • UCI এর Spambase (লিঙ্ক)

    স্প্যামবেস, হিউলেট-প্যাকার্ড ল্যাবসে তৈরি, ব্যবহারকারীদের দ্বারা স্প্যাম ইমেলের একটি সংগ্রহ রয়েছে, যার লক্ষ্য একটি ব্যক্তিগতকৃত স্প্যাম ফিল্টার তৈরি করা। এটিতে ইমেল বার্তাগুলি থেকে 4600 টিরও বেশি পর্যবেক্ষণ রয়েছে, যার মধ্যে প্রায় 1820টি স্প্যাম৷

  • এনরন ডেটাসেট (লিঙ্ক)

    এনরন ডেটাসেটে তাদের মেশিন লার্নিং মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য জনসাধারণের কাছে উপলব্ধ বেনামী 'বাস্তব' ইমেলের একটি বিশাল সংগ্রহ রয়েছে। এটি 150 টিরও বেশি ব্যবহারকারীর কাছ থেকে অর্ধ মিলিয়নেরও বেশি ইমেল নিয়ে গর্ব করে, প্রধানত এনরনের সিনিয়র ম্যানেজমেন্ট। এই ডেটাসেট কাঠামোগত এবং অসংগঠিত উভয় ফর্ম্যাটে ব্যবহারের জন্য উপলব্ধ। অসংগঠিত ডেটা বাড়াতে, আপনাকে ডেটা প্রসেসিং কৌশল প্রয়োগ করতে হবে।

  • সুপারিশকারী সিস্টেম ডেটাসেট (লিঙ্ক)

    সুপারিশকারী সিস্টেম ডেটাসেট হল বিভিন্ন ডেটাসেটের একটি বিশাল সংগ্রহ যাতে বিভিন্ন বৈশিষ্ট্য রয়েছে যেমন,

    • পণ্য রিভিউ
    • তারকা রেটিং
    • ফিটনেস ট্র্যাকিং
    • গানের তথ্য
    • সামাজিক যোগাযোগ
    • টাইমস্ট্যাম্প
    • ব্যবহারকারী/আইটেমের মিথস্ক্রিয়া
    • জিপিএস ডেটা
  • পেন ট্রিব্যাঙ্ক (লিঙ্ক)

    ওয়াল স্ট্রিট জার্নালের এই কর্পাসটি সিকোয়েন্স লেবেলিং মডেল পরীক্ষা করার জন্য জনপ্রিয়।

  • NLTK (লিঙ্ক)

    এই পাইথন লাইব্রেরি NLP-এর জন্য 100 টিরও বেশি কর্পোরা এবং আভিধানিক সংস্থানগুলিতে অ্যাক্সেস সরবরাহ করে। এটিতে NLTK বই, লাইব্রেরি ব্যবহার করার জন্য একটি প্রশিক্ষণ কোর্সও রয়েছে।

  • সার্বজনীন নির্ভরতা (লিঙ্ক)

    UD 100টিরও বেশি ভাষায় সম্পদ, 200টি ট্রিব্যাঙ্ক এবং 300 টিরও বেশি সম্প্রদায়ের সদস্যদের সমর্থন সহ ব্যাকরণ টীকা করার একটি ধারাবাহিক উপায় প্রদান করে৷

অনুভূতির বিশ্লেষণ

  • চলচ্চিত্র এবং অর্থের জন্য অভিধান (লিঙ্ক)

    অনুভূতির বিশ্লেষণ
    দ্য ডিকশনারিজ ফর মুভিজ অ্যান্ড ফাইন্যান্স ডেটাসেট ফিনান্স ফিলিংস এবং মুভি রিভিউতে ইতিবাচক বা নেতিবাচক পোলারিটির জন্য ডোমেন-নির্দিষ্ট অভিধান প্রদান করে। এই অভিধানগুলি IMDb এবং US ফর্ম-8 ফিলিংস থেকে আঁকা হয়েছে।

  • অনুভূতি 140 (লিঙ্ক)

    সেন্টিমেন্ট 140-এ 160,000টি ভিন্ন ক্ষেত্রে শ্রেণীবদ্ধ বিভিন্ন ইমোটিকন সহ 6টিরও বেশি টুইট রয়েছে: টুইটের তারিখ, পোলারিটি, টেক্সট, ব্যবহারকারীর নাম, আইডি এবং ক্যোয়ারী। এই ডেটাসেটটি আপনার পক্ষে টুইটার কার্যকলাপের উপর ভিত্তি করে একটি ব্র্যান্ড, একটি পণ্য বা এমনকি একটি বিষয়ের অনুভূতি আবিষ্কার করা সম্ভব করে তোলে। যেহেতু এই ডেটাসেটটি স্বয়ংক্রিয়ভাবে তৈরি হয়েছে, অন্যান্য মানব-টীকা করা টুইটগুলির বিপরীতে, এটি ইতিবাচক আবেগ এবং নেতিবাচক আবেগ সহ টুইটগুলিকে প্রতিকূল হিসাবে শ্রেণীবদ্ধ করে৷

  • মাল্টি-ডোমেন সেন্টিমেন্ট ডেটাসেট (লিঙ্ক)

    এই মাল্টি-ডোমেন সেন্টিমেন্ট ডেটাসেট হল বিভিন্ন পণ্যের জন্য অ্যামাজন পর্যালোচনার একটি ভান্ডার। কিছু পণ্য বিভাগ, যেমন বই, হাজার হাজার রিভিউ আছে, অন্যদের মাত্র কয়েকশ রিভিউ আছে। এছাড়াও, তারকা রেটিং সহ পর্যালোচনাগুলিকে বাইনারি লেবেলে রূপান্তর করা যেতে পারে।

  • স্ট্যান্ডফোর্ড সেন্টিমেন্ট ট্রিব্যাঙ্ক (লিঙ্ক)

    Rotten Tomatoes-এর এই NLP ডেটাসেটে দীর্ঘ বাক্যাংশ এবং আরও বিস্তারিত পাঠের উদাহরণ রয়েছে।

  • ব্লগ লেখক কর্পাস (লিঙ্ক)

    এই সংগ্রহে প্রায় 1.4 মিলিয়ন শব্দের ব্লগ পোস্ট রয়েছে, প্রতিটি ব্লগ একটি পৃথক ডেটাসেট।

  • OpinRank ডেটাসেট (লিঙ্ক)

    গাড়ির মডেল বা ভ্রমণ গন্তব্য এবং হোটেল দ্বারা সংগঠিত Edmunds এবং TripAdvisor থেকে 300,000 পর্যালোচনা।

পাঠ

  • উইকি QA কর্পাস (লিঙ্ক)

    ওপেন-ডোমেন প্রশ্ন ও উত্তর গবেষণায় সাহায্য করার জন্য তৈরি করা হয়েছে, WiKi QA Corpus হল সর্বজনীনভাবে উপলব্ধ ডেটাসেটগুলির মধ্যে একটি। Bing সার্চ ইঞ্জিন ক্যোয়ারী লগ থেকে সংকলিত, এটি প্রশ্ন-উত্তর জোড়া দিয়ে আসে। এতে 3000টিরও বেশি প্রশ্ন এবং 1500টি লেবেলযুক্ত উত্তর বাক্য রয়েছে।

  • আইনি কেস রিপোর্ট ডেটাসেট (লিঙ্ক)

    আইনি কেস রিপোর্ট ডেটাসেটে 4000টি আইনি মামলা রয়েছে এবং স্বয়ংক্রিয় পাঠ্য সংক্ষিপ্তকরণ এবং উদ্ধৃতি বিশ্লেষণের জন্য প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে। প্রতিটি নথি, ক্যাচফ্রেজ, উদ্ধৃতি ক্লাস, উদ্ধৃতি ক্যাচফ্রেজ এবং আরও অনেক কিছু ব্যবহার করা হয়।

  • ঝুঁকি (লিঙ্ক)

    Jeopardy ডেটাসেট হল 200,000-এরও বেশি প্রশ্নের একটি সংগ্রহ যা জনপ্রিয় কুইজ টিভি শোতে দেখানো হয়েছে যা একজন Reddit ব্যবহারকারীর দ্বারা একত্রিত হয়েছে। প্রতিটি ডেটা পয়েন্ট তার প্রচারিত তারিখ, পর্ব সংখ্যা, মান, রাউন্ড এবং প্রশ্ন/উত্তর দ্বারা শ্রেণীবদ্ধ করা হয়।

  • 20টি সংবাদ গোষ্ঠী (লিঙ্ক)

    20,000টি নথির একটি সংগ্রহে 20টি নিউজগ্রুপ এবং বিষয় রয়েছে, ধর্ম থেকে জনপ্রিয় খেলাধুলার বিষয়গুলি বিস্তারিত।

  • রয়টার্স নিউজ ডেটাসেট (লিঙ্ক)

    1987 সালে প্রথম প্রদর্শিত, এই ডেটাসেটটিকে মেশিন লার্নিং উদ্দেশ্যে লেবেল, সূচীকরণ এবং সংকলিত করা হয়েছে।

  • ArXiv (লিঙ্ক)

    এই উল্লেখযোগ্য 270 GB ডেটাসেটে সমস্ত arXiv গবেষণাপত্রের সম্পূর্ণ পাঠ্য অন্তর্ভুক্ত রয়েছে।

  • ইউরোপীয় সংসদ কার্যধারা সমান্তরাল কর্পাস (লিঙ্ক)

    সংসদ কার্যধারার বাক্য জোড়ার মধ্যে রয়েছে 21টি ইউরোপীয় ভাষার এন্ট্রি, যেখানে মেশিন লার্নিং কর্পোরার জন্য কিছু কম সাধারণ ভাষা রয়েছে।

  • বিলিয়ন শব্দ বেঞ্চমার্ক (লিঙ্ক)

    WMT 2011 নিউজ ক্রল থেকে প্রাপ্ত, এই ভাষা মডেলিং ডেটাসেটে উদ্ভাবনী ভাষা মডেলিং কৌশল পরীক্ষা করার জন্য প্রায় এক বিলিয়ন শব্দ রয়েছে।

অডিও স্পিচ

  • কথ্য উইকিপিডিয়া কর্পোরা (লিঙ্ক)

    অডিও বক্তৃতা এই ডেটাসেটটি ইংরেজি ভাষার বাইরে যেতে চাই এমন প্রত্যেকের জন্য উপযুক্ত। এই ডেটাসেটে ডাচ এবং জার্মান এবং ইংরেজি ভাষায় কথা বলা নিবন্ধগুলির একটি সংগ্রহ রয়েছে৷ এটির বিভিন্ন বিষয় এবং স্পিকার সেট রয়েছে যা শত শত ঘন্টার মধ্যে চলে।

  • 2000 HUB5 ইংরেজি (লিঙ্ক)

    2000 HUB5 ইংরেজি ডেটাসেটে ইংরেজি ভাষায় 40টি টেলিফোন কথোপকথনের প্রতিলিপি রয়েছে। ডেটা ন্যাশনাল ইনস্টিটিউট অফ স্ট্যান্ডার্ডস অ্যান্ড টেকনোলজি দ্বারা সরবরাহ করা হয়েছে এবং এর প্রধান ফোকাস হল কথোপকথনমূলক বক্তৃতাকে স্বীকৃতি দেওয়া এবং বক্তব্যকে পাঠ্যে রূপান্তর করা।

  • লিব্রি স্পিচ (লিঙ্ক)

    LibriSpeech ডেটাসেট হল প্রায় 1000 ঘন্টার ইংরেজি বক্তৃতার একটি সংগ্রহ যা অডিও বই থেকে অধ্যায়গুলিতে বিষয়গুলি দ্বারা সঠিকভাবে বিভক্ত করা হয়েছে, যা এটি প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য একটি নিখুঁত হাতিয়ার করে তুলেছে।

  • ফ্রি স্পোকেন ডিজিট ডেটাসেট (লিঙ্ক)

    এই NLP ডেটাসেটে ইংরেজিতে কথ্য সংখ্যার 1,500টিরও বেশি রেকর্ডিং অন্তর্ভুক্ত রয়েছে।

  • M-AI ল্যাবস স্পিচ ডেটাসেট (লিঙ্ক)

    ডেটাসেটটি ট্রান্সক্রিপশন সহ প্রায় 1,000 ঘন্টার অডিও অফার করে, একাধিক ভাষাকে অন্তর্ভুক্ত করে এবং পুরুষ, মহিলা এবং মিশ্র কণ্ঠস্বর দ্বারা শ্রেণীবদ্ধ।

  • কোলাহলপূর্ণ বক্তৃতা ডেটাবেস (লিঙ্ক)

    এই ডেটাসেটে সমান্তরাল কোলাহলপূর্ণ এবং পরিষ্কার বক্তৃতা রেকর্ডিং বৈশিষ্ট্য রয়েছে, যা বক্তৃতা বর্ধিত সফ্টওয়্যার বিকাশের উদ্দেশ্যে কিন্তু চ্যালেঞ্জিং পরিস্থিতিতে বক্তৃতা প্রশিক্ষণের জন্যও উপকারী।

পর্যালোচনা

  • Yelp পর্যালোচনা (লিঙ্ক)

    Yelp ডেটাসেটে 8.5 প্লাস ব্যবসা, তাদের পর্যালোচনা এবং ব্যবহারকারীর ডেটার প্রায় 160,000 মিলিয়ন পর্যালোচনার একটি বিশাল সংগ্রহ রয়েছে। পর্যালোচনাগুলি আপনার মডেলগুলিকে অনুভূতি বিশ্লেষণে প্রশিক্ষণ দিতে ব্যবহার করা যেতে পারে। এছাড়াও, এই ডেটাসেটে 200,000টিরও বেশি ছবি রয়েছে যা আটটি মেট্রোপলিটন অবস্থানগুলিকে কভার করে৷

  • IMDB পর্যালোচনা (লিঙ্ক)

    IMDB রিভিউ হল 50 হাজারেরও বেশি মুভির জন্য কাস্ট তথ্য, রেটিং, বর্ণনা এবং জেনার সহ সবচেয়ে জনপ্রিয় ডেটাসেট। এই ডেটাসেটটি আপনার মেশিন লার্নিং মডেল পরীক্ষা এবং প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে।

  • আমাজন পর্যালোচনা এবং রেটিং ডেটাসেট (লিঙ্ক)

    অ্যামাজন পর্যালোচনা এবং রেটিং ডেটাসেটে 1996 থেকে 2014 পর্যন্ত অ্যামাজন থেকে সংগ্রহ করা বিভিন্ন পণ্যের মেটাডেটা এবং পর্যালোচনাগুলির একটি মূল্যবান সংগ্রহ রয়েছে - প্রায় 142.8 মিলিয়ন রেকর্ড। মেটাডেটা মূল্য, পণ্যের বিবরণ, ব্র্যান্ড, বিভাগ এবং আরও অনেক কিছু অন্তর্ভুক্ত করে, যখন পর্যালোচনাগুলিতে পাঠ্যের গুণমান, পাঠ্যের উপযোগিতা, রেটিং এবং আরও অনেক কিছু থাকে।

প্রশ্ন ও উত্তর

  • স্ট্যানফোর্ড প্রশ্ন ও উত্তর ডেটাসেট (SQuAD) (লিঙ্ক)

    এই রিডিং কম্প্রিহেনশন ডেটাসেটে 100,000 উত্তরযোগ্য প্রশ্ন এবং 50,000টি উত্তর দেওয়া যায় না, সবই উইকিপিডিয়ার ভিড় কর্মীদের দ্বারা তৈরি।

  • প্রাকৃতিক প্রশ্ন (লিঙ্ক)

    এই প্রশিক্ষণ সেটটিতে 300,000টিরও বেশি প্রশিক্ষণের উদাহরণ, 7,800টি বিকাশের উদাহরণ এবং 7,800টি পরীক্ষার উদাহরণ রয়েছে, প্রতিটিতে একটি Google ক্যোয়ারী এবং একটি ম্যাচিং উইকিপিডিয়া পৃষ্ঠা রয়েছে।

  • ট্রিভিয়াকিউএ (লিঙ্ক)

    এই চ্যালেঞ্জিং প্রশ্ন সেটে 950,000 QA জোড়া রয়েছে, যার মধ্যে মানব-যাচাইকৃত এবং মেশিন-উত্পাদিত উপসেট রয়েছে।

  • CLEVR (কম্পোজিশনাল ল্যাঙ্গুয়েজ অ্যান্ড এলিমেন্টারি ভিজ্যুয়াল রিজনিং) (লিঙ্ক)

    এই ভিজ্যুয়াল প্রশ্নের উত্তর ডেটাসেটে 3D রেন্ডার করা বস্তু এবং ভিজ্যুয়াল দৃশ্য সম্পর্কে বিশদ সহ হাজার হাজার প্রশ্ন রয়েছে।

তাহলে, আপনার মেশিন লার্নিং মডেলকে প্রশিক্ষণ দেওয়ার জন্য আপনি কোন ডেটাসেট বেছে নিয়েছেন?

আমরা যেতে যেতে, আমরা একটি সঙ্গে আপনি ছেড়ে যাবে প্রো-টিপ

আপনার প্রয়োজনের জন্য একটি NLP ডেটাসেট বাছাই করার আগে পুঙ্খানুপুঙ্খভাবে README ফাইলটি দেখে নিন। ডেটাসেটটিতে আপনার প্রয়োজন হতে পারে এমন সমস্ত প্রয়োজনীয় তথ্য থাকবে, যেমন ডেটাসেটের বিষয়বস্তু, বিভিন্ন প্যারামিটার যার ভিত্তিতে ডেটা শ্রেণীবদ্ধ করা হয়েছে এবং ডেটাসেটের সম্ভাব্য ব্যবহারের ক্ষেত্রে।

আপনি যে মডেলগুলিই তৈরি করেন না কেন, আমাদের মেশিনগুলিকে আমাদের জীবনের সাথে আরও ঘনিষ্ঠভাবে এবং অন্তর্নিহিতভাবে সংহত করার একটি উত্তেজনাপূর্ণ সম্ভাবনা রয়েছে। এনএলপির মাধ্যমে, ব্যবসা, চলচ্চিত্র, বক্তৃতা স্বীকৃতি, অর্থ এবং আরও অনেক কিছুর সম্ভাবনা বহুগুণ বেড়ে যায়।

সামাজিক ভাগ