ML এর জন্য NLP ডেটাসেট

33টি সেরা এনএলপি ডেটাসেট আপনার প্রাকৃতিক ভাষা প্রক্রিয়াকরণ মডেলগুলিকে প্রশিক্ষণ দিতে

প্রাকৃতিক ভাষা প্রক্রিয়াকরণ মেশিন লার্নিং আর্মারের একটি গুরুত্বপূর্ণ অংশ। যাইহোক, মডেলটি ভালভাবে কাজ করার জন্য এটির জন্য প্রচুর পরিমাণে ডেটা এবং প্রশিক্ষণের প্রয়োজন। এনএলপির একটি উল্লেখযোগ্য সমস্যা হল প্রশিক্ষণ ডেটাসেটের অভাব যা ডোমেনের মধ্যে আগ্রহের বিশাল ক্ষেত্রগুলিকে কভার করতে পারে।

If you are starting out in this vast field, you might find it challenging and practically redundant to create your datasets. Especially when there are quality NLP datasets available to train your machine learning models based on their purpose.

11.7 এবং 2018 এর মধ্যে NLP বাজার 2026% CAGR-এ বৃদ্ধি পাবে 28.6 দ্বারা 2026 বিলিয়ন. এনএলপি এবং মেশিন লার্নিংয়ের ক্রমবর্ধমান চাহিদার জন্য ধন্যবাদ, অনুভূতি বিশ্লেষণ, পর্যালোচনা, প্রশ্ন ও উত্তর বিশ্লেষণ এবং বক্তৃতা বিশ্লেষণ ডেটাসেটের জন্য মানসম্পন্ন ডেটাসেটগুলিতে আপনার হাত পেতে এখন সম্ভব।

মেশিন লার্নিংয়ের জন্য NLP ডেটাসেটগুলি আপনি বিশ্বাস করতে পারেন৷

যেহেতু অগণিত ডেটাসেট - বিভিন্ন প্রয়োজনের উপর দৃষ্টি নিবদ্ধ করে - প্রায় প্রতিদিন প্রকাশিত হচ্ছে, এটি মানসম্পন্ন, নির্ভরযোগ্য এবং সেরা ডেটাসেটগুলি অ্যাক্সেস করা চ্যালেঞ্জিং হতে পারে। এখানে, আমরা আপনার জন্য কাজটিকে আরও সহজ করে তুলেছি, কারণ আমরা আপনাকে উপস্থাপিত করেছি কিউরেটেড ডেটাসেটগুলি তাদের দেওয়া বিভাগের উপর ভিত্তি করে আলাদা করা।

সাধারণ

  • UCI এর Spambase (লিঙ্ক)

    স্প্যামবেস, হিউলেট-প্যাকার্ড ল্যাবসে তৈরি, ব্যবহারকারীদের দ্বারা স্প্যাম ইমেলের একটি সংগ্রহ রয়েছে, যার লক্ষ্য একটি ব্যক্তিগতকৃত স্প্যাম ফিল্টার তৈরি করা। এটিতে ইমেল বার্তাগুলি থেকে 4600 টিরও বেশি পর্যবেক্ষণ রয়েছে, যার মধ্যে প্রায় 1820টি স্প্যাম৷

  • এনরন ডেটাসেট (লিঙ্ক)

    এনরন ডেটাসেটে তাদের মেশিন লার্নিং মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য জনসাধারণের কাছে উপলব্ধ বেনামী 'বাস্তব' ইমেলের একটি বিশাল সংগ্রহ রয়েছে। এটি 150 টিরও বেশি ব্যবহারকারীর কাছ থেকে অর্ধ মিলিয়নেরও বেশি ইমেল নিয়ে গর্ব করে, প্রধানত এনরনের সিনিয়র ম্যানেজমেন্ট। এই ডেটাসেট কাঠামোগত এবং অসংগঠিত উভয় ফর্ম্যাটে ব্যবহারের জন্য উপলব্ধ। অসংগঠিত ডেটা বাড়াতে, আপনাকে ডেটা প্রসেসিং কৌশল প্রয়োগ করতে হবে।

  • সুপারিশকারী সিস্টেম ডেটাসেট (লিঙ্ক)

    সুপারিশকারী সিস্টেম ডেটাসেট হল বিভিন্ন ডেটাসেটের একটি বিশাল সংগ্রহ যাতে বিভিন্ন বৈশিষ্ট্য রয়েছে যেমন,

    • পণ্য রিভিউ
    • তারকা রেটিং
    • ফিটনেস ট্র্যাকিং
    • গানের তথ্য
    • সামাজিক যোগাযোগ
    • টাইমস্ট্যাম্প
    • ব্যবহারকারী/আইটেমের মিথস্ক্রিয়া
    • জিপিএস ডেটা
  • পেন ট্রিব্যাঙ্ক (লিঙ্ক)

    ওয়াল স্ট্রিট জার্নালের এই কর্পাসটি সিকোয়েন্স লেবেলিং মডেল পরীক্ষা করার জন্য জনপ্রিয়।

  • NLTK (লিঙ্ক)

    এই পাইথন লাইব্রেরি NLP-এর জন্য 100 টিরও বেশি কর্পোরা এবং আভিধানিক সংস্থানগুলিতে অ্যাক্সেস সরবরাহ করে। এটিতে NLTK বই, লাইব্রেরি ব্যবহার করার জন্য একটি প্রশিক্ষণ কোর্সও রয়েছে।

  • সার্বজনীন নির্ভরতা (লিঙ্ক)

    UD 100টিরও বেশি ভাষায় সম্পদ, 200টি ট্রিব্যাঙ্ক এবং 300 টিরও বেশি সম্প্রদায়ের সদস্যদের সমর্থন সহ ব্যাকরণ টীকা করার একটি ধারাবাহিক উপায় প্রদান করে৷

অনুভূতির বিশ্লেষণ

  • চলচ্চিত্র এবং অর্থের জন্য অভিধান (লিঙ্ক)

    অনুভূতির বিশ্লেষণ
    দ্য ডিকশনারিজ ফর মুভিজ অ্যান্ড ফাইন্যান্স ডেটাসেট ফিনান্স ফিলিংস এবং মুভি রিভিউতে ইতিবাচক বা নেতিবাচক পোলারিটির জন্য ডোমেন-নির্দিষ্ট অভিধান প্রদান করে। এই অভিধানগুলি IMDb এবং US ফর্ম-8 ফিলিংস থেকে আঁকা হয়েছে।

  • অনুভূতি 140 (লিঙ্ক)

    সেন্টিমেন্ট 140-এ 160,000টি ভিন্ন ক্ষেত্রে শ্রেণীবদ্ধ বিভিন্ন ইমোটিকন সহ 6টিরও বেশি টুইট রয়েছে: টুইটের তারিখ, পোলারিটি, টেক্সট, ব্যবহারকারীর নাম, আইডি এবং ক্যোয়ারী। এই ডেটাসেটটি আপনার পক্ষে টুইটার কার্যকলাপের উপর ভিত্তি করে একটি ব্র্যান্ড, একটি পণ্য বা এমনকি একটি বিষয়ের অনুভূতি আবিষ্কার করা সম্ভব করে তোলে। যেহেতু এই ডেটাসেটটি স্বয়ংক্রিয়ভাবে তৈরি হয়েছে, অন্যান্য মানব-টীকা করা টুইটগুলির বিপরীতে, এটি ইতিবাচক আবেগ এবং নেতিবাচক আবেগ সহ টুইটগুলিকে প্রতিকূল হিসাবে শ্রেণীবদ্ধ করে৷

  • মাল্টি-ডোমেন সেন্টিমেন্ট ডেটাসেট (লিঙ্ক)

    এই মাল্টি-ডোমেন সেন্টিমেন্ট ডেটাসেট হল বিভিন্ন পণ্যের জন্য অ্যামাজন পর্যালোচনার একটি ভান্ডার। কিছু পণ্য বিভাগ, যেমন বই, হাজার হাজার রিভিউ আছে, অন্যদের মাত্র কয়েকশ রিভিউ আছে। এছাড়াও, তারকা রেটিং সহ পর্যালোচনাগুলিকে বাইনারি লেবেলে রূপান্তর করা যেতে পারে।

  • স্ট্যান্ডফোর্ড সেন্টিমেন্ট ট্রিব্যাঙ্ক (লিঙ্ক)

    Rotten Tomatoes-এর এই NLP ডেটাসেটে দীর্ঘ বাক্যাংশ এবং আরও বিস্তারিত পাঠের উদাহরণ রয়েছে।

  • ব্লগ লেখক কর্পাস (লিঙ্ক)

    এই সংগ্রহে প্রায় 1.4 মিলিয়ন শব্দের ব্লগ পোস্ট রয়েছে, প্রতিটি ব্লগ একটি পৃথক ডেটাসেট।

  • OpinRank ডেটাসেট (লিঙ্ক)

    গাড়ির মডেল বা ভ্রমণ গন্তব্য এবং হোটেল দ্বারা সংগঠিত Edmunds এবং TripAdvisor থেকে 300,000 পর্যালোচনা।

পাঠ

  • উইকি QA কর্পাস (লিঙ্ক)

    ওপেন-ডোমেন প্রশ্ন ও উত্তর গবেষণায় সাহায্য করার জন্য তৈরি করা হয়েছে, WiKi QA Corpus হল সর্বজনীনভাবে উপলব্ধ ডেটাসেটগুলির মধ্যে একটি। Bing সার্চ ইঞ্জিন ক্যোয়ারী লগ থেকে সংকলিত, এটি প্রশ্ন-উত্তর জোড়া দিয়ে আসে। এতে 3000টিরও বেশি প্রশ্ন এবং 1500টি লেবেলযুক্ত উত্তর বাক্য রয়েছে।

  • আইনি কেস রিপোর্ট ডেটাসেট (লিঙ্ক)

    আইনি কেস রিপোর্ট ডেটাসেটে 4000টি আইনি মামলা রয়েছে এবং স্বয়ংক্রিয় পাঠ্য সংক্ষিপ্তকরণ এবং উদ্ধৃতি বিশ্লেষণের জন্য প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে। প্রতিটি নথি, ক্যাচফ্রেজ, উদ্ধৃতি ক্লাস, উদ্ধৃতি ক্যাচফ্রেজ এবং আরও অনেক কিছু ব্যবহার করা হয়।

  • ঝুঁকি (লিঙ্ক)

    Jeopardy ডেটাসেট হল 200,000-এরও বেশি প্রশ্নের একটি সংগ্রহ যা জনপ্রিয় কুইজ টিভি শোতে দেখানো হয়েছে যা একজন Reddit ব্যবহারকারীর দ্বারা একত্রিত হয়েছে। প্রতিটি ডেটা পয়েন্ট তার প্রচারিত তারিখ, পর্ব সংখ্যা, মান, রাউন্ড এবং প্রশ্ন/উত্তর দ্বারা শ্রেণীবদ্ধ করা হয়।

  • 20টি সংবাদ গোষ্ঠী (লিঙ্ক)

    20,000টি নথির একটি সংগ্রহে 20টি নিউজগ্রুপ এবং বিষয় রয়েছে, ধর্ম থেকে জনপ্রিয় খেলাধুলার বিষয়গুলি বিস্তারিত।

  • রয়টার্স নিউজ ডেটাসেট (লিঙ্ক)

    1987 সালে প্রথম প্রদর্শিত, এই ডেটাসেটটিকে মেশিন লার্নিং উদ্দেশ্যে লেবেল, সূচীকরণ এবং সংকলিত করা হয়েছে।

  • ArXiv (লিঙ্ক)

    এই উল্লেখযোগ্য 270 GB ডেটাসেটে সমস্ত arXiv গবেষণাপত্রের সম্পূর্ণ পাঠ্য অন্তর্ভুক্ত রয়েছে।

  • ইউরোপীয় সংসদ কার্যধারা সমান্তরাল কর্পাস (লিঙ্ক)

    সংসদ কার্যধারার বাক্য জোড়ার মধ্যে রয়েছে 21টি ইউরোপীয় ভাষার এন্ট্রি, যেখানে মেশিন লার্নিং কর্পোরার জন্য কিছু কম সাধারণ ভাষা রয়েছে।

  • বিলিয়ন শব্দ বেঞ্চমার্ক (লিঙ্ক)

    WMT 2011 নিউজ ক্রল থেকে প্রাপ্ত, এই ভাষা মডেলিং ডেটাসেটে উদ্ভাবনী ভাষা মডেলিং কৌশল পরীক্ষা করার জন্য প্রায় এক বিলিয়ন শব্দ রয়েছে।

অডিও স্পিচ

  • কথ্য উইকিপিডিয়া কর্পোরা (লিঙ্ক)

    অডিও বক্তৃতা এই ডেটাসেটটি ইংরেজি ভাষার বাইরে যেতে চাই এমন প্রত্যেকের জন্য উপযুক্ত। এই ডেটাসেটে ডাচ এবং জার্মান এবং ইংরেজি ভাষায় কথা বলা নিবন্ধগুলির একটি সংগ্রহ রয়েছে৷ এটির বিভিন্ন বিষয় এবং স্পিকার সেট রয়েছে যা শত শত ঘন্টার মধ্যে চলে।

  • 2000 HUB5 ইংরেজি (লিঙ্ক)

    2000 HUB5 ইংরেজি ডেটাসেটে ইংরেজি ভাষায় 40টি টেলিফোন কথোপকথনের প্রতিলিপি রয়েছে। ডেটা ন্যাশনাল ইনস্টিটিউট অফ স্ট্যান্ডার্ডস অ্যান্ড টেকনোলজি দ্বারা সরবরাহ করা হয়েছে এবং এর প্রধান ফোকাস হল কথোপকথনমূলক বক্তৃতাকে স্বীকৃতি দেওয়া এবং বক্তব্যকে পাঠ্যে রূপান্তর করা।

  • লিব্রি স্পিচ (লিঙ্ক)

    LibriSpeech ডেটাসেট হল প্রায় 1000 ঘন্টার ইংরেজি বক্তৃতার একটি সংগ্রহ যা অডিও বই থেকে অধ্যায়গুলিতে বিষয়গুলি দ্বারা সঠিকভাবে বিভক্ত করা হয়েছে, যা এটি প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য একটি নিখুঁত হাতিয়ার করে তুলেছে।

  • ফ্রি স্পোকেন ডিজিট ডেটাসেট (লিঙ্ক)

    এই NLP ডেটাসেটে ইংরেজিতে কথ্য সংখ্যার 1,500টিরও বেশি রেকর্ডিং অন্তর্ভুক্ত রয়েছে।

  • M-AI ল্যাবস স্পিচ ডেটাসেট (লিঙ্ক)

    ডেটাসেটটি ট্রান্সক্রিপশন সহ প্রায় 1,000 ঘন্টার অডিও অফার করে, একাধিক ভাষাকে অন্তর্ভুক্ত করে এবং পুরুষ, মহিলা এবং মিশ্র কণ্ঠস্বর দ্বারা শ্রেণীবদ্ধ।

  • কোলাহলপূর্ণ বক্তৃতা ডেটাবেস (লিঙ্ক)

    এই ডেটাসেটে সমান্তরাল কোলাহলপূর্ণ এবং পরিষ্কার বক্তৃতা রেকর্ডিং বৈশিষ্ট্য রয়েছে, যা বক্তৃতা বর্ধিত সফ্টওয়্যার বিকাশের উদ্দেশ্যে কিন্তু চ্যালেঞ্জিং পরিস্থিতিতে বক্তৃতা প্রশিক্ষণের জন্যও উপকারী।

পর্যালোচনা

  • Yelp পর্যালোচনা (লিঙ্ক)

    Yelp ডেটাসেটে 8.5 প্লাস ব্যবসা, তাদের পর্যালোচনা এবং ব্যবহারকারীর ডেটার প্রায় 160,000 মিলিয়ন পর্যালোচনার একটি বিশাল সংগ্রহ রয়েছে। পর্যালোচনাগুলি আপনার মডেলগুলিকে অনুভূতি বিশ্লেষণে প্রশিক্ষণ দিতে ব্যবহার করা যেতে পারে। এছাড়াও, এই ডেটাসেটে 200,000টিরও বেশি ছবি রয়েছে যা আটটি মেট্রোপলিটন অবস্থানগুলিকে কভার করে৷

  • IMDB পর্যালোচনা (লিঙ্ক)

    IMDB রিভিউ হল 50 হাজারেরও বেশি মুভির জন্য কাস্ট তথ্য, রেটিং, বর্ণনা এবং জেনার সহ সবচেয়ে জনপ্রিয় ডেটাসেট। এই ডেটাসেটটি আপনার মেশিন লার্নিং মডেল পরীক্ষা এবং প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে।

  • আমাজন পর্যালোচনা এবং রেটিং ডেটাসেট (লিঙ্ক)

    অ্যামাজন পর্যালোচনা এবং রেটিং ডেটাসেটে 1996 থেকে 2014 পর্যন্ত অ্যামাজন থেকে সংগ্রহ করা বিভিন্ন পণ্যের মেটাডেটা এবং পর্যালোচনাগুলির একটি মূল্যবান সংগ্রহ রয়েছে - প্রায় 142.8 মিলিয়ন রেকর্ড। মেটাডেটা মূল্য, পণ্যের বিবরণ, ব্র্যান্ড, বিভাগ এবং আরও অনেক কিছু অন্তর্ভুক্ত করে, যখন পর্যালোচনাগুলিতে পাঠ্যের গুণমান, পাঠ্যের উপযোগিতা, রেটিং এবং আরও অনেক কিছু থাকে।

প্রশ্ন ও উত্তর

  • স্ট্যানফোর্ড প্রশ্ন ও উত্তর ডেটাসেট (SQuAD) (লিঙ্ক)

    এই রিডিং কম্প্রিহেনশন ডেটাসেটে 100,000 উত্তরযোগ্য প্রশ্ন এবং 50,000টি উত্তর দেওয়া যায় না, সবই উইকিপিডিয়ার ভিড় কর্মীদের দ্বারা তৈরি।

  • প্রাকৃতিক প্রশ্ন (লিঙ্ক)

    এই প্রশিক্ষণ সেটটিতে 300,000টিরও বেশি প্রশিক্ষণের উদাহরণ, 7,800টি বিকাশের উদাহরণ এবং 7,800টি পরীক্ষার উদাহরণ রয়েছে, প্রতিটিতে একটি Google ক্যোয়ারী এবং একটি ম্যাচিং উইকিপিডিয়া পৃষ্ঠা রয়েছে।

  • ট্রিভিয়াকিউএ (লিঙ্ক)

    এই চ্যালেঞ্জিং প্রশ্ন সেটে 950,000 QA জোড়া রয়েছে, যার মধ্যে মানব-যাচাইকৃত এবং মেশিন-উত্পাদিত উপসেট রয়েছে।

  • CLEVR (কম্পোজিশনাল ল্যাঙ্গুয়েজ অ্যান্ড এলিমেন্টারি ভিজ্যুয়াল রিজনিং) (লিঙ্ক)

    এই ভিজ্যুয়াল প্রশ্নের উত্তর ডেটাসেটে 3D রেন্ডার করা বস্তু এবং ভিজ্যুয়াল দৃশ্য সম্পর্কে বিশদ সহ হাজার হাজার প্রশ্ন রয়েছে।

তাহলে, আপনার মেশিন লার্নিং মডেলকে প্রশিক্ষণ দেওয়ার জন্য আপনি কোন ডেটাসেট বেছে নিয়েছেন?

আমরা যেতে যেতে, আমরা একটি সঙ্গে আপনি ছেড়ে যাবে প্রো-টিপ

আপনার প্রয়োজনের জন্য একটি NLP ডেটাসেট বাছাই করার আগে পুঙ্খানুপুঙ্খভাবে README ফাইলটি দেখে নিন। ডেটাসেটটিতে আপনার প্রয়োজন হতে পারে এমন সমস্ত প্রয়োজনীয় তথ্য থাকবে, যেমন ডেটাসেটের বিষয়বস্তু, বিভিন্ন প্যারামিটার যার ভিত্তিতে ডেটা শ্রেণীবদ্ধ করা হয়েছে এবং ডেটাসেটের সম্ভাব্য ব্যবহারের ক্ষেত্রে।

Regardless of the models you build, there is an exciting prospect of integrating our machines more closely and intrinsically with our lives. With NLP, the possibilities for business, movies, speech recognition, finance, and more are increased manifold.

সামাজিক ভাগ