ML এর জন্য NLP ডেটাসেট

15টি সেরা এনএলপি ডেটাসেট আপনাকে প্রাকৃতিক ভাষা প্রক্রিয়াকরণ মডেল প্রশিক্ষণের জন্য

প্রাকৃতিক ভাষা প্রক্রিয়াকরণ মেশিন লার্নিং আর্মারের একটি গুরুত্বপূর্ণ অংশ। যাইহোক, মডেলটি ভালভাবে কাজ করার জন্য এটির জন্য প্রচুর পরিমাণে ডেটা এবং প্রশিক্ষণের প্রয়োজন। এনএলপির একটি উল্লেখযোগ্য সমস্যা হল প্রশিক্ষণ ডেটাসেটের অভাব যা ডোমেনের মধ্যে আগ্রহের বিশাল ক্ষেত্রগুলিকে কভার করতে পারে।

আপনি যদি এই বিশাল ক্ষেত্রে শুরু করেন, তাহলে আপনার ডেটাসেট তৈরি করা আপনার কাছে চ্যালেঞ্জিং এবং কার্যত অপ্রয়োজনীয় মনে হতে পারে। বিশেষ করে যখন গুণমান থাকে NLP আপনার মেশিন লার্নিং মডেলকে তাদের উদ্দেশ্যের উপর ভিত্তি করে প্রশিক্ষণের জন্য উপলভ্য ডেটাসেট।

11.7 এবং 2018 এর মধ্যে NLP বাজার 2026% CAGR-এ বৃদ্ধি পাবে 28.6 দ্বারা 2026 বিলিয়ন. এনএলপি এবং মেশিন লার্নিংয়ের ক্রমবর্ধমান চাহিদার জন্য ধন্যবাদ, অনুভূতি বিশ্লেষণ, পর্যালোচনা, প্রশ্ন ও উত্তর বিশ্লেষণ এবং বক্তৃতা বিশ্লেষণ ডেটাসেটের জন্য মানসম্পন্ন ডেটাসেটগুলিতে আপনার হাত পেতে এখন সম্ভব।

মেশিন লার্নিংয়ের জন্য NLP ডেটাসেটগুলি আপনি বিশ্বাস করতে পারেন৷

যেহেতু অগণিত ডেটাসেট - বিভিন্ন প্রয়োজনের উপর ফোকাস করে - প্রায় প্রতিদিন প্রকাশিত হচ্ছে, এটি মানসম্পন্ন, নির্ভরযোগ্য এবং সেরা ডেটাসেটগুলি অ্যাক্সেস করা চ্যালেঞ্জিং হতে পারে। এখানে, আমরা আপনার জন্য কাজটিকে আরও সহজ করে তুলেছি, কারণ আমরা আপনাকে উপস্থাপিত করেছি কিউরেটেড ডেটাসেটগুলি তাদের দেওয়া বিভাগের উপর ভিত্তি করে আলাদা করা।

সাধারণ

স্প্যামবেস, হিউলেট-প্যাকার্ড ল্যাবসে তৈরি, ব্যবহারকারীদের দ্বারা স্প্যাম ইমেলের একটি সংগ্রহ রয়েছে, যার লক্ষ্য একটি ব্যক্তিগতকৃত স্প্যাম ফিল্টার তৈরি করা। এটিতে ইমেল বার্তাগুলি থেকে 4600 টিরও বেশি পর্যবেক্ষণ রয়েছে, যার মধ্যে প্রায় 1820টি স্প্যাম৷

এনরন ডেটাসেটে তাদের মেশিন লার্নিং মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য জনসাধারণের কাছে উপলব্ধ বেনামী 'বাস্তব' ইমেলের একটি বিশাল সংগ্রহ রয়েছে। এটি 150 টিরও বেশি ব্যবহারকারীর কাছ থেকে অর্ধ মিলিয়নেরও বেশি ইমেল নিয়ে গর্ব করে, প্রধানত এনরনের সিনিয়র ম্যানেজমেন্ট। এই ডেটাসেট কাঠামোগত এবং অসংগঠিত উভয় ফর্ম্যাটে ব্যবহারের জন্য উপলব্ধ। অসংগঠিত ডেটা বাড়াতে, আপনাকে ডেটা প্রসেসিং কৌশল প্রয়োগ করতে হবে।

  • সুপারিশকারী সিস্টেম ডেটাসেট (লিঙ্ক)

সুপারিশকারী সিস্টেম ডেটাসেট হল বিভিন্ন ডেটাসেটের একটি বিশাল সংগ্রহ যাতে বিভিন্ন বৈশিষ্ট্য রয়েছে যেমন,

  • পণ্য রিভিউ
  • তারকা রেটিং
  • ফিটনেস ট্র্যাকিং
  • গানের তথ্য
  • সামাজিক যোগাযোগ
  • টাইমস্ট্যাম্প
  • ব্যবহারকারী/আইটেমের মিথস্ক্রিয়া
  • জিপিএস ডেটা

অনুভূতির বিশ্লেষণ

  • চলচ্চিত্র এবং অর্থের জন্য অভিধান (লিঙ্ক)

অনুভূতির বিশ্লেষণ
দ্য ডিকশনারিজ ফর মুভিজ অ্যান্ড ফাইন্যান্স ডেটাসেট ফিনান্স ফিলিংস এবং মুভি রিভিউতে ইতিবাচক বা নেতিবাচক পোলারিটির জন্য ডোমেন-নির্দিষ্ট অভিধান প্রদান করে। এই অভিধানগুলি IMDb এবং US ফর্ম-8 ফিলিংস থেকে আঁকা হয়েছে।

সেন্টিমেন্ট 140-এ 160,000টি ভিন্ন ক্ষেত্রে শ্রেণীবদ্ধ বিভিন্ন ইমোটিকন সহ 6টিরও বেশি টুইট রয়েছে: টুইটের তারিখ, পোলারিটি, টেক্সট, ব্যবহারকারীর নাম, আইডি এবং ক্যোয়ারী। এই ডেটাসেটটি আপনার পক্ষে টুইটার কার্যকলাপের উপর ভিত্তি করে একটি ব্র্যান্ড, একটি পণ্য বা এমনকি একটি বিষয়ের অনুভূতি আবিষ্কার করা সম্ভব করে তোলে। যেহেতু এই ডেটাসেটটি স্বয়ংক্রিয়ভাবে তৈরি হয়েছে, অন্যান্য মানব-টীকা করা টুইটগুলির বিপরীতে, এটি ইতিবাচক আবেগ এবং নেতিবাচক আবেগ সহ টুইটগুলিকে প্রতিকূল হিসাবে শ্রেণীবদ্ধ করে৷

  • মাল্টি-ডোমেন সেন্টিমেন্ট ডেটাসেট (লিঙ্ক)

এই মাল্টি-ডোমেন সেন্টিমেন্ট ডেটাসেট হল বিভিন্ন পণ্যের জন্য অ্যামাজন পর্যালোচনার একটি ভান্ডার। কিছু পণ্য বিভাগ, যেমন বই, হাজার হাজার রিভিউ আছে, অন্যদের মাত্র কয়েকশ রিভিউ আছে। এছাড়াও, তারকা রেটিং সহ পর্যালোচনাগুলিকে বাইনারি লেবেলে রূপান্তর করা যেতে পারে।

আসুন আজ আপনার এআই প্রশিক্ষণ ডেটা প্রয়োজনীয়তা নিয়ে আলোচনা করি।

পাঠ

ওপেন-ডোমেন প্রশ্ন ও উত্তর গবেষণায় সাহায্য করার জন্য তৈরি করা হয়েছে, WiKi QA Corpus হল সর্বজনীনভাবে উপলব্ধ ডেটাসেটগুলির মধ্যে একটি। Bing সার্চ ইঞ্জিন ক্যোয়ারী লগ থেকে সংকলিত, এটি প্রশ্ন-উত্তর জোড়া দিয়ে আসে। এতে 3000টিরও বেশি প্রশ্ন এবং 1500টি লেবেলযুক্ত উত্তর বাক্য রয়েছে।

আইনি কেস রিপোর্ট ডেটাসেটে 4000টি আইনি মামলা রয়েছে এবং স্বয়ংক্রিয় পাঠ্য সংক্ষিপ্তকরণ এবং উদ্ধৃতি বিশ্লেষণের জন্য প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে। প্রতিটি নথি, ক্যাচফ্রেজ, উদ্ধৃতি ক্লাস, উদ্ধৃতি ক্যাচফ্রেজ এবং আরও অনেক কিছু ব্যবহার করা হয়।

Jeopardy ডেটাসেট হল 200,000-এরও বেশি প্রশ্নের একটি সংগ্রহ যা জনপ্রিয় কুইজ টিভি শোতে দেখানো হয়েছে যা একজন Reddit ব্যবহারকারীর দ্বারা একত্রিত হয়েছে। প্রতিটি ডেটা পয়েন্ট তার প্রচারিত তারিখ, পর্ব সংখ্যা, মান, রাউন্ড এবং প্রশ্ন/উত্তর দ্বারা শ্রেণীবদ্ধ করা হয়।

অডিও স্পিচ

  • কথ্য উইকিপিডিয়া কর্পোরা (লিঙ্ক)

অডিও বক্তৃতা এই ডেটাসেটটি ইংরেজি ভাষার বাইরে যেতে চাই এমন প্রত্যেকের জন্য উপযুক্ত। এই ডেটাসেটে ডাচ এবং জার্মান এবং ইংরেজি ভাষায় কথা বলা নিবন্ধগুলির একটি সংগ্রহ রয়েছে৷ এটির বিভিন্ন বিষয় এবং স্পিকার সেট রয়েছে যা শত শত ঘন্টার মধ্যে চলে।

2000 HUB5 ইংরেজি ডেটাসেটে ইংরেজি ভাষায় 40টি টেলিফোন কথোপকথনের প্রতিলিপি রয়েছে। ডেটা ন্যাশনাল ইনস্টিটিউট অফ স্ট্যান্ডার্ডস অ্যান্ড টেকনোলজি দ্বারা সরবরাহ করা হয়েছে এবং এর প্রধান ফোকাস হল কথোপকথনমূলক বক্তৃতাকে স্বীকৃতি দেওয়া এবং বক্তব্যকে পাঠ্যে রূপান্তর করা।

LibriSpeech ডেটাসেট হল প্রায় 1000 ঘন্টার ইংরেজি বক্তৃতার একটি সংগ্রহ যা অডিও বই থেকে অধ্যায়গুলিতে বিষয়গুলি দ্বারা সঠিকভাবে বিভক্ত করা হয়েছে, যা এটি প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য একটি নিখুঁত হাতিয়ার করে তুলেছে।

পর্যালোচনা

Yelp ডেটাসেটে 8.5 প্লাস ব্যবসা, তাদের পর্যালোচনা এবং ব্যবহারকারীর ডেটার প্রায় 160,000 মিলিয়ন পর্যালোচনার একটি বিশাল সংগ্রহ রয়েছে। পর্যালোচনাগুলি আপনার মডেলগুলিকে অনুভূতি বিশ্লেষণে প্রশিক্ষণ দিতে ব্যবহার করা যেতে পারে। এছাড়াও, এই ডেটাসেটে 200,000টিরও বেশি ছবি রয়েছে যা আটটি মেট্রোপলিটন অবস্থানগুলিকে কভার করে৷

IMDB রিভিউ হল 50 হাজারেরও বেশি মুভির জন্য কাস্ট তথ্য, রেটিং, বর্ণনা এবং জেনার সহ সবচেয়ে জনপ্রিয় ডেটাসেট। এই ডেটাসেটটি আপনার মেশিন লার্নিং মডেল পরীক্ষা এবং প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে।

  • আমাজন পর্যালোচনা এবং রেটিং ডেটাসেট (লিঙ্ক)

অ্যামাজন পর্যালোচনা এবং রেটিং ডেটাসেটে 1996 থেকে 2014 পর্যন্ত অ্যামাজন থেকে সংগ্রহ করা বিভিন্ন পণ্যের মেটাডেটা এবং পর্যালোচনাগুলির একটি মূল্যবান সংগ্রহ রয়েছে - প্রায় 142.8 মিলিয়ন রেকর্ড। মেটাডেটা মূল্য, পণ্যের বিবরণ, ব্র্যান্ড, বিভাগ এবং আরও অনেক কিছু অন্তর্ভুক্ত করে, যখন পর্যালোচনাগুলিতে পাঠ্যের গুণমান, পাঠ্যের উপযোগিতা, রেটিং এবং আরও অনেক কিছু থাকে।

তাহলে, আপনার মেশিন লার্নিং মডেলকে প্রশিক্ষণ দেওয়ার জন্য আপনি কোন ডেটাসেট বেছে নিয়েছেন?

আমরা যেতে যেতে, আমরা একটি সঙ্গে আপনি ছেড়ে যাবে প্রো-টিপ 

আপনার প্রয়োজনের জন্য একটি NLP ডেটাসেট বাছাই করার আগে পুঙ্খানুপুঙ্খভাবে README ফাইলটি দেখে নিন। ডেটাসেটটিতে আপনার প্রয়োজন হতে পারে এমন সমস্ত প্রয়োজনীয় তথ্য থাকবে, যেমন ডেটাসেটের বিষয়বস্তু, বিভিন্ন প্যারামিটার যার ভিত্তিতে ডেটা শ্রেণীবদ্ধ করা হয়েছে এবং ডেটাসেটের সম্ভাব্য ব্যবহারের ক্ষেত্রে।

আপনি যে মডেলগুলি তৈরি করেন না কেন, আমাদের মেশিনগুলিকে আমাদের জীবনের সাথে আরও ঘনিষ্ঠভাবে এবং অন্তর্নিহিতভাবে একীভূত করার একটি উত্তেজনাপূর্ণ সম্ভাবনা রয়েছে। এনএলপির মাধ্যমে, ব্যবসা, চলচ্চিত্র, বক্তৃতা স্বীকৃতি, অর্থ এবং আরও অনেক কিছুর সম্ভাবনা বহুগুণ বেড়ে যায়। আপনি যদি আরও এই ধরনের ডেটাসেট খুঁজছেন এখানে ক্লিক করুন.

সামাজিক ভাগ

তুমিও পছন্দ করতে পার