প্রাকৃতিক ভাষা প্রক্রিয়াকরণ মেশিন লার্নিং আর্মারের একটি গুরুত্বপূর্ণ অংশ। যাইহোক, মডেলটি ভালভাবে কাজ করার জন্য এটির জন্য প্রচুর পরিমাণে ডেটা এবং প্রশিক্ষণের প্রয়োজন। এনএলপির একটি উল্লেখযোগ্য সমস্যা হল প্রশিক্ষণ ডেটাসেটের অভাব যা ডোমেনের মধ্যে আগ্রহের বিশাল ক্ষেত্রগুলিকে কভার করতে পারে।
আপনি যদি এই বিশাল ক্ষেত্রে শুরু করেন, তাহলে আপনার ডেটাসেট তৈরি করা আপনার কাছে চ্যালেঞ্জিং এবং কার্যত অপ্রয়োজনীয় মনে হতে পারে। বিশেষ করে যখন গুণমান থাকে NLP আপনার মেশিন লার্নিং মডেলকে তাদের উদ্দেশ্যের উপর ভিত্তি করে প্রশিক্ষণের জন্য উপলভ্য ডেটাসেট।
11.7 এবং 2018 এর মধ্যে NLP বাজার 2026% CAGR-এ বৃদ্ধি পাবে 28.6 দ্বারা 2026 বিলিয়ন. এনএলপি এবং মেশিন লার্নিংয়ের ক্রমবর্ধমান চাহিদার জন্য ধন্যবাদ, অনুভূতি বিশ্লেষণ, পর্যালোচনা, প্রশ্ন ও উত্তর বিশ্লেষণ এবং বক্তৃতা বিশ্লেষণ ডেটাসেটের জন্য মানসম্পন্ন ডেটাসেটগুলিতে আপনার হাত পেতে এখন সম্ভব।
মেশিন লার্নিংয়ের জন্য NLP ডেটাসেটগুলি আপনি বিশ্বাস করতে পারেন৷
যেহেতু অগণিত ডেটাসেট - বিভিন্ন প্রয়োজনের উপর ফোকাস করে - প্রায় প্রতিদিন প্রকাশিত হচ্ছে, এটি মানসম্পন্ন, নির্ভরযোগ্য এবং সেরা ডেটাসেটগুলি অ্যাক্সেস করা চ্যালেঞ্জিং হতে পারে। এখানে, আমরা আপনার জন্য কাজটিকে আরও সহজ করে তুলেছি, কারণ আমরা আপনাকে উপস্থাপিত করেছি কিউরেটেড ডেটাসেটগুলি তাদের দেওয়া বিভাগের উপর ভিত্তি করে আলাদা করা।
সাধারণ
UCI এর Spambase (লিঙ্ক)
স্প্যামবেস, হিউলেট-প্যাকার্ড ল্যাবসে তৈরি, ব্যবহারকারীদের দ্বারা স্প্যাম ইমেলের একটি সংগ্রহ রয়েছে, যার লক্ষ্য একটি ব্যক্তিগতকৃত স্প্যাম ফিল্টার তৈরি করা। এটিতে ইমেল বার্তাগুলি থেকে 4600 টিরও বেশি পর্যবেক্ষণ রয়েছে, যার মধ্যে প্রায় 1820টি স্প্যাম৷
এনরন ডেটাসেট (লিঙ্ক)
এনরন ডেটাসেটে তাদের মেশিন লার্নিং মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য জনসাধারণের কাছে উপলব্ধ বেনামী 'বাস্তব' ইমেলের একটি বিশাল সংগ্রহ রয়েছে। এটি 150 টিরও বেশি ব্যবহারকারীর কাছ থেকে অর্ধ মিলিয়নেরও বেশি ইমেল নিয়ে গর্ব করে, প্রধানত এনরনের সিনিয়র ম্যানেজমেন্ট। এই ডেটাসেট কাঠামোগত এবং অসংগঠিত উভয় ফর্ম্যাটে ব্যবহারের জন্য উপলব্ধ। অসংগঠিত ডেটা বাড়াতে, আপনাকে ডেটা প্রসেসিং কৌশল প্রয়োগ করতে হবে।
সুপারিশকারী সিস্টেম ডেটাসেট (লিঙ্ক)
সুপারিশকারী সিস্টেম ডেটাসেট হল বিভিন্ন ডেটাসেটের একটি বিশাল সংগ্রহ যাতে বিভিন্ন বৈশিষ্ট্য রয়েছে যেমন,
- পণ্য রিভিউ
- তারকা রেটিং
- ফিটনেস ট্র্যাকিং
- গানের তথ্য
- সামাজিক যোগাযোগ
- টাইমস্ট্যাম্প
- ব্যবহারকারী/আইটেমের মিথস্ক্রিয়া
- জিপিএস ডেটা
অনুভূতির বিশ্লেষণ
চলচ্চিত্র এবং অর্থের জন্য অভিধান (লিঙ্ক)
দ্য ডিকশনারিজ ফর মুভিজ অ্যান্ড ফাইন্যান্স ডেটাসেট ফিনান্স ফিলিংস এবং মুভি রিভিউতে ইতিবাচক বা নেতিবাচক পোলারিটির জন্য ডোমেন-নির্দিষ্ট অভিধান প্রদান করে। এই অভিধানগুলি IMDb এবং US ফর্ম-8 ফিলিংস থেকে আঁকা হয়েছে।
অনুভূতি 140 (লিঙ্ক)
সেন্টিমেন্ট 140-এ 160,000টি ভিন্ন ক্ষেত্রে শ্রেণীবদ্ধ বিভিন্ন ইমোটিকন সহ 6টিরও বেশি টুইট রয়েছে: টুইটের তারিখ, পোলারিটি, টেক্সট, ব্যবহারকারীর নাম, আইডি এবং ক্যোয়ারী। এই ডেটাসেটটি আপনার পক্ষে টুইটার কার্যকলাপের উপর ভিত্তি করে একটি ব্র্যান্ড, একটি পণ্য বা এমনকি একটি বিষয়ের অনুভূতি আবিষ্কার করা সম্ভব করে তোলে। যেহেতু এই ডেটাসেটটি স্বয়ংক্রিয়ভাবে তৈরি হয়েছে, অন্যান্য মানব-টীকা করা টুইটগুলির বিপরীতে, এটি ইতিবাচক আবেগ এবং নেতিবাচক আবেগ সহ টুইটগুলিকে প্রতিকূল হিসাবে শ্রেণীবদ্ধ করে৷
মাল্টি-ডোমেন সেন্টিমেন্ট ডেটাসেট (লিঙ্ক)
এই মাল্টি-ডোমেন সেন্টিমেন্ট ডেটাসেট হল বিভিন্ন পণ্যের জন্য অ্যামাজন পর্যালোচনার একটি ভান্ডার। কিছু পণ্য বিভাগ, যেমন বই, হাজার হাজার রিভিউ আছে, অন্যদের মাত্র কয়েকশ রিভিউ আছে। এছাড়াও, তারকা রেটিং সহ পর্যালোচনাগুলিকে বাইনারি লেবেলে রূপান্তর করা যেতে পারে।
পাঠ
উইকি QA কর্পাস (লিঙ্ক)
ওপেন-ডোমেন প্রশ্ন ও উত্তর গবেষণায় সাহায্য করার জন্য তৈরি করা হয়েছে, WiKi QA Corpus হল সর্বজনীনভাবে উপলব্ধ ডেটাসেটগুলির মধ্যে একটি। Bing সার্চ ইঞ্জিন ক্যোয়ারী লগ থেকে সংকলিত, এটি প্রশ্ন-উত্তর জোড়া দিয়ে আসে। এতে 3000টিরও বেশি প্রশ্ন এবং 1500টি লেবেলযুক্ত উত্তর বাক্য রয়েছে।
আইনি কেস রিপোর্ট ডেটাসেট (লিঙ্ক)
আইনি কেস রিপোর্ট ডেটাসেটে 4000টি আইনি মামলা রয়েছে এবং স্বয়ংক্রিয় পাঠ্য সংক্ষিপ্তকরণ এবং উদ্ধৃতি বিশ্লেষণের জন্য প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে। প্রতিটি নথি, ক্যাচফ্রেজ, উদ্ধৃতি ক্লাস, উদ্ধৃতি ক্যাচফ্রেজ এবং আরও অনেক কিছু ব্যবহার করা হয়।
ঝুঁকি (লিঙ্ক)
Jeopardy ডেটাসেট হল 200,000-এরও বেশি প্রশ্নের একটি সংগ্রহ যা জনপ্রিয় কুইজ টিভি শোতে দেখানো হয়েছে যা একজন Reddit ব্যবহারকারীর দ্বারা একত্রিত হয়েছে। প্রতিটি ডেটা পয়েন্ট তার প্রচারিত তারিখ, পর্ব সংখ্যা, মান, রাউন্ড এবং প্রশ্ন/উত্তর দ্বারা শ্রেণীবদ্ধ করা হয়।
অডিও স্পিচ
কথ্য উইকিপিডিয়া কর্পোরা (লিঙ্ক)
এই ডেটাসেটটি ইংরেজি ভাষার বাইরে যেতে চাই এমন প্রত্যেকের জন্য উপযুক্ত। এই ডেটাসেটে ডাচ এবং জার্মান এবং ইংরেজি ভাষায় কথা বলা নিবন্ধগুলির একটি সংগ্রহ রয়েছে৷ এটির বিভিন্ন বিষয় এবং স্পিকার সেট রয়েছে যা শত শত ঘন্টার মধ্যে চলে।
2000 HUB5 ইংরেজি (লিঙ্ক)
2000 HUB5 ইংরেজি ডেটাসেটে ইংরেজি ভাষায় 40টি টেলিফোন কথোপকথনের প্রতিলিপি রয়েছে। ডেটা ন্যাশনাল ইনস্টিটিউট অফ স্ট্যান্ডার্ডস অ্যান্ড টেকনোলজি দ্বারা সরবরাহ করা হয়েছে এবং এর প্রধান ফোকাস হল কথোপকথনমূলক বক্তৃতাকে স্বীকৃতি দেওয়া এবং বক্তব্যকে পাঠ্যে রূপান্তর করা।
লিব্রি স্পিচ (লিঙ্ক)
LibriSpeech ডেটাসেট হল প্রায় 1000 ঘন্টার ইংরেজি বক্তৃতার একটি সংগ্রহ যা অডিও বই থেকে অধ্যায়গুলিতে বিষয়গুলি দ্বারা সঠিকভাবে বিভক্ত করা হয়েছে, যা এটি প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য একটি নিখুঁত হাতিয়ার করে তুলেছে।
পর্যালোচনা
Yelp পর্যালোচনা (লিঙ্ক)
Yelp ডেটাসেটে 8.5 প্লাস ব্যবসা, তাদের পর্যালোচনা এবং ব্যবহারকারীর ডেটার প্রায় 160,000 মিলিয়ন পর্যালোচনার একটি বিশাল সংগ্রহ রয়েছে। পর্যালোচনাগুলি আপনার মডেলগুলিকে অনুভূতি বিশ্লেষণে প্রশিক্ষণ দিতে ব্যবহার করা যেতে পারে। এছাড়াও, এই ডেটাসেটে 200,000টিরও বেশি ছবি রয়েছে যা আটটি মেট্রোপলিটন অবস্থানগুলিকে কভার করে৷
IMDB পর্যালোচনা (লিঙ্ক)
IMDB রিভিউ হল 50 হাজারেরও বেশি মুভির জন্য কাস্ট তথ্য, রেটিং, বর্ণনা এবং জেনার সহ সবচেয়ে জনপ্রিয় ডেটাসেট। এই ডেটাসেটটি আপনার মেশিন লার্নিং মডেল পরীক্ষা এবং প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে।
আমাজন পর্যালোচনা এবং রেটিং ডেটাসেট (লিঙ্ক)
অ্যামাজন পর্যালোচনা এবং রেটিং ডেটাসেটে 1996 থেকে 2014 পর্যন্ত অ্যামাজন থেকে সংগ্রহ করা বিভিন্ন পণ্যের মেটাডেটা এবং পর্যালোচনাগুলির একটি মূল্যবান সংগ্রহ রয়েছে - প্রায় 142.8 মিলিয়ন রেকর্ড। মেটাডেটা মূল্য, পণ্যের বিবরণ, ব্র্যান্ড, বিভাগ এবং আরও অনেক কিছু অন্তর্ভুক্ত করে, যখন পর্যালোচনাগুলিতে পাঠ্যের গুণমান, পাঠ্যের উপযোগিতা, রেটিং এবং আরও অনেক কিছু থাকে।
তাহলে, আপনার মেশিন লার্নিং মডেলকে প্রশিক্ষণ দেওয়ার জন্য আপনি কোন ডেটাসেট বেছে নিয়েছেন?
আমরা যেতে যেতে, আমরা একটি সঙ্গে আপনি ছেড়ে যাবে প্রো-টিপ
আপনার প্রয়োজনের জন্য একটি NLP ডেটাসেট বাছাই করার আগে পুঙ্খানুপুঙ্খভাবে README ফাইলটি দেখে নিন। ডেটাসেটটিতে আপনার প্রয়োজন হতে পারে এমন সমস্ত প্রয়োজনীয় তথ্য থাকবে, যেমন ডেটাসেটের বিষয়বস্তু, বিভিন্ন প্যারামিটার যার ভিত্তিতে ডেটা শ্রেণীবদ্ধ করা হয়েছে এবং ডেটাসেটের সম্ভাব্য ব্যবহারের ক্ষেত্রে।
আপনি যে মডেলগুলি তৈরি করেন না কেন, আমাদের মেশিনগুলিকে আমাদের জীবনের সাথে আরও ঘনিষ্ঠভাবে এবং অন্তর্নিহিতভাবে একীভূত করার একটি উত্তেজনাপূর্ণ সম্ভাবনা রয়েছে। এনএলপির মাধ্যমে, ব্যবসা, চলচ্চিত্র, বক্তৃতা স্বীকৃতি, অর্থ এবং আরও অনেক কিছুর সম্ভাবনা বহুগুণ বেড়ে যায়। আপনি যদি আরও এই ধরনের ডেটাসেট খুঁজছেন এখানে ক্লিক করুন.