এনএলপি কী?
এনএলপি (প্রাকৃতিক ভাষা প্রক্রিয়াকরণ) কম্পিউটারকে মানুষের ভাষা বুঝতে সাহায্য করে। এটি কম্পিউটারকে পাঠ্য এবং বক্তৃতা পড়তে, বুঝতে এবং প্রতিক্রিয়া জানাতে শেখানোর মতো যেভাবে মানুষ করে।
NLP কি করতে পারে?
- অগোছালো পাঠ্যকে সংগঠিত ডেটাতে পরিণত করুন
- মন্তব্য ইতিবাচক নাকি নেতিবাচক তা বুঝুন
- ভাষার মধ্যে অনুবাদ করুন
- দীর্ঘ পাঠ্যের সারাংশ তৈরি করুন
- এবং আরো অনেক কিছু!
- NLP দিয়ে শুরু করা:
ভাল এনএলপি সিস্টেম তৈরি করার জন্য, আপনাকে তাদের প্রশিক্ষণ দেওয়ার জন্য প্রচুর উদাহরণের প্রয়োজন - ঠিক যেমন মানুষ কীভাবে আরও অনুশীলনের মাধ্যমে আরও ভাল শিখতে পারে। ভাল খবর হল যে অনেকগুলি বিনামূল্যের সংস্থান রয়েছে যেখানে আপনি এই উদাহরণগুলি খুঁজে পেতে পারেন: আলিঙ্গন মুখ, Kaggle এবং GitHub
এনএলপি বাজারের আকার এবং বৃদ্ধি:
2023 সালের হিসাবে, প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) বাজারের মূল্য ছিল প্রায় $26 বিলিয়ন। 30 থেকে 2023 সাল পর্যন্ত প্রায় 2030% চক্রবৃদ্ধি বার্ষিক বৃদ্ধির হার (CAGR) সহ এটি উল্লেখযোগ্যভাবে বৃদ্ধি পাবে বলে আশা করা হচ্ছে৷ এই বৃদ্ধি স্বাস্থ্যসেবা, অর্থ এবং গ্রাহক পরিষেবার মতো শিল্পগুলিতে NLP অ্যাপ্লিকেশনগুলির চাহিদা বৃদ্ধির দ্বারা চালিত হয়েছে৷
কীভাবে একটি ভাল এনএলপি ডেটাসেট চয়ন করবেন, নিম্নলিখিত বিষয়গুলি বিবেচনা করুন:
- প্রাসঙ্গিকতা: নিশ্চিত করুন যে ডেটাসেট আপনার নির্দিষ্ট কাজ বা ডোমেনের সাথে সারিবদ্ধ।
- আয়তন: বড় ডেটাসেটগুলি সাধারণত মডেলের কার্যকারিতা উন্নত করে, কিন্তু মানের সাথে আকারের ভারসাম্য বজায় রাখে।
- বৈচিত্র্য: মডেলের দৃঢ়তা বাড়ানোর জন্য বিভিন্ন ভাষার শৈলী এবং প্রসঙ্গ সহ ডেটাসেটগুলি সন্ধান করুন৷
- গুনাগুন: ত্রুটিগুলি প্রবর্তন এড়াতে ভাল-লেবেলযুক্ত এবং সঠিক ডেটা পরীক্ষা করুন৷
- অভিগম্যতা: নিশ্চিত করুন যে ডেটাসেটটি ব্যবহারের জন্য উপলব্ধ এবং লাইসেন্সিং বিধিনিষেধ বিবেচনা করুন৷
- প্রাক প্রসেসিং: ডেটাসেটের উল্লেখযোগ্য পরিস্কার বা প্রিপ্রসেসিং প্রয়োজন কিনা তা নির্ধারণ করুন।
- কমিউনিটি সাপোর্ট: জনপ্রিয় ডেটাসেটগুলিতে প্রায়শই আরও সংস্থান এবং সম্প্রদায়ের সমর্থন থাকে, যা সহায়ক হতে পারে।
এই বিষয়গুলি মূল্যায়ন করে, আপনি একটি ডেটাসেট নির্বাচন করতে পারেন যা আপনার প্রকল্পের প্রয়োজনের সাথে সবচেয়ে উপযুক্ত
NLP-এর জন্য শীর্ষ 33টি ওপেন ডেটাসেট দেখতে হবে৷
সাধারণ
UCI এর Spambase (লিঙ্ক)
স্প্যামবেস, হিউলেট-প্যাকার্ড ল্যাবসে তৈরি, ব্যবহারকারীদের দ্বারা স্প্যাম ইমেলের একটি সংগ্রহ রয়েছে, যার লক্ষ্য একটি ব্যক্তিগতকৃত স্প্যাম ফিল্টার তৈরি করা। এটিতে ইমেল বার্তাগুলি থেকে 4600 টিরও বেশি পর্যবেক্ষণ রয়েছে, যার মধ্যে প্রায় 1820টি স্প্যাম৷
এনরন ডেটাসেট (লিঙ্ক)
এনরন ডেটাসেটে তাদের মেশিন লার্নিং মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য জনসাধারণের কাছে উপলব্ধ বেনামী 'বাস্তব' ইমেলের একটি বিশাল সংগ্রহ রয়েছে। এটি 150 টিরও বেশি ব্যবহারকারীর কাছ থেকে অর্ধ মিলিয়নেরও বেশি ইমেল নিয়ে গর্ব করে, প্রধানত এনরনের সিনিয়র ম্যানেজমেন্ট। এই ডেটাসেট কাঠামোগত এবং অসংগঠিত উভয় ফর্ম্যাটে ব্যবহারের জন্য উপলব্ধ। অসংগঠিত ডেটা বাড়াতে, আপনাকে ডেটা প্রসেসিং কৌশল প্রয়োগ করতে হবে।
সুপারিশকারী সিস্টেম ডেটাসেট (লিঙ্ক)
সুপারিশকারী সিস্টেম ডেটাসেট হল বিভিন্ন ডেটাসেটের একটি বিশাল সংগ্রহ যাতে বিভিন্ন বৈশিষ্ট্য রয়েছে যেমন,
- পণ্য রিভিউ
- তারকা রেটিং
- ফিটনেস ট্র্যাকিং
- গানের তথ্য
- সামাজিক যোগাযোগ
- টাইমস্ট্যাম্প
- ব্যবহারকারী/আইটেমের মিথস্ক্রিয়া
- জিপিএস ডেটা
পেন ট্রিব্যাঙ্ক (লিঙ্ক)
ওয়াল স্ট্রিট জার্নালের এই কর্পাসটি সিকোয়েন্স লেবেলিং মডেল পরীক্ষা করার জন্য জনপ্রিয়।
NLTK (লিঙ্ক)
এই পাইথন লাইব্রেরি NLP-এর জন্য 100 টিরও বেশি কর্পোরা এবং আভিধানিক সংস্থানগুলিতে অ্যাক্সেস সরবরাহ করে। এটিতে NLTK বই, লাইব্রেরি ব্যবহার করার জন্য একটি প্রশিক্ষণ কোর্সও রয়েছে।
সার্বজনীন নির্ভরতা (লিঙ্ক)
UD 100টিরও বেশি ভাষায় সম্পদ, 200টি ট্রিব্যাঙ্ক এবং 300 টিরও বেশি সম্প্রদায়ের সদস্যদের সমর্থন সহ ব্যাকরণ টীকা করার একটি ধারাবাহিক উপায় প্রদান করে৷
অনুভূতির বিশ্লেষণ
চলচ্চিত্র এবং অর্থের জন্য অভিধান (লিঙ্ক)
দ্য ডিকশনারিজ ফর মুভিজ অ্যান্ড ফাইন্যান্স ডেটাসেট ফিনান্স ফিলিংস এবং মুভি রিভিউতে ইতিবাচক বা নেতিবাচক পোলারিটির জন্য ডোমেন-নির্দিষ্ট অভিধান প্রদান করে। এই অভিধানগুলি IMDb এবং US ফর্ম-8 ফিলিংস থেকে আঁকা হয়েছে।অনুভূতি 140 (লিঙ্ক)
সেন্টিমেন্ট 140-এ 160,000টি ভিন্ন ক্ষেত্রে শ্রেণীবদ্ধ বিভিন্ন ইমোটিকন সহ 6টিরও বেশি টুইট রয়েছে: টুইটের তারিখ, পোলারিটি, টেক্সট, ব্যবহারকারীর নাম, আইডি এবং ক্যোয়ারী। এই ডেটাসেটটি আপনার পক্ষে টুইটার কার্যকলাপের উপর ভিত্তি করে একটি ব্র্যান্ড, একটি পণ্য বা এমনকি একটি বিষয়ের অনুভূতি আবিষ্কার করা সম্ভব করে তোলে। যেহেতু এই ডেটাসেটটি স্বয়ংক্রিয়ভাবে তৈরি হয়েছে, অন্যান্য মানব-টীকা করা টুইটগুলির বিপরীতে, এটি ইতিবাচক আবেগ এবং নেতিবাচক আবেগ সহ টুইটগুলিকে প্রতিকূল হিসাবে শ্রেণীবদ্ধ করে৷
মাল্টি-ডোমেন সেন্টিমেন্ট ডেটাসেট (লিঙ্ক)
এই মাল্টি-ডোমেন সেন্টিমেন্ট ডেটাসেট হল বিভিন্ন পণ্যের জন্য অ্যামাজন পর্যালোচনার একটি ভান্ডার। কিছু পণ্য বিভাগ, যেমন বই, হাজার হাজার রিভিউ আছে, অন্যদের মাত্র কয়েকশ রিভিউ আছে। এছাড়াও, তারকা রেটিং সহ পর্যালোচনাগুলিকে বাইনারি লেবেলে রূপান্তর করা যেতে পারে।
স্ট্যান্ডফোর্ড সেন্টিমেন্ট ট্রিব্যাঙ্ক (লিঙ্ক)
Rotten Tomatoes-এর এই NLP ডেটাসেটে দীর্ঘ বাক্যাংশ এবং আরও বিস্তারিত পাঠের উদাহরণ রয়েছে।
ব্লগ লেখক কর্পাস (লিঙ্ক)
এই সংগ্রহে প্রায় 1.4 মিলিয়ন শব্দের ব্লগ পোস্ট রয়েছে, প্রতিটি ব্লগ একটি পৃথক ডেটাসেট।
OpinRank ডেটাসেট (লিঙ্ক)
গাড়ির মডেল বা ভ্রমণ গন্তব্য এবং হোটেল দ্বারা সংগঠিত Edmunds এবং TripAdvisor থেকে 300,000 পর্যালোচনা।
পাঠ
-
উইকি QA কর্পাস (লিঙ্ক)
ওপেন-ডোমেন প্রশ্ন ও উত্তর গবেষণায় সাহায্য করার জন্য তৈরি করা হয়েছে, WiKi QA Corpus হল সর্বজনীনভাবে উপলব্ধ ডেটাসেটগুলির মধ্যে একটি। Bing সার্চ ইঞ্জিন ক্যোয়ারী লগ থেকে সংকলিত, এটি প্রশ্ন-উত্তর জোড়া দিয়ে আসে। এতে 3000টিরও বেশি প্রশ্ন এবং 1500টি লেবেলযুক্ত উত্তর বাক্য রয়েছে।
-
আইনি কেস রিপোর্ট ডেটাসেট (লিঙ্ক)
আইনি কেস রিপোর্ট ডেটাসেটে 4000টি আইনি মামলা রয়েছে এবং স্বয়ংক্রিয় পাঠ্য সংক্ষিপ্তকরণ এবং উদ্ধৃতি বিশ্লেষণের জন্য প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে। প্রতিটি নথি, ক্যাচফ্রেজ, উদ্ধৃতি ক্লাস, উদ্ধৃতি ক্যাচফ্রেজ এবং আরও অনেক কিছু ব্যবহার করা হয়।
-
ঝুঁকি (লিঙ্ক)
Jeopardy ডেটাসেট হল 200,000-এরও বেশি প্রশ্নের একটি সংগ্রহ যা জনপ্রিয় কুইজ টিভি শোতে দেখানো হয়েছে যা একজন Reddit ব্যবহারকারীর দ্বারা একত্রিত হয়েছে। প্রতিটি ডেটা পয়েন্ট তার প্রচারিত তারিখ, পর্ব সংখ্যা, মান, রাউন্ড এবং প্রশ্ন/উত্তর দ্বারা শ্রেণীবদ্ধ করা হয়।
-
20টি সংবাদ গোষ্ঠী (লিঙ্ক)
20,000টি নথির একটি সংগ্রহে 20টি নিউজগ্রুপ এবং বিষয় রয়েছে, ধর্ম থেকে জনপ্রিয় খেলাধুলার বিষয়গুলি বিস্তারিত।
-
রয়টার্স নিউজ ডেটাসেট (লিঙ্ক)
1987 সালে প্রথম প্রদর্শিত, এই ডেটাসেটটিকে মেশিন লার্নিং উদ্দেশ্যে লেবেল, সূচীকরণ এবং সংকলিত করা হয়েছে।
-
ArXiv (লিঙ্ক)
এই উল্লেখযোগ্য 270 GB ডেটাসেটে সমস্ত arXiv গবেষণাপত্রের সম্পূর্ণ পাঠ্য অন্তর্ভুক্ত রয়েছে।
-
ইউরোপীয় সংসদ কার্যধারা সমান্তরাল কর্পাস (লিঙ্ক)
সংসদ কার্যধারার বাক্য জোড়ার মধ্যে রয়েছে 21টি ইউরোপীয় ভাষার এন্ট্রি, যেখানে মেশিন লার্নিং কর্পোরার জন্য কিছু কম সাধারণ ভাষা রয়েছে।
-
বিলিয়ন শব্দ বেঞ্চমার্ক (লিঙ্ক)
WMT 2011 নিউজ ক্রল থেকে প্রাপ্ত, এই ভাষা মডেলিং ডেটাসেটে উদ্ভাবনী ভাষা মডেলিং কৌশল পরীক্ষা করার জন্য প্রায় এক বিলিয়ন শব্দ রয়েছে।
অডিও স্পিচ
-
কথ্য উইকিপিডিয়া কর্পোরা (লিঙ্ক)
-
2000 HUB5 ইংরেজি (লিঙ্ক)
2000 HUB5 ইংরেজি ডেটাসেটে ইংরেজি ভাষায় 40টি টেলিফোন কথোপকথনের প্রতিলিপি রয়েছে। ডেটা ন্যাশনাল ইনস্টিটিউট অফ স্ট্যান্ডার্ডস অ্যান্ড টেকনোলজি দ্বারা সরবরাহ করা হয়েছে এবং এর প্রধান ফোকাস হল কথোপকথনমূলক বক্তৃতাকে স্বীকৃতি দেওয়া এবং বক্তব্যকে পাঠ্যে রূপান্তর করা।
-
লিব্রি স্পিচ (লিঙ্ক)
LibriSpeech ডেটাসেট হল প্রায় 1000 ঘন্টার ইংরেজি বক্তৃতার একটি সংগ্রহ যা অডিও বই থেকে অধ্যায়গুলিতে বিষয়গুলি দ্বারা সঠিকভাবে বিভক্ত করা হয়েছে, যা এটি প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য একটি নিখুঁত হাতিয়ার করে তুলেছে।
-
ফ্রি স্পোকেন ডিজিট ডেটাসেট (লিঙ্ক)
এই NLP ডেটাসেটে ইংরেজিতে কথ্য সংখ্যার 1,500টিরও বেশি রেকর্ডিং অন্তর্ভুক্ত রয়েছে।
-
M-AI ল্যাবস স্পিচ ডেটাসেট (লিঙ্ক)
ডেটাসেটটি ট্রান্সক্রিপশন সহ প্রায় 1,000 ঘন্টার অডিও অফার করে, একাধিক ভাষাকে অন্তর্ভুক্ত করে এবং পুরুষ, মহিলা এবং মিশ্র কণ্ঠস্বর দ্বারা শ্রেণীবদ্ধ।
-
কোলাহলপূর্ণ বক্তৃতা ডেটাবেস (লিঙ্ক)
এই ডেটাসেটে সমান্তরাল কোলাহলপূর্ণ এবং পরিষ্কার বক্তৃতা রেকর্ডিং বৈশিষ্ট্য রয়েছে, যা বক্তৃতা বর্ধিত সফ্টওয়্যার বিকাশের উদ্দেশ্যে কিন্তু চ্যালেঞ্জিং পরিস্থিতিতে বক্তৃতা প্রশিক্ষণের জন্যও উপকারী।
পর্যালোচনা
-
Yelp পর্যালোচনা (লিঙ্ক)
Yelp ডেটাসেটে 8.5 প্লাস ব্যবসা, তাদের পর্যালোচনা এবং ব্যবহারকারীর ডেটার প্রায় 160,000 মিলিয়ন পর্যালোচনার একটি বিশাল সংগ্রহ রয়েছে। পর্যালোচনাগুলি আপনার মডেলগুলিকে অনুভূতি বিশ্লেষণে প্রশিক্ষণ দিতে ব্যবহার করা যেতে পারে। এছাড়াও, এই ডেটাসেটে 200,000টিরও বেশি ছবি রয়েছে যা আটটি মেট্রোপলিটন অবস্থানগুলিকে কভার করে৷
-
IMDB পর্যালোচনা (লিঙ্ক)
IMDB রিভিউ হল 50 হাজারেরও বেশি মুভির জন্য কাস্ট তথ্য, রেটিং, বর্ণনা এবং জেনার সহ সবচেয়ে জনপ্রিয় ডেটাসেট। এই ডেটাসেটটি আপনার মেশিন লার্নিং মডেল পরীক্ষা এবং প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে।
-
আমাজন পর্যালোচনা এবং রেটিং ডেটাসেট (লিঙ্ক)
অ্যামাজন পর্যালোচনা এবং রেটিং ডেটাসেটে 1996 থেকে 2014 পর্যন্ত অ্যামাজন থেকে সংগ্রহ করা বিভিন্ন পণ্যের মেটাডেটা এবং পর্যালোচনাগুলির একটি মূল্যবান সংগ্রহ রয়েছে - প্রায় 142.8 মিলিয়ন রেকর্ড। মেটাডেটা মূল্য, পণ্যের বিবরণ, ব্র্যান্ড, বিভাগ এবং আরও অনেক কিছু অন্তর্ভুক্ত করে, যখন পর্যালোচনাগুলিতে পাঠ্যের গুণমান, পাঠ্যের উপযোগিতা, রেটিং এবং আরও অনেক কিছু থাকে।
প্রশ্ন ও উত্তর
-
স্ট্যানফোর্ড প্রশ্ন ও উত্তর ডেটাসেট (SQuAD) (লিঙ্ক)
এই রিডিং কম্প্রিহেনশন ডেটাসেটে 100,000 উত্তরযোগ্য প্রশ্ন এবং 50,000টি উত্তর দেওয়া যায় না, সবই উইকিপিডিয়ার ভিড় কর্মীদের দ্বারা তৈরি।
-
প্রাকৃতিক প্রশ্ন (লিঙ্ক)
এই প্রশিক্ষণ সেটটিতে 300,000টিরও বেশি প্রশিক্ষণের উদাহরণ, 7,800টি বিকাশের উদাহরণ এবং 7,800টি পরীক্ষার উদাহরণ রয়েছে, প্রতিটিতে একটি Google ক্যোয়ারী এবং একটি ম্যাচিং উইকিপিডিয়া পৃষ্ঠা রয়েছে।
-
ট্রিভিয়াকিউএ (লিঙ্ক)
এই চ্যালেঞ্জিং প্রশ্ন সেটে 950,000 QA জোড়া রয়েছে, যার মধ্যে মানব-যাচাইকৃত এবং মেশিন-উত্পাদিত উপসেট রয়েছে।
-
CLEVR (কম্পোজিশনাল ল্যাঙ্গুয়েজ অ্যান্ড এলিমেন্টারি ভিজ্যুয়াল রিজনিং) (লিঙ্ক)
এই ভিজ্যুয়াল প্রশ্নের উত্তর ডেটাসেটে 3D রেন্ডার করা বস্তু এবং ভিজ্যুয়াল দৃশ্য সম্পর্কে বিশদ সহ হাজার হাজার প্রশ্ন রয়েছে।
তাহলে, আপনার মেশিন লার্নিং মডেলকে প্রশিক্ষণ দেওয়ার জন্য আপনি কোন ডেটাসেট বেছে নিয়েছেন?
আমরা যেতে যেতে, আমরা একটি সঙ্গে আপনি ছেড়ে যাবে প্রো-টিপ
আপনার প্রয়োজনের জন্য একটি NLP ডেটাসেট বাছাই করার আগে পুঙ্খানুপুঙ্খভাবে README ফাইলটি দেখে নিন। ডেটাসেটটিতে আপনার প্রয়োজন হতে পারে এমন সমস্ত প্রয়োজনীয় তথ্য থাকবে, যেমন ডেটাসেটের বিষয়বস্তু, বিভিন্ন প্যারামিটার যার ভিত্তিতে ডেটা শ্রেণীবদ্ধ করা হয়েছে এবং ডেটাসেটের সম্ভাব্য ব্যবহারের ক্ষেত্রে।
আপনি যে মডেলগুলিই তৈরি করেন না কেন, আমাদের মেশিনগুলিকে আমাদের জীবনের সাথে আরও ঘনিষ্ঠভাবে এবং অন্তর্নিহিতভাবে সংহত করার একটি উত্তেজনাপূর্ণ সম্ভাবনা রয়েছে। এনএলপির মাধ্যমে, ব্যবসা, চলচ্চিত্র, বক্তৃতা স্বীকৃতি, অর্থ এবং আরও অনেক কিছুর সম্ভাবনা বহুগুণ বেড়ে যায়।