সংজ্ঞা
অফ-দ্য-শেল্ফ ডেটাসেটগুলি পূর্বে সংগৃহীত এবং সর্বজনীনভাবে বা বাণিজ্যিকভাবে উপলব্ধ ডেটাসেট যা সরাসরি এআই মডেলগুলিকে প্রশিক্ষণ বা মূল্যায়নের জন্য ব্যবহার করা যেতে পারে।
উদ্দেশ্য
উদ্দেশ্য হল ব্যয়বহুল সংগ্রহ ছাড়াই সহজলভ্য তথ্য সরবরাহ করে গবেষণা ও উন্নয়নকে ত্বরান্বিত করা।
গুরুত্ব
- এআই টিমের সময় এবং সম্পদ সাশ্রয় করে।
- প্রজননযোগ্যতা এবং বেঞ্চমার্কিং সক্ষম করে।
- নির্দিষ্ট কিছু কাজের জন্য ডোমেনের নির্দিষ্টতার অভাব থাকতে পারে।
- পক্ষপাত এবং লাইসেন্সিং সীমাবদ্ধতার জন্য পরীক্ষা করা প্রয়োজন।
কিভাবে এটা কাজ করে
- AI টাস্কের সাথে প্রাসঙ্গিক ডেটাসেট সনাক্ত করুন।
- লাইসেন্সিং এবং ব্যবহারের সীমাবদ্ধতা পর্যালোচনা করুন।
- ডেটাসেটটি ডাউনলোড করুন অথবা কিনুন।
- সামঞ্জস্যের জন্য প্রয়োজন অনুযায়ী প্রিপ্রসেস করুন।
- ডেটাসেট ব্যবহার করে মডেলগুলিকে প্রশিক্ষণ দিন বা মূল্যায়ন করুন।
উদাহরণ (বাস্তব জগৎ)
- MNIST: বেঞ্চমার্কিংয়ের জন্য হাতে লেখা অঙ্কের ডেটাসেট।
- ইমেজনেট: কম্পিউটার ভিশনের জন্য বৃহৎ আকারের ডেটাসেট।
- সাধারণ ক্রল: NLP-এর জন্য ওপেন ওয়েব টেক্সট ডেটাসেট।