ডেটাসেট খুলুন
ওপেন সোর্স ডেটাসেটগুলি আবিষ্কার করুন যা আপনাকে ML মডেলগুলিকে প্রশিক্ষণ দিতে যায়৷
AI/ML মডেলের সাথে শুরু করার জন্য ওপেন সোর্স ডেটাসেট
আপনার AI এবং ML মডেলগুলির আউটপুট শুধুমাত্র ততটাই ভাল যে ডেটা আপনি এটিকে প্রশিক্ষণের জন্য ব্যবহার করেন - তাই ডেটা একত্রিতকরণের ক্ষেত্রে আপনি যে নির্ভুলতা প্রয়োগ করেন এবং সেই ডেটার ট্যাগিং এবং সনাক্তকরণ গুরুত্বপূর্ণ!
সুতরাং আপনি যদি একটি নতুন এআই/এমএল উদ্যোগ শুরু করতে চান এবং এখন আপনি দ্রুত উপলব্ধি করছেন যে উচ্চ-মানের প্রশিক্ষণের ডেটা খুঁজে পাওয়া আপনার প্রকল্পের আরও চ্যালেঞ্জিং দিকগুলির মধ্যে একটি হবে কারণ উচ্চ-মানের ডেটাসেটগুলি হল জ্বালানী যা AI/কে ধরে রাখে। এমএল ইঞ্জিন চলছে। আমরা উন্মুক্ত ডেটাসেটের একটি তালিকা সংগ্রহ করেছি যা আপনার ভবিষ্যতের AI/ML মডেলগুলিকে ব্যবহার এবং প্রশিক্ষণের জন্য বিনামূল্যে।
| বিশেষজ্ঞতা | তথ্য টাইপ | ডেটাসেটের নাম | শিল্প / বিভাগ | টীকা/ব্যবহারের ক্ষেত্রে | লিংক |
|---|---|---|---|---|---|
| +NLP | পাঠ | আমাজন পর্যালোচনা | ই-কমার্স | অনুভূতির বিশ্লেষণ | লিংক |
| বিবরণ | ব্যবহারকারী এবং পণ্যের বিবরণ সহ সরল পাঠ্যে গত 35 বছরের 18 মিলিয়ন পর্যালোচনা এবং রেটিংগুলির একটি সেট৷ | ||||
| +NLP | পাঠ | উইকিপিডিয়া লিঙ্ক ডেটা | সাধারণ | লিংক | |
| বিবরণ | উইকিপিডিয়া থেকে ১.৯ বিলিয়ন শব্দ সম্বলিত ৪ মিলিয়নেরও বেশি নিবন্ধ। প্রতিটি নিবন্ধে সংশ্লিষ্ট সত্তার হাইপারলিঙ্ক রয়েছে। | ||||
| +NLP | পাঠ | স্ট্যান্ডফোর্ড সেন্টিমেন্ট ট্রিব্যাঙ্ক | বিনোদন | অনুভূতির বিশ্লেষণ | লিংক |
| বিবরণ | ১০,০০০-এরও বেশি রটেন টমেটোস মুভি রিভিউ বাক্যের জন্য সেন্টিমেন্ট অ্যানোটেশন ডেটাসেট। বাক্যাংশ স্তরে উপলব্ধ - প্রতিটি বাক্য পেন ট্রিব্যাঙ্ক ফর্ম্যাটে পার্স ট্রিগুলিকে বাইনারাইজ করে উপ-বাক্যে পার্স করা হয়। | ||||
| +NLP | পাঠ | টুইটার ইউএস এয়ারলাইন সেন্টিমেন্ট | বিমানসংস্থা | অনুভূতির বিশ্লেষণ | লিংক |
| বিবরণ | ২০১৫ সালে ইউএস এয়ারলাইন্সের টুইটগুলি ইতিবাচক, নিরপেক্ষ এবং নেতিবাচক অনুভূতিতে বিভক্ত হয়েছিল। | ||||
| +CV | ভাবমূর্তি | ইমেজনেট | সাধারণ | লিংক | |
| বিবরণ | বিভিন্ন ফাইল ফরম্যাটে ১৪ মিলিয়নেরও বেশি ছবি সহ ডেটাসেট, যা প্রায় ২১,০০০ সিনসেটে ম্যাপ করা হয়েছে। সিনসেট হল সিনোমাইম যার সাথে সংশ্লিষ্ট সত্তাগুলি একটি চিত্র হিসাবে উপস্থিত থাকে। ১ মিলিয়নেরও বেশি ছবিতে বাউন্ডিং বক্স থাকে এবং ১ মিলিয়নেরও বেশি ছবিতে SIFT বৈশিষ্ট্য থাকে। | ||||
| +CV | ভাবমূর্তি | গুগলের ওপেন ইমেজ | সাধারণ | লিংক | |
| বিবরণ | ImageNet-এর মতো একটি ডেটাসেট যার 600টি বিভাগ রয়েছে। এটি ডেভেলপমেন্ট, ভ্যালিডেশন এবং ট্রেনিং স্প্লিটে উপলব্ধ। কিছু ছবিতে বাউন্ডিং বক্স এবং ভিজ্যুয়াল সম্পর্কও অন্তর্ভুক্ত রয়েছে। | ||||
| +NLP | পাঠ | কর্নেল সিনেমার সংলাপ | বিনোদন | ডায়ালগ | লিংক |
| বিবরণ | চরিত্র এবং সিনেমার মেটাডেটা সহ কাল্পনিক কথোপকথনের একটি সংগ্রহ। প্রতিটি সারি দুটি ব্যক্তির মধ্যে একটি সংলাপ, প্রশ্নোত্তর বিন্যাসে। | ||||
| বিবরণ | এপ্রিল ২০০৭ থেকে অক্টোবর ২০০৭ এর মধ্যে ইয়াহু উত্তর পোর্টাল থেকে প্রশ্নোত্তর সহ একটি প্রশ্নোত্তর ডেটাসেট। | ||||
| +NLP | পাঠ | এমএস মার্কো | সাধারণ | প্রশ্নের উত্তর | লিংক |
| বিবরণ | Bing-এর ওয়েব অনুসন্ধান লগ থেকে টীকা সহ একটি প্রশ্ন-উত্তর ডেটাসেট। প্রতিটি প্রশ্নের মধ্যে ব্যবহারকারীর কাছ থেকে প্রদত্ত একটি উত্তর থাকে, সেইসাথে ওয়েব প্যাসেজগুলিতে উত্তর থাকে। | ||||
| +NLP | পাঠ | প্রাকৃতিক প্রশ্ন ডেটাসেট | সাধারণ | প্রশ্নের উত্তর | লিংক |
| বিবরণ | গুগল কর্তৃক প্রকাশিত, এই ডেটাসেটে উইকিপিডিয়া নিবন্ধগুলি থেকে প্রকৃত ব্যবহারকারীর প্রশ্ন এবং উত্তর রয়েছে। | ||||
| +NLP | পাঠ | ডিবিপিডিয়া | সাধারণ | নলেজ গ্রাফ | লিংক |
| বিবরণ | উইকিপিডিয়ার একটি কাঠামোগত রেন্ডারিং, যেখানে সত্তা এবং সম্পর্কগুলিকে নলেজ গ্রাফ হিসাবে বের করা হয়েছে। | ||||
| +NLP | পাঠ | ইয়াগো | সাধারণ | নলেজ গ্রাফ | লিংক |
| বিবরণ | উইকিপিডিয়া, ওয়ার্ডনেট এবং জিওনেমস থেকে সত্তা এবং সম্পর্ক সম্বলিত একটি জ্ঞান গ্রাফ। | ||||
| +NLP | পাঠ | ফ্রিবেস | সাধারণ | নলেজ গ্রাফ | লিংক |
| বিবরণ | সত্তা এবং সম্পর্ক সমন্বিত একটি ক্রাউড-সোর্সড নলেজ বেস, যা এখন গুগল নলেজ গ্রাফে অন্তর্ভুক্ত করা হয়েছে। | ||||
| +NLP | পাঠ | অনটোনোটস | সাধারণ | শব্দার্থিক ভূমিকা লেবেলিং | লিংক |
| বিবরণ | CoNLL ভাগ করা কাজে ব্যবহৃত সিনট্যাকটিক, শব্দার্থিক এবং ডিসকোর্স-স্তরের টীকা সহ একটি সংগ্রহ। | ||||
| +NLP | পাঠ | সিওএনএলএল ২০০৩ | সাধারণ | নামকরণ সত্তা স্বীকৃতি | লিংক |
| বিবরণ | ব্যক্তি, প্রতিষ্ঠান এবং অবস্থানের মতো নামযুক্ত সত্তার জন্য টীকাযুক্ত একটি ইংরেজি ডেটাসেট। | ||||
| +CV | ভাবমূর্তি | নারিকেল বৃক্ষ | সাধারণ | বস্তু সনাক্তকরণ | লিংক |
| বিবরণ | প্রসঙ্গে সাধারণ বস্তু: বস্তু সনাক্তকরণ, বিভাজন এবং ক্যাপশনের জন্য একটি সমৃদ্ধ টীকাযুক্ত ডেটাসেট। | ||||
| +CV | ভাবমূর্তি | PASCAL VOC | সাধারণ | বস্তু সনাক্তকরণ | লিংক |
| বিবরণ | বস্তু সনাক্তকরণ এবং বিভাজন চ্যালেঞ্জের জন্য একটি মানদণ্ড ডেটাসেট। | ||||
| +CV | ভাবমূর্তি | Cityscapes | স্বায়ত্তশাসিত ড্রাইভিং | শব্দার্থিক সেগমেন্টেশন | লিংক |
| বিবরণ | ৩০টি ক্লাসের জন্য পিক্সেল-স্তরের টীকা সহ নগর দৃশ্য বোঝার জন্য ডেটাসেট। | ||||
| +CV | ভাবমূর্তি | এমএনআইএসটি | সাধারণ | অঙ্ক শ্রেণীবিভাগ | লিংক |
| বিবরণ | ৬০,০০০ প্রশিক্ষণ এবং ২৮x২৮ পিক্সেলের ১০,০০০ পরীক্ষামূলক চিত্র সহ হাতে লেখা সংখ্যার ডেটাসেট। | ||||
| +CV | ভাবমূর্তি | ফ্যাশন-MNIST | খুচরা | ছবির শ্রেণীবিভাগ | লিংক |
| বিবরণ | MNIST-এর মতো একই ফর্ম্যাটে Zalando-এর নিবন্ধের চিত্রগুলির ডেটাসেট, যা বেঞ্চমার্কিংয়ের জন্য ড্রপ-ইন প্রতিস্থাপন হিসাবে ব্যবহৃত হয়। | ||||
| +NLP | Audio | লিব্রি স্পিচ | সাধারণ | ASR | লিংক |
| বিবরণ | অডিওবুক থেকে প্রাপ্ত পঠিত ইংরেজি বক্তৃতার একটি সংগ্রহ, যেখানে ১০০০ ঘন্টার বক্তৃতা এবং সংশ্লিষ্ট লেখা রয়েছে। | ||||
| +NLP | Audio | TED-LIUM | সাধারণ | ASR | লিংক |
| বিবরণ | বক্তৃতা স্বীকৃতি গবেষণার জন্য অডিও এবং সারিবদ্ধ ট্রান্সক্রিপশন সহ ট্রান্সক্রাইব করা TED আলোচনা। | ||||
| +NLP | Audio | টিআইএমআইটি | সাধারণ | ফোনেম স্বীকৃতি | লিংক |
| বিবরণ | আমেরিকান ইংরেজি ভাষাভাষীদের ধ্বনিগতভাবে প্রতিলিপিকৃত বক্তৃতা, যা ধ্বনি শনাক্তকরণের কাজে ব্যাপকভাবে ব্যবহৃত হয়। | ||||
| +NLP | Audio | সাধারণ কণ্ঠস্বর | সাধারণ | ASR | লিংক |
| বিবরণ | বিশ্বজুড়ে স্বেচ্ছাসেবকদের দ্বারা প্রদত্ত বহুভাষিক পঠিত বক্তৃতার সংগ্রহ। | ||||
| +NLP | Audio | ভক্সসেলেব | সাধারণ | স্পিকার স্বীকৃতি | লিংক |
| বিবরণ | ইউটিউব ভিডিও থেকে সংগৃহীত একটি বৃহৎ-স্কেল স্পিকার শনাক্তকরণ ডেটাসেট। | ||||
| +NLP | পাঠ | উইকিপিডিয়া ডাম্প | সাধারণ | ভাষা মডেলিং | লিংক |
| বিবরণ | উইকিপিডিয়া নিবন্ধের পূর্ণাঙ্গ টেক্সট ডাম্প, নিয়মিত আপডেট করা হয়, যা ভাষা মডেলগুলিকে প্রাক-প্রশিক্ষণের জন্য ব্যবহৃত হয়। | ||||
| +NLP | পাঠ | গিগাওয়ার্ড | খবর | ভাষা মডেলিং | লিংক |
| বিবরণ | একাধিক সংবাদ সংস্থার নিউজওয়্যার টেক্সট ডেটার একটি বিস্তৃত সংরক্ষণাগার। | ||||
| +NLP | পাঠ | IMDB পর্যালোচনা | বিনোদন | অনুভূতির বিশ্লেষণ | লিংক |
| বিবরণ | বাইনারি সেন্টিমেন্ট শ্রেণীবিভাগের জন্য বৃহৎ চলচ্চিত্র পর্যালোচনা ডেটাসেট। | ||||
| +CV | ভিডিও | গতিবিদ্যা-700 | সাধারণ | অ্যাকশন রিকগনিশন | লিংক |
| বিবরণ | ৭০০টি মানবিক কর্ম শ্রেণীর ইউটিউব ভিডিও ক্লিপগুলির একটি বৃহৎ, উচ্চ-মানের ডেটাসেট। | ||||
| +CV | ভিডিও | ইউসিএফ101 | সাধারণ | অ্যাকশন রিকগনিশন | লিংক |
| বিবরণ | ১০১টি অ্যাকশন বিভাগ সহ বাস্তবসম্মত অ্যাকশন ভিডিওগুলির একটি ডেটাসেট। | ||||
| +CV | ভিডিও | এইচএমডিবি৫১ | সাধারণ | অ্যাকশন রিকগনিশন | লিংক |
| বিবরণ | ৫১টি অ্যাকশন বিভাগ সহ একটি বৃহৎ মানবিক গতির ভিডিও ডাটাবেস। | ||||
| বিবরণ | মুখের ছবিগুলির একটি ডাটাবেস যা অবাধ মুখ শনাক্তকরণ অধ্যয়নের জন্য ডিজাইন করা হয়েছে। | ||||
| +CV | ভাবমূর্তি | CASIA-ওয়েবফেস | সাধারণ | মুখ স্বীকৃতি | লিংক |
| বিবরণ | গভীর মুখ শনাক্তকরণ মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য লক্ষ লক্ষ মুখের ছবি সহ একটি ডেটাসেট। | ||||
| +NLP | পাঠ | স্কোয়াড | সাধারণ | বোঝার পড়া | লিংক |
| বিবরণ | স্ট্যানফোর্ড প্রশ্নোত্তর ডেটাসেট: উইকিপিডিয়া নিবন্ধের একটি সেটে ভিড়কর্মীদের দ্বারা উত্থাপিত প্রশ্ন। | ||||
| বিবরণ | সিএনএন সংবাদ নিবন্ধের উপর ভিত্তি করে প্রশ্নোত্তর সহ একটি মেশিন বোধগম্য ডেটাসেট। | ||||
| +NLP | পাঠ | মাল্টিএনএলআই | সাধারণ | ন্যাচারাল ল্যাঙ্গুয়েজ ইনফারেন্স | লিংক |
| বিবরণ | একাধিক ধারা জুড়ে বাক্য-জোড়া প্রাকৃতিক ভাষার অনুমানের জন্য একটি ডেটাসেট। | ||||
| +NLP | পাঠ | এসএনএলআই | সাধারণ | ন্যাচারাল ল্যাঙ্গুয়েজ ইনফারেন্স | লিংক |
| বিবরণ | স্ট্যানফোর্ড ন্যাচারাল ল্যাঙ্গুয়েজ ইনফারেন্স কর্পাস যেখানে বাক্য জোড়াকে এনটেলমেন্ট, কনট্রাডিকশন, অথবা নিউট্রাল হিসেবে লেবেল করা হয়েছে। | ||||
| বিবরণ | উইকিপিডিয়ায় যাচাইকৃত ভালো এবং বৈশিষ্ট্যযুক্ত নিবন্ধের সেট থেকে নেওয়া ১০ কোটিরও বেশি টোকেনের একটি সংগ্রহ। | ||||
| বিবরণ | ১৯৬টি শ্রেণীর গাড়ির ১৬,১৮৫টি ছবির একটি ডেটাসেট। | ||||
| +CV | ভাবমূর্তি | অক্সফোর্ড ফুল ১০২ | উদ্ভিদ্তত্ব | সূক্ষ্ম শ্রেণীবিভাগ | লিংক |
| বিবরণ | যুক্তরাজ্যে সাধারণত দেখা যায় এমন ১০২টি ফুলের বিভাগ। | ||||
| +CV | ভাবমূর্তি | সিআইএফএআর -10 | সাধারণ | ছবির শ্রেণীবিভাগ | লিংক |
| বিবরণ | ১০টি শ্রেণীর ছবি: বিমান, অটোমোবাইল, পাখি, বিড়াল, হরিণ, কুকুর, ব্যাঙ, ঘোড়া, জাহাজ এবং ট্রাক। | ||||
| +CV | ভাবমূর্তি | সিআইএফএআর -100 | সাধারণ | ছবির শ্রেণীবিভাগ | লিংক |
| বিবরণ | CIFAR-10 এর অনুরূপ একটি ডেটাসেট, কিন্তু 100টি সূক্ষ্ম শ্রেণী সহ। | ||||
| +CV | ভাবমূর্তি | ভিওসি ব্যক্তি বিন্যাস | সাধারণ | ভঙ্গি অনুমান | লিংক |
| বিবরণ | PASCAL VOC-এর অংশ হিসেবে মাথা, হাত এবং পায়ের মতো ব্যক্তির লেআউট টীকাগুলির উপর আলোকপাত করা হয়। | ||||
| +CV | ভাবমূর্তি | MPII মানব ভঙ্গি | সাধারণ | ভঙ্গি অনুমান | লিংক |
| বিবরণ | প্রায় ২৫,০০০টি ছবি যেখানে ৪০,০০০ জনেরও বেশি মানুষের শরীরের জয়েন্টগুলোতে টীকা লেখা আছে। | ||||
| বিবরণ | পাঠ্য শ্রেণীকরণ গবেষণার জন্য রয়টার্স নিউজওয়্যারের নিবন্ধগুলির সংগ্রহ। | ||||
| +NLP | পাঠ | 20টি সংবাদ গোষ্ঠী | সাধারণ | পাঠ্য শ্রেণিবিন্যাস | লিংক |
| বিবরণ | ২০,০০০ নিউজগ্রুপ ডকুমেন্টের একটি সংগ্রহ যা ২০টি ভিন্ন নিউজগ্রুপে বিভক্ত। | ||||