একটি AI অ্যালগরিদম শুধুমাত্র ততটা ভাল যতটা ডেটা আপনি এটি খাওয়ান।
এটি একটি সাহসী বা একটি অপ্রচলিত বক্তব্য নয়। কয়েক দশক আগে AI অনেক দূরের বলে মনে হতে পারে, কিন্তু কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং তখন থেকে সত্যিই অনেক দূর এগিয়েছে।
কম্পিউটার ভিশন কম্পিউটারগুলিকে লেবেল এবং চিত্রগুলি বুঝতে এবং ব্যাখ্যা করতে সহায়তা করে। আপনি যখন সঠিক ধরনের ছবি ব্যবহার করে আপনার কম্পিউটারকে প্রশিক্ষণ দেন, তখন এটি বিভিন্ন মুখের বৈশিষ্ট্য সনাক্ত করতে, বোঝার এবং সনাক্ত করার ক্ষমতা অর্জন করতে পারে, রোগ সনাক্ত করতে পারে, স্বায়ত্তশাসিত যানবাহন চালাতে পারে এবং বহুমাত্রিক অঙ্গ স্ক্যানিং ব্যবহার করে জীবন বাঁচাতে পারে।
কম্পিউটার ভিশন বাজারে পৌঁছানোর পূর্বাভাস দেওয়া হয়েছে $ 144.46 বিলিয়ন 2028-এর মধ্যে 7.04 বিলিয়ন ডলার থেকে 2020 সালের মধ্যে, 45.64 এবং 2021-এর মধ্যে 2028% CAGR-এ বৃদ্ধি পাচ্ছে।
কম্পিউটার ভিশনের কিছু ব্যবহারের ক্ষেত্রে হল:
- মেডিকেল ইমেজিং
- স্বায়ত্তশাসিত যানবাহন
- ফেসিয়াল এবং অবজেক্ট রিকগনিশন
- ত্রুটি সনাক্তকরণ
- দৃশ্য সনাক্তকরণ
সার্জারির ইমেজ ডেটাসেট আপনি আপনার মেশিন লার্নিংকে খাওয়াচ্ছেন এবং প্রশিক্ষণ দিচ্ছেন এবং কম্পিউটার ভিশনের কাজগুলি আপনার এআই প্রকল্পের সাফল্যের জন্য অত্যন্ত গুরুত্বপূর্ণ। একটি মানের ডেটাসেট পাওয়া বেশ কঠিন। আপনার প্রকল্পের জটিলতার উপর নির্ভর করে, কম্পিউটার ভিশনের উদ্দেশ্যে নির্ভরযোগ্য এবং প্রাসঙ্গিক ডেটাসেট পেতে কয়েক দিন থেকে কয়েক সপ্তাহ সময় লাগতে পারে।
এখানে, আমরা আপনাকে ওপেন-সোর্স ডেটাসেটের একটি পরিসর (আপনার স্বাচ্ছন্দ্যের জন্য শ্রেণীবদ্ধ) প্রদান করি যা আপনি এখনই ব্যবহার করতে পারেন।
কম্পিউটার ভিশন ডেটাসেটের ব্যাপক তালিকা
সাধারণ:
IMAGEnet (লিঙ্ক)
ইমেজনেট একটি বহুল ব্যবহৃত ডেটাসেট, এবং এটি 1.2টি বিভাগে শ্রেণীবদ্ধ একটি বিস্ময়কর 1000 মিলিয়ন ছবি নিয়ে আসে। এই ডেটাসেটটি ওয়ার্ল্ডনেট অনুক্রম অনুসারে সংগঠিত এবং তিনটি ভাগে শ্রেণীবদ্ধ করা হয়েছে - প্রশিক্ষণ ডেটা, চিত্র লেবেল এবং বৈধতা ডেটা।
গতিবিদ্যা 700 (লিঙ্ক)
কাইনেটিক্স 700 হল একটি বিশাল উচ্চ-মানের ডেটাসেট যার 650,000টি বিভিন্ন মানব অ্যাকশন ক্লাসের 700টিরও বেশি ক্লিপ রয়েছে। প্রতিটি ক্লাস অ্যাকশনে প্রায় 700টি ভিডিও ক্লিপ রয়েছে। ডেটাসেটের ক্লিপগুলিতে মানব-বস্তু এবং মানব-মানুষের মিথস্ক্রিয়া রয়েছে, যা ভিডিওতে মানুষের ক্রিয়াগুলি সনাক্ত করার সময় বেশ সহায়ক বলে প্রমাণিত হচ্ছে।
সিআইএফএআর -10 (লিঙ্ক)
CIFAR 10 হল সবচেয়ে বড় কম্পিউটার-ভিশন ডেটাসেটগুলির মধ্যে একটি যা 60000 32 x 32 রঙের চিত্রগুলিকে দশটি ভিন্ন শ্রেণীর প্রতিনিধিত্ব করে। প্রতিটি ক্লাসে কম্পিউটার ভিশন অ্যালগরিদম এবং মেশিন লার্নিং প্রশিক্ষণের জন্য ব্যবহৃত প্রায় 6000টি চিত্র রয়েছে।
মুখের স্বীকৃতি:
লেবেলযুক্ত ফেস ইন দ্য ওয়াইল্ড (লিঙ্ক)
লেবেলযুক্ত ফেসড ইন দ্য ওয়াইল্ড হল একটি বিশাল ডেটাসেট যেখানে ইন্টারনেট থেকে সনাক্ত করা প্রায় 13,230 জনের 5,750টিরও বেশি ছবি রয়েছে৷ মুখের এই ডেটাসেটটি সীমাবদ্ধ মুখ সনাক্তকরণ অধ্যয়ন করা সহজ করার জন্য ডিজাইন করা হয়েছে৷
CASIA ওয়েবফেস (লিঙ্ক)
CASIA ওয়েব ফেস হল একটি সু-পরিকল্পিত ডেটাসেট যা মেশিন লার্নিং এবং সীমাহীন মুখের স্বীকৃতির উপর বৈজ্ঞানিক গবেষণায় সাহায্য করে। প্রায় 494,000টি আসল পরিচয়ের 10,000 টিরও বেশি চিত্র সহ, এটি মুখ শনাক্তকরণ এবং যাচাইকরণ কাজের জন্য আদর্শ।
UMD ফেস ডেটাসেট (লিঙ্ক)
UMD একটি ভাল-টীকাযুক্ত ডেটাসেটের মুখোমুখি হয় যাতে দুটি অংশ রয়েছে - স্থির চিত্র এবং ভিডিও ফ্রেম। ডেটাসেটে 367,800টিরও বেশি মুখের টীকা এবং 3.7 মিলিয়ন বিষয়ের টীকাযুক্ত ভিডিও ফ্রেম রয়েছে।
হাতের লেখা চেনা:
MNIST ডাটাবেস (লিঙ্ক)
MNIST হল একটি ডাটাবেস যেখানে 0 থেকে 9 পর্যন্ত হাতে লেখা অঙ্কের নমুনা রয়েছে এবং এতে 60,000 এবং 10,000টি প্রশিক্ষণ এবং পরীক্ষার ছবি রয়েছে। 1999 সালে প্রকাশিত, MNIST ডিপ লার্নিং-এ ইমেজ প্রসেসিং সিস্টেম পরীক্ষা করা সহজ করে তোলে।
কৃত্রিম অক্ষর ডেটাসেট (লিঙ্ক)
কৃত্রিম অক্ষর ডেটাসেট হল, নাম অনুসারে, কৃত্রিমভাবে তৈরি করা ডেটা যা দশটি বড় অক্ষরে ইংরেজি ভাষার গঠন বর্ণনা করে। এটি 6000 টিরও বেশি চিত্রের সাথে আসে।
বস্তু সনাক্তকরণ:
এমএস কোকো (লিঙ্ক)
MS COCO বা Common Objects in Context হল একটি অবজেক্ট ডিটেকশন এবং ক্যাপশনিং ডেটাসেট।
এটিতে কীপয়েন্ট সনাক্তকরণ, মাল্টি-অবজেক্ট সনাক্তকরণ, ক্যাপশনিং এবং সেগমেন্টেশন মাস্ক টীকা সহ 328,000টিরও বেশি চিত্র রয়েছে। এটি 80টি অবজেক্ট ক্যাটাগরি এবং প্রতি ছবিতে পাঁচটি ক্যাপশন সহ আসে।
LSUN(লিঙ্ক)
LSUN, বড় আকারের দৃশ্য বোঝার জন্য সংক্ষিপ্ত, 20টি বস্তু এবং 10টি দৃশ্য বিভাগে এক মিলিয়নেরও বেশি লেবেলযুক্ত চিত্র রয়েছে৷ কিছু বিভাগে 300,000 এর কাছাকাছি চিত্র রয়েছে, 300টি ছবি বিশেষভাবে যাচাইকরণের জন্য এবং 1000টি পরীক্ষার ডেটার জন্য।
হোম অবজেক্ট(লিঙ্ক)
হোম অবজেক্ট ডেটাসেটে বাড়ির আশেপাশের এলোমেলো বস্তুর টীকাযুক্ত ছবি রয়েছে - রান্নাঘর, বসার ঘর এবং বাথরুম। এই ডেটাসেটে কয়েকটি টীকাযুক্ত ভিডিও এবং 398টি অব্যক্ত ফটো রয়েছে যা পরীক্ষার জন্য ডিজাইন করা হয়েছে৷
স্বয়ংচালিত:
সিটিস্কেপ ডেটাসেট (লিঙ্ক)
সিটিস্কেপ হল এমন ডেটাসেট যেখানে যেতে হয় যখন বিভিন্ন সাইটের রাস্তার দৃশ্য থেকে রেকর্ড করা বিভিন্ন ভিডিও সিকোয়েন্স খুঁজতে হয়। এই চিত্রগুলি দীর্ঘ সময় ধরে এবং বিভিন্ন আবহাওয়া এবং আলোর পরিস্থিতিতে ধারণ করা হয়েছিল। টীকাগুলি আটটি ভিন্ন বিভাগে বিভক্ত 30 শ্রেণীর চিত্রগুলির জন্য।
বার্কলে ডিপ ড্রাইভ (লিঙ্ক)
বার্কলে ডিপড্রাইভ বিশেষভাবে স্বায়ত্তশাসিত যানবাহন প্রশিক্ষণের জন্য ডিজাইন করা হয়েছে এবং এতে 100 হাজারের বেশি টীকাযুক্ত ভিডিও সিকোয়েন্স রয়েছে। পরিবর্তনশীল রাস্তা এবং ড্রাইভিং অবস্থার দ্বারা স্বায়ত্তশাসিত যানবাহনের জন্য এটি সবচেয়ে সহায়ক প্রশিক্ষণ ডেটাগুলির মধ্যে একটি।
ম্যাপিলারি (লিঙ্ক)
ম্যাপিলারিতে বিশ্বব্যাপী 750 মিলিয়নেরও বেশি রাস্তার দৃশ্য এবং ট্র্যাফিক লক্ষণ রয়েছে, যা মেশিন লার্নিং এবং এআই অ্যালগরিদমগুলিতে ভিজ্যুয়াল উপলব্ধি মডেল প্রশিক্ষণের জন্য অত্যন্ত কার্যকর। এটি আপনাকে স্বায়ত্তশাসিত যানবাহন বিকাশ করতে দেয় যা বিভিন্ন আলো এবং আবহাওয়ার পরিস্থিতি এবং দৃষ্টিভঙ্গি পূরণ করে।
মেডিকেল ইমেজিং:
Covid-19 ওপেন রিসার্চ ডেটাসেট (লিঙ্ক)
এই আসল ডেটাসেটে AP/PA বুকের এক্স-রে সম্পর্কে প্রায় 6500 পিক্সেল-পলিগোনাল ফুসফুসের বিভাজন রয়েছে। উপরন্তু, নাম, অবস্থান, ভর্তির বিশদ বিবরণ, ফলাফল এবং আরও অনেক কিছু সম্বলিত ট্যাগ সহ Covid-517 রোগীর এক্স-রেগুলির 19 টি ছবি পাওয়া যায়।
100,000 বুকের এক্স-রে এর NIH ডাটাবেস (লিঙ্ক)
NIH ডাটাবেস হল 100,000 বুকের এক্স-রে ছবি এবং বৈজ্ঞানিক ও গবেষণা সম্প্রদায়ের জন্য উপযোগী সম্পর্কিত ডেটা সহ সর্বজনীনভাবে উপলব্ধ সবচেয়ে ব্যাপক ডেটাসেটগুলির মধ্যে একটি। এমনকি এটিতে ফুসফুসের উন্নত অবস্থার রোগীদের চিত্রও রয়েছে।
ডিজিটাল প্যাথলজির অ্যাটলাস (লিঙ্ক)
ডিজিটাল প্যাথলজির অ্যাটলাস বিভিন্ন অঙ্গের প্রায় 17,000 টি টীকাযুক্ত স্লাইড থেকে বিভিন্ন হিস্টোপ্যাথলজিকাল প্যাচ চিত্র অফার করে, মোট 100টিরও বেশি। এই ডেটাসেটটি কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশন সফ্টওয়্যার তৈরিতে কার্যকর।
দৃশ্য শনাক্তকরণ:
অন্দর দৃশ্য স্বীকৃতি (লিঙ্ক)
ইন্ডোর সিন রিকগনিশন হল একটি উচ্চ শ্রেণীবদ্ধ ডেটাসেট যার প্রায় 15620টি বস্তুর ছবি এবং ইনডোর সিনারি মেশিন লার্নিং এবং ডেটা প্রশিক্ষণে ব্যবহার করা হবে। এটি 65 টিরও বেশি বিভাগের সাথে আসে এবং প্রতিটি বিভাগে সর্বনিম্ন 100টি চিত্র রয়েছে।
xView (লিঙ্ক)
সেরা পরিচিত সর্বজনীনভাবে উপলব্ধ ডেটাসেটগুলির মধ্যে একটি হিসাবে, xView বিভিন্ন জটিল এবং বৃহৎ দৃশ্য থেকে টীকাযুক্ত ওভারহেড চিত্র ধারণ করে৷ প্রায় 60টি ক্লাস এবং এক মিলিয়নেরও বেশি বস্তুর দৃষ্টান্ত রয়েছে, এই ডেটাসেটের উদ্দেশ্য হল স্যাটেলাইট চিত্র ব্যবহার করে আরও ভাল দুর্যোগ ত্রাণ প্রদান করা।
জায়গা (লিঙ্ক)
স্থানগুলি, এমআইটি দ্বারা অবদানকৃত একটি ডেটাসেট, 1.8টি ভিন্ন দৃশ্যের বিভাগ থেকে 365 মিলিয়নেরও বেশি চিত্র রয়েছে। যাচাইকরণের জন্য এই বিভাগে প্রায় 50টি চিত্র এবং পরীক্ষার জন্য 900টি চিত্র রয়েছে। দৃশ্য শনাক্তকরণ বা ভিজ্যুয়াল রিকগনিশন কাজগুলি প্রতিষ্ঠা করতে গভীর দৃশ্যের বৈশিষ্ট্যগুলি শেখা সম্ভব।
এনটারটেনমেন্ট:
আইএমডিবি উইকি ডেটাসেট (লিঙ্ক)
IMDB – উইকি হল বয়স, লিঙ্গ এবং নাম সহ পর্যাপ্তভাবে লেবেলযুক্ত মুখগুলির অন্যতম জনপ্রিয় পাবলিক ডাটাবেস। এটিতে সেলিব্রিটিদের প্রায় 20 হাজার মুখ এবং উইকিপিডিয়া থেকে 62 হাজার মুখ রয়েছে।
সেলিব্রিটি মুখ (লিঙ্ক)
Celeb Faces হল সেলিব্রিটিদের 200,000 টীকাযুক্ত ছবি সহ একটি বড় মাপের ডাটাবেস। ছবিগুলি ব্যাকগ্রাউন্ডের আওয়াজ এবং ভঙ্গি বৈচিত্র্যের সাথে আসে, যা কম্পিউটার ভিশন টাস্কে প্রশিক্ষণ পরীক্ষার সেটের জন্য মূল্যবান করে তোলে। মুখের স্বীকৃতি, সম্পাদনা, মুখের অংশ স্থানীয়করণ এবং আরও অনেক কিছুতে উচ্চতর নির্ভুলতা অর্জনের জন্য এটি অত্যন্ত উপকারী।
এখন আপনার কৃত্রিম বুদ্ধিমত্তার যন্ত্রপাতিকে জ্বালানি দেওয়ার জন্য আপনার কাছে ওপেন-সোর্স ইমেজ ডেটাসেটের একটি বিশাল তালিকা রয়েছে। আপনার AI এবং মেশিন লার্নিং মডেলগুলির ফলাফল প্রাথমিকভাবে নির্ভর করে আপনি যে ডেটাসেটগুলিকে ফিড করেন এবং প্রশিক্ষণ দেন তার উপর। আপনি যদি চান যে আপনার AI মডেল সঠিক ভবিষ্যদ্বাণী তুলে ধরুক, তাহলে এর জন্য মানসম্পন্ন ডেটাসেট প্রয়োজন যা একত্রিত, ট্যাগ করা এবং পরিপূর্ণতার জন্য লেবেলযুক্ত। আপনার কম্পিউটার ভিশন সিস্টেমের সাফল্যকে প্রসারিত করতে, আপনাকে অবশ্যই আপনার প্রকল্পের দৃষ্টিভঙ্গির সাথে প্রাসঙ্গিক মানসম্পন্ন চিত্র ডাটাবেস ব্যবহার করতে হবে। আপনি যদি আরও এই ধরনের ডেটাসেট খুঁজছেন এখানে ক্লিক করুন