অপ্রচলিত মুখের ছবি এবং ভিডিও ডেটা লাইসেন্সিং
এআই মডেল প্রশিক্ষণের জন্য অফ-দ্য-শেল্ফ ফেসিয়াল রিকগনিশন ডেটাসেট
একটি শীর্ষস্থানীয় বিশ্বব্যাপী প্রযুক্তি সমষ্টির জন্য AI মডেল প্রশিক্ষণ ত্বরান্বিত করতে এবং পক্ষপাত কমাতে নীতিগতভাবে উৎস থেকে প্রাপ্ত, জনসংখ্যার দিক থেকে বৈচিত্র্যময় ডেটাসেটগুলিকে কাজে লাগানো।
প্রজেক্ট সারসংক্ষেপ
ক্লায়েন্ট দ্রুততর করতে চেয়েছিলেন এআই-চালিত মুখের স্বীকৃতির উন্নয়ন দীর্ঘ, ব্যয়বহুল তথ্য সংগ্রহের চক্র ছাড়াই। এটি অর্জনের জন্য, তাদের প্রয়োজন ছিল ব্যবহারের জন্য প্রস্তুত ডেটাসেট যেগুলো শুধু ছিল না বৃহৎ এবং বৈচিত্র্যময়কিন্তু এছাড়াও নীতিগতভাবে উৎস থেকে প্রাপ্ত এবং বিশ্বব্যাপী ডেটা গোপনীয়তা বিধিমালার সাথে সঙ্গতিপূর্ণ.
শাইপ আলো, মাথার ভঙ্গি, অবরোধ এবং আবেগের নিয়ন্ত্রিত বৈচিত্র্য সহ ব্যাপক ডেটাসেট সরবরাহ করেছে, যা ক্লায়েন্টের মডেলগুলিকে প্রয়োজনীয় জাতিগত এবং জনসংখ্যাগত মানদণ্ড পূরণের সময় নির্ভুলতা এবং ন্যায্যতা উভয়ই অর্জন করতে সক্ষম করেছে। প্রতিটি ডেটাসেটে বিশদ মেটাডেটা, ভঙ্গি টীকা এবং আবেগ স্বীকৃতির জন্য বাউন্ডিং বাক্স অন্তর্ভুক্ত ছিল, যা মডেলগুলিকে অত্যন্ত বৈচিত্র্যময়, বাস্তব-বিশ্বের পরিস্থিতিতে প্রশিক্ষণ এবং পরীক্ষা করার অনুমতি দেয়।
মূল পরিসংখ্যান
7,000+ বিষয়
ঐতিহাসিক ডেটাসেটে ৩০০,০০০+ ছবি এবং ২০০০ ভিডিও সহ।
10,000+ বিষয়
মাল্টি-অ্যাঙ্গেল ইমোশন ডেটাসেটে।
74,880 চিত্র
আলোতে
ভেরিয়েশন ডেটাসেট।
18,600 চিত্র
ছয়টি কভার করে
মূল আবেগ।
প্রকল্পের সুযোগ
ক্লায়েন্টের প্রয়োজন ছিল বৃহৎ পরিসরে, নীতিগতভাবে উৎসারিত, এবং জনসংখ্যার দিক থেকে বৈচিত্র্যময় মুখের ছবি এবং ভিডিও ডেটাসেট মুখের স্বীকৃতি মডেলগুলির উন্নয়ন এবং প্রশিক্ষণে সহায়তা করার জন্য। এই ডেটাসেটগুলি বিদ্যুৎ ব্যবহারের ক্ষেত্রে অপরিহার্য ছিল অ্যান্টি-স্পুফিং, পরিচয় যাচাইকরণ, চিত্র মিল এবং অভিব্যক্তি বিশ্লেষণ সিস্টেম, বাস্তব-বিশ্বের অ্যাপ্লিকেশনগুলিতে শক্তিশালী এবং নিরপেক্ষ AI কর্মক্ষমতা নিশ্চিত করা।
এই সম্পৃক্ততার পরিধির মধ্যে ছিল:
- রক্ষা কিউরেটেড ডেটাসেট অ্যান্টি-স্পুফিং, পরিচয় যাচাইকরণ এবং অভিব্যক্তি স্বীকৃতির মতো মুখের স্বীকৃতি ব্যবহারের ক্ষেত্রে এটি তৈরি করা হয়েছে।
- প্রদান বিস্তারিত টীকা সহ ছবি এবং ভিডিও জনসংখ্যাতাত্ত্বিক তথ্য, মাথার ভঙ্গি, অবরোধ, আলোর ধরণ এবং আবেগের জন্য।
- সুনিশ্চিত সুষম জনসংখ্যার আওতা প্রশিক্ষণে পদ্ধতিগত পক্ষপাত কমাতে।
- গ্যারান্টি সম্মতি এবং সম্মতি বিশ্বব্যাপী তথ্য সুরক্ষা এবং গোপনীয়তার মানদণ্ডের সাথে।
নমুনা ডেটাসেট অবদান:
- ঐতিহাসিক ডেটাসেট (~৭,০০০ বিষয়): ৩০০,০০০+ ছবি এবং ২,০০০ ভিডিও, ভঙ্গি এবং অক্লুশনের বৈচিত্র্য সহ।
- মাল্টি-অ্যাঙ্গেল ইমোশন ডেটাসেট (~১০,০০০ বিষয়): কোণ এবং মানসিক অবস্থা জুড়ে প্রতি বিষয়ের জন্য ১৫-২০টি ছবি।
- ছয় আবেগ ডেটাসেট (~৩,১০০ জন): ১৮,৬০০টি টীকাযুক্ত ছবি যা মূল মানবিক অভিব্যক্তিগুলিকে অন্তর্ভুক্ত করে।
- আলোর পরিবর্তন ডেটাসেট (~৪৬৮ জন): নয়টি আলোক পরিস্থিতিতে ৭৪,৮৮০টি ছবি।
চ্যালেঞ্জ
এই প্রকল্পটি শক্তিশালী এআই মডেল তৈরির ক্ষেত্রে সাধারণ চ্যালেঞ্জগুলি মোকাবেলা করেছে:
এআই মডেলগুলিতে পক্ষপাত
ন্যায্যতা নিশ্চিত করার জন্য নির্দিষ্ট জাতি বা লিঙ্গের অতিরিক্ত প্রতিনিধিত্ব রোধ করা।
বাস্তব-বিশ্ব পরিবর্তনশীলতা
আলোর অবস্থা, মুখের কোণ, বাধা এবং প্রাকৃতিক অভিব্যক্তি ধারণ করা।
স্কেল এবং গুণমান
বৈচিত্র্যের সাথে আপস না করে লক্ষ লক্ষ উচ্চ-রেজোলিউশনের ছবি সরবরাহ করা।
রেগুলেটরি সম্মতি
অংশগ্রহণকারীদের পূর্ণ সম্মতিতে কঠোর বিশ্বব্যাপী গোপনীয়তা এবং ডেটা সুরক্ষার প্রয়োজনীয়তা পূরণ করা।
সমাধান
শাইপ একটি বাস্তবায়ন করেছে কাঠামোগত পদ্ধতি ডেটাসেটের মান এবং প্রাসঙ্গিকতা নিশ্চিত করতে:
- কিউরেটেড ব্যালেন্সড ডেটাসেট বিস্তৃত জাতিগত, লিঙ্গগত এবং বয়সভিত্তিক প্রতিনিধিত্ব সহ।
- আধৃত বহু-কোণ ভঙ্গি এবং আলোর বৈচিত্র্য বাস্তব-বিশ্বের পরিস্থিতির প্রতিলিপি তৈরি করতে।
- যোগ করা বিস্তারিত টীকা (যেমন, মাথার ভঙ্গি, অবরোধ, আবেগ) ডেটাসেটের ব্যবহারযোগ্যতা বৃদ্ধি করতে।
- কঠোরভাবে প্রতিষ্ঠিত মান নিয়ন্ত্রণ এবং সম্মতি কর্মপ্রবাহ নীতিগত উৎস এবং গোপনীয়তা আনুগত্য নিশ্চিত করতে।
ডেটাসেট পোর্টফোলিও
| ডেটা সেটটি | আয়তন | জনসংখ্যা / বৈচিত্র্য | মান / স্পেসিফিকেশন |
|---|---|---|---|
| ঐতিহাসিক মুখের ছবি এবং ভিডিও ডেটাসেট (~৭,০০০ বিষয়) | ৭,০০০টি তালিকাভুক্তির ছবি; ৩০০,০০০+ ঐতিহাসিক ছবি; ২০০০টি ভিডিও (প্রতি ১,০০০ জন ব্যক্তির জন্য ১টি অভ্যন্তরীণ + ১টি বহিরঙ্গন) | জাতিগত: কৃষ্ণাঙ্গ (৩৫%), পূর্ব এশীয় (৪২%), দক্ষিণ এশীয় (১৩%), শ্বেতাঙ্গ (১০%); লিঙ্গ: ৫০% পুরুষ / ৫০% মহিলা; বয়স: প্রাপ্তবয়স্ক ১৮+ (গত ১০ বছর) | ভিডিওর সময়কাল: ১-২ মিনিট; মাথার ভঙ্গির ভিন্নতা (P1–P7); ৫টি ধরণের অবরোধ (O0–O4) |
| ফেসিয়াল ইমেজ ডেটাসেট (~৫,০০০ জন ব্যক্তি) | প্রতি বিষয়ের জন্য ৩৫টি ছবি; ২,৫০০ জন ভারতীয়; ১,০০০ জন এশিয়ান; ১,৫০০ জন কৃষ্ণাঙ্গ | বয়স: ১৮-৬০ বছর; সুষম লিঙ্গ বন্টন | কোনও সৌন্দর্যবর্ধন নেই; বিভিন্ন পটভূমি এবং পোশাক; ন্যূনতম রেজোলিউশন: ৯৬০×১২৮০ |
| মাল্টি-অ্যাঙ্গেল ইমোশন ডেটাসেট (~১০,০০০ বিষয় – চীনা) | প্রতি বিষয়ের জন্য ১৫-২০টি ছবি; ভঙ্গি: সামনে, বাম, ডান (৩০°–৬০°); অভিব্যক্তি: হাসি, খোলা মুখ, দুঃখী, গম্ভীর, নিরপেক্ষ | জাতিগততা: চীনা; বয়স: ১৮-২৬; লিঙ্গ: ৫০/৫০ ভাগ | রেজোলিউশন: ২১৬০×৩৮৪০ পিক্সেল বা তার বেশি |
| ছয়টি মানবিক আবেগ ডেটাসেট (~৩,১০০ জন) | প্রতি বিষয়ের জন্য ৬টি ছবি (বিভিন্ন অভিব্যক্তি); মোট ১৮,৬০০টি ছবি | জাতিগত: জাপানি (৯,০০০), কোরিয়ান (২,৪০০), চীনা (২,৪০০), দক্ষিণ-পূর্ব এশীয় (২,৪০০), দক্ষিণ এশীয় (২,৪০০); বয়স: ২০-৬৫ বছর | আবেগের জন্য বাউন্ডিং বক্স টীকা; সরল পটভূমি; কোনও টুপি, চশমা বা বাধা নেই |
| আলোকসজ্জার বৈচিত্র্য ডেটাসেট (~৪৬৮ জন ভারতীয় বিষয়) | প্রতি বিষয়ের জন্য ১৬০টি ছবি; মোট: ৭৪,৮৮০টি ছবি | বয়স: ২০-৭০; ৭০% পুরুষ | ৯টি আলোকসজ্জার অবস্থা (অভ্যন্তরীণ, বহিরঙ্গন, পার্শ্বীয় আলো, ব্যাকলাইট, নিয়ন, ইত্যাদি) |
| বহু-জাতিগত মুখের ছবির ডেটাসেট (~৬০০ জন ব্যক্তি) | মোট 3,752টি ছবি | জাতিগত: আফ্রিকান, মধ্যপ্রাচ্য, আদি আমেরিকান, দক্ষিণ এশীয়, দক্ষিণ-পূর্ব এশীয়; বয়স: ২০-৭০ বছর | - |
ফলাফল
এই সহযোগিতা উল্লেখযোগ্য ব্যবসায়িক এবং প্রযুক্তিগত প্রভাব ফেলেছে:
- উন্নত মডেল নির্ভুলতা: একাধিক ব্যবহারের ক্ষেত্রে মুখের স্বীকৃতি মডেলগুলির জন্য উন্নত নির্ভুলতা এবং প্রত্যাহার।
- পক্ষপাত হ্রাস: সুষম জনসংখ্যাতাত্ত্বিক প্রতিনিধিত্ব AI আউটপুটে পদ্ধতিগত পক্ষপাত হ্রাস করেছে।
- ত্বরিত উন্নয়ন সময়সীমা: অফ-দ্য-শেল্ফ ডেটাসেটগুলি দীর্ঘ তথ্য সংগ্রহ ছাড়াই দ্রুত প্রোটোটাইপিং এবং মডেল প্রশিক্ষণের সুযোগ করে দেয়।
- রেগুলেটরি সম্মতি: সমস্ত ডেটাসেট বিশ্বব্যাপী গোপনীয়তা মান মেনে চলে এবং অংশগ্রহণকারীদের সম্মতি অন্তর্ভুক্ত করে।
শাইপের বৈচিত্র্যময়, নীতিগতভাবে উৎস থেকে প্রাপ্ত ডেটাসেটগুলি আমাদের প্রয়োজনীয় গতি, গুণমান এবং সম্মতি দিয়েছে। ব্যবহারের জন্য প্রস্তুত ডেটার সাহায্যে, আমরা AI মডেল প্রশিক্ষণকে ত্বরান্বিত করেছি এবং পদ্ধতিগত পক্ষপাত উল্লেখযোগ্যভাবে হ্রাস করেছি।