বয়সের অগ্রগতির বৈচিত্র্য সহ একটি নন-ইইউ/যুক্তরাজ্য ফেসিয়াল ইমেজ ডেটাসেট তৈরি করা
কম্পিউটার ভিশন মডেলের জন্য ন্যায্যতা এবং দৃঢ়তা জোরদার করার জন্য ১,২০৫ জন অংশগ্রহণকারী, সময়-বিভাজিত মুখের চিত্র সংগ্রহ।
প্রজেক্ট সারসংক্ষেপ
নিরাপত্তা, ব্যক্তিগতকরণ এবং পরিচয় অভিজ্ঞতার জন্য মুখ-কেন্দ্রিক AI তৈরি করে এমন একটি বিশ্বব্যাপী প্রযুক্তি কোম্পানি পক্ষপাত কমাতে এবং বয়স, পরিবেশ এবং আনুষাঙ্গিক জুড়ে মডেল স্থিতিস্থাপকতা উন্নত করার জন্য সময়-বিচ্ছিন্ন ছবি সহ একটি নন-ইইউ/ইউকে ডেটাসেট চেয়েছিল।
ক্লায়েন্ট শাইপের সাথে অংশীদারিত্ব করেছে যাতে সংগ্রহ, কিউরেট এবং যাচাইকরণ একটি বৃহৎ মুখের ছবির সংগ্রহ যেখানে প্রতিটি অংশগ্রহণকারী সাম্প্রতিক এবং পুরানো ছবিগুলি জমা দেয়। লক্ষ্য ছিল প্রাকৃতিক বয়সের অগ্রগতি এনকোড করা, একই সাথে কঠোরভাবে অ-ইইউ/যুক্তরাজ্যের উৎপত্তিস্থল প্রয়োগ করা এবং সুষম লিঙ্গ/বয়স কোটা অর্জন করা।
মূল পরিসংখ্যান
অংশগ্রহণকারীরা
১,২০৫ (শুধুমাত্র ইইউ/যুক্তরাজ্যের বাইরে, ৫০/৫০ লিঙ্গ ±১০–১৫%)
বয়সের মিশ্রণ
৪০% (১০-২৯), ৪০% (৩০-৪৯), ২০% (৫০+) ±১০-১৫% সহনশীলতা
কভারেজ
দক্ষিণ/দক্ষিণ-পূর্ব এশিয়া, উত্তর ও উত্তর/পূর্ব আফ্রিকা, সিঙ্গাপুর, দক্ষিণ আমেরিকা
Timeline
19 সপ্তাহ
চ্যালেঞ্জ
ভৌগোলিক সীমাবদ্ধতা
ভ্রমণ-উত্স ইইউ/যুক্তরাজ্যের ছবি এড়িয়ে শুধুমাত্র নন-ইইউ/যুক্তরাজ্য জনসংখ্যা থেকে সংগ্রহ করা।
স্কেলে সুষম কোটা
লিঙ্গ এবং বয়সের উপর কঠোর সহনশীলতা সহ ১,২০৫ জন অংশগ্রহণকারী।
সময় পৃথক প্রমাণ
প্রতিটি পরিচয়পত্রে বয়সের সাথে সামঞ্জস্যপূর্ণ সাম্প্রতিক এবং ঐতিহাসিক উভয় ধরণের ছবি রয়েছে তা নিশ্চিত করা।
কর্মক্ষম মান
থ্রুপুট ধীর না করে ন্যূনতম চিত্র/মুখের আকার, বৈচিত্র্য এবং অনুলিপি সীমা প্রয়োগ করা।
সমাধান
১. কান্ট্রি প্যানেল এবং প্রোভেন্যান্স নিয়ন্ত্রণ
আমরা প্রতিষ্ঠা করেছি দেশীয় পর্যায়ের সোর্সিং পড লক্ষ্য অঞ্চল এবং প্রশিক্ষিত অংশীদারদের মধ্যে উৎপত্তির নিয়ম (শুধুমাত্র ইইউ/যুক্তরাজ্যের বাইরে)। ভ্রমণের ঝুঁকির জন্য ছবিগুলি স্ক্রিন করা হয়েছিল মেটাডেটা সংকেত (বছর, অবস্থান চিহ্নিতকারী) প্লাস সাবমিটার অ্যাটেস্টেশন, QC-এর আগে EU/UK লিকেজ কমানো। এটি ডাউনস্ট্রিম থ্রুপুট রক্ষা করার জন্য Shaip-এর ফ্রন্ট-লোডিং ঝুঁকি পরীক্ষা করার প্রমাণিত অনুশীলনের প্রতিফলন ঘটায়।
2. বয়স অগ্রগতি ক্যাপচার ডিজাইন
"২০টি ছবি চাইতে" এর পরিবর্তে, আমরা একটি ডিজাইন করেছি দুটি ট্র্যাক জমা দেওয়ার প্রবাহ যা অংশগ্রহণকারীদের নির্দেশিত করেছিল:
- ট্র্যাক এ (সাম্প্রতিক): গত দুই বছরের ছবি;
- ট্র্যাক বি (ঐতিহাসিক): জমা দেওয়ার সময় অংশগ্রহণকারীর বয়সসীমার সাথে সামঞ্জস্যপূর্ণ পুরোনো ছবি (যেমন, 2-10/15/20 বছর উইন্ডো)।
পোর্টালটি ব্যবহারকারীদের উদাহরণ (অভ্যন্তরীণ/বহিরঙ্গন, কোণ, আনুষাঙ্গিক) দিয়ে অতিরিক্ত নির্দিষ্ট না করে বৈচিত্র্য আনার জন্য উৎসাহিত করেছে।
৩. বৈচিত্র্য অর্কেস্ট্রেশন এবং কোটা গার্ডেল
A রিয়েল টাইম কোটা ড্যাশবোর্ড দ্বারা তদারকি করা তালিকাভুক্তি লিঙ্গ, বয়সসীমা এবং ভূগোল, একটি স্তর পরিকল্পিত সীমায় পৌঁছানোর পর গ্রহণ বন্ধ করা। এটি দেরিতে চক্র পুনর্নির্মাণকে বাধা দেয় এবং শাইপের আদর্শ পদ্ধতির প্রতিফলন ঘটায় স্তরীভূত তালিকাভুক্তি + লকআউট সুষম প্রতিনিধিত্ব বজায় রাখার জন্য পূর্ববর্তী বায়োমেট্রিক ডেটাসেটে ব্যবহৃত।
৪. কোয়ালিটি পাইপলাইন (হিউম্যান ইন দ্য লুপ + অটোমেটেড প্রি চেক)
- স্বয়ংক্রিয় গেট: মুখ সনাক্তকরণ + ন্যূনতম আকারের থ্রেশহোল্ড, মৌলিক অস্পষ্টতা/শব্দ পরীক্ষা, এবং সম্ভাব্য ডুপ্লিকেটগুলিকে আগে থেকেই চিহ্নিত করার জন্য একই দিনে ক্লাস্টারিং।
- মানুষের QA স্তর: চিত্র স্তরের পর্যালোচকরা যাচাই করেছেন বিষয়ের এক্সক্লুসিভিটি (শুধুমাত্র প্রাথমিক অংশগ্রহণকারী), দৃশ্য/কোণের বৈচিত্র্য, এবং কোনও সৌন্দর্যবর্ধক ফিল্টার নেই; CQA অডিটররা গ্রহণের আগে ব্যাচগুলি পরীক্ষা করে দেখেন। এটি মাল্টি লেয়ার কিউএ শাইপের প্রকাশিত বায়োমেট্রিক ডেটা প্রোগ্রামগুলিকে মিরর করে।
৫. সম্মতি এবং সম্মতি
ভর্তি 20 বছর স্বাক্ষরিত সম্মতি সহ; ২০ টিরও কম ক্ষেত্রে শুধুমাত্র অভিভাবকের সম্মতিতে গৃহীত হয়। আমরা মেটাডেটাতে সম্মতির উপস্থিতি ক্যাপচার করেছি এবং পর্যালোচকদের চেকলিস্টগুলিকে সারিবদ্ধ করেছি যোগ্যতা + সম্মতি ক্ষেত্র, নিরীক্ষণযোগ্যতা নিশ্চিত করা।
৬. মেটাডেটা এবং ট্রেসেবিলিটি
আমরা বিতরণ করেছি অংশগ্রহণকারী এবং চিত্র স্তরের মেটাডেটা (পরিচয়পত্রের সংযোগ, জনসংখ্যা, জাতীয়তা/বাসস্থান, ছবির বছর, জমা দেওয়ার তারিখ, ইত্যাদি) এবং সরলীকরণের জন্য মানসম্মত ক্ষেত্রের নাম ডাউনস্ট্রিম লেবেলিং এবং মূল্যায়ন। এটি শাইপের সেরা অনুশীলন অনুসরণ করে রিচ মেটাডেটা ট্যাগিং বায়োমেট্রিক ডেটাসেটের জন্য।
৭. ডি-রিস্ক স্কেলে পর্যায়ক্রমে ডেলিভারি
An ৮টি ব্যাচের পরিকল্পনা একটি দিয়ে শুরু ১০ জন অংশগ্রহণকারীর ক্রমাঙ্কন সেট, তারপর নিয়ন্ত্রিত স্কেল আপ। ব্যাচ ১-এর পরে ক্লায়েন্টের প্রতিক্রিয়া রুব্রিক পরিবর্তনগুলিকে অবহিত করে, তারপর ভলিউমগুলি পূর্বাভাসযোগ্য পর্যায়ে বৃদ্ধি করে পৌঁছায় 1,205 অংশগ্রহণকারী প্রায় ১৯ সপ্তাহের মধ্যে।
প্রকল্পের সুযোগ
| মাত্রা | আমরা যা বিতরণ করেছি |
|---|---|
| জনসংখ্যা | ১,২০৫ জন নন-ইইউ/যুক্তরাজ্য অংশগ্রহণকারী, যাদের লিঙ্গ এবং বয়সের ভারসাম্য রয়েছে। |
| সন্তুষ্ট | প্রতি অংশগ্রহণকারীর জন্য ≥২০ টি ছবি: সাম্প্রতিক + বয়সের অগ্রগতি এনকোড করার জন্য ঐতিহাসিক; বিভিন্ন দৃশ্য, কোণ এবং আনুষাঙ্গিক। |
| কোয়ালিটি অপারেশনস | স্বয়ংক্রিয় প্রাক-পরীক্ষা + মানব মাল্টি-লেয়ার QA (ডুপ্লিকেশন নিয়ন্ত্রণ; বিষয় এক্সক্লুসিভিটি; ফিল্টার প্রত্যাখ্যান)। |
| সম্মতি | ইইউ/যুক্তরাজ্যের বাইরের উৎস যাচাইকরণ; সম্মতি পরিচালনা এবং যোগ্যতা যাচাইকরণ। |
| মেটাডাটা | ট্রেসেবিলিটি এবং ডাউনস্ট্রিম এমএল মূল্যায়নের জন্য অংশগ্রহণকারী + চিত্রের বৈশিষ্ট্য। |
| বিলি | ৮টি পর্যায়ক্রমে ব্যাচ, ক্রমাঙ্কন দিয়ে শুরু করে তারপর চূড়ান্ত লক্ষ্যে স্থির অবস্থায় ডেলিভারি। |
ফলাফল
- সুষম, নিরীক্ষার জন্য প্রস্তুত কর্পাস: সহনশীলতার মধ্যে জনসংখ্যাগত কোটা পূরণ করা হয়েছে; সঙ্গতিপূর্ণ প্রশিক্ষণের জন্য সমস্ত চিত্র জুড়ে অ-ইইউ/যুক্তরাজ্যের উৎপত্তি প্রয়োগ করা হয়েছে।
- মডেল প্রস্তুত পরিবর্তনশীলতা: সময় বিভাজিত ছবি, বিভিন্ন পরিবেশ/কোণ এবং আনুষঙ্গিক কভারেজ দৃঢ়তা পরীক্ষা এবং পক্ষপাত বিশ্লেষণকে সমর্থন করে।
- কর্মক্ষম পূর্বাভাসযোগ্যতা: প্রথম রোলআউটের জন্য ক্যালিব্রেশন + কোটা গার্ডেল পুনর্নির্মাণ কমিয়েছে এবং সম্পূর্ণ ১,২০৫ জন অংশগ্রহণকারীর লক্ষ্যমাত্রায় সুরক্ষিত সময়সীমা তৈরি করেছে।
- নিম্নগামী দক্ষতা: সমৃদ্ধ মেটাডেটা এবং সামঞ্জস্যপূর্ণ ফাইল হাইজিন শাইপের বায়োমেট্রিক ডেটাসেট প্লেবুক অনুসরণ করে টীকা এবং বেঞ্চমার্ক নির্মাণের পথকে সংক্ষিপ্ত করেছে।
শাইপ একটি জটিল নন-ইইউ/ইউকে ফেসিয়াল ডেটাসেট ব্রিফকে একটি সুষম, অডিট-প্রস্তুত কর্পাসে পরিণত করেছে। তাদের বয়সের অগ্রগতির নকশা এবং স্তরযুক্ত QA আমাদের সিভি টিমকে পরিষ্কার, বৈচিত্র্যময় ডেটা দিয়েছে যা আমরা বিশ্বাস করতে পারি - সময়সূচী ঝুঁকি ছাড়াই।