ইগোসেন্ট্রিক ডেটাসেট হলো মাথা, বুক বা কব্জিতে লাগানো ক্যামেরা থেকে ধারণ করা ফার্স্ট-পার্সন ভিডিও এবং সেন্সর রেকর্ডিংয়ের একটি সুসংগঠিত সংগ্রহ, যা মানুষ কীভাবে দেখে, নড়াচড়া করে এবং আচরণ করে, সে বিষয়ে রোবটিক্স ও এমবডিড এআই সিস্টেমকে প্রশিক্ষণ দিতে ব্যবহৃত হয়। একটি রোবট পরিচালনার সময় তার অনবোর্ড ক্যামেরা যা দেখে, তার সাথে এটিই সবচেয়ে বেশি সাদৃশ্যপূর্ণ, আর একারণেই এটি ভিশন-ল্যাঙ্গুয়েজ-অ্যাকশন (VLA) মডেল প্রশিক্ষণের ভিত্তি হয়ে উঠেছে।
শুধুমাত্র ল্যাবের ফুটেজের ওপর প্রশিক্ষণপ্রাপ্ত একটি রোবট প্রায়শই ল্যাব ছাড়ার প্রথম দিনেই বিধ্বস্ত হয়। এর কারণ খুব কমই মডেলটি হয়। আসল কারণ হলো ডেটা।
বেশিরভাগ প্রশিক্ষণ ভিডিও ট্রাইপড বা সিলিং ক্যামেরা থেকে ধারণ করা হয়। এই ধরনের ফুটেজে ঘরটি দেখা যায়, কিন্তু কাজটি দেখা যায় না। হাতটি দেখা যায় না। বস্তুটি দেখা যায় না। এমনকি একটি রোবট যখন বাস্তবে একটি কাপ তোলে বা একটি ড্রয়ার খোলে, তখন তার অনবোর্ড ক্যামেরা যে সঠিক কোণ থেকে দেখবে, সেটিও দেখা যায় না। এই শূন্যস্থানটি পূরণ করার জন্যই একটি ইগোসেন্ট্রিক ডেটাসেট তৈরি করা হয়।
এই নির্দেশিকায় আলোচনা করা হয়েছে যে, ইগোসেন্ট্রিক ডেটাসেট কী, কেন ফার্স্ট-পার্সন ডেটা আধুনিক রোবোটিক্স এবং এমবডিড এআই-এর ভিত্তি হয়ে উঠেছে, ভালো ডেটা আসলে কেমন দেখতে হয়, এবং একটি ডেটাসেটের লাইসেন্স বা কমিশন দেওয়ার আগে দলগুলোর কী কী বিষয় খেয়াল রাখা উচিত।
আত্মকেন্দ্রিক ডেটাসেট বলতে কী বোঝায়?
ইগোসেন্ট্রিক ডেটাসেট হলো প্রথম-ব্যক্তির দৃষ্টিকোণ থেকে ধারণ করা ভিডিও এবং সেন্সর ডেটার একটি সুসংগঠিত সংগ্রহ। ক্যামেরাটি কাজটি সম্পাদনকারী ব্যক্তির মাথা, বুক বা কব্জিতে—কখনও কখনও রোবটটির উপরেই—লাগানো থাকে, ফলে রেকর্ডিংটিতে জগৎটা ঠিক সেভাবেই দেখা যায় যেভাবে কাজটি সম্পাদনকারী ব্যক্তিটি দেখেন।
"আত্মকেন্দ্রিক" এর সহজ অর্থ হলো নিজের থেকেএকটি থার্ড-পার্সন ক্যামেরা একটি ঘরের ভেতরে কী ঘটছে তা দেখায়। একটি ইগোসেন্ট্রিক ক্যামেরা দেখায়, ঘটনাটি ঘটার সময় অভিনেতার হাত, চোখ এবং সরঞ্জামগুলো কী করছে। এই পার্থক্যটা শুনতে সামান্য মনে হতে পারে। কিন্তু রোবোটিক্স দলগুলোর জন্য এটাই সবকিছু।
অধিকাংশ আধুনিক ইগোসেন্ট্রিক ডেটাসেট ভিডিওর সাথে অতিরিক্ত সংকেত—যেমন গভীরতা, গতি, অডিও এবং কখনও কখনও চোখ বা হাতের ট্র্যাকিং—যুক্ত করে, যাতে একটি মুহূর্তকে একই সাথে বিভিন্ন দৃষ্টিকোণ থেকে বিশ্লেষণ করা যায়।
রোবোটিক্স এবং দেহভিত্তিক এআই-এর জন্য আত্মকেন্দ্রিক ডেটা কেন গুরুত্বপূর্ণ
বাস্তব জগতে রোবট কয়েকটি কারণে ব্যর্থ হয়। ভুল দৃষ্টিভঙ্গি সেই কারণগুলোর প্রায় শীর্ষেই রয়েছে।
একটি রোবটের অন্তর্নির্মিত ক্যামেরা রোবটটি যেখানে দাঁড়িয়ে থাকে সেখান থেকে চারপাশের জগৎ দেখে। যদি এটিকে উপর থেকে বা পাশ থেকে তোলা ভিডিওর উপর প্রশিক্ষণ দেওয়া হয়, তবে মডেলটিকে প্রতিবার কাজ করার সময় একটি ব্যবধান পূরণ করতে হয় — একটি তৃতীয়-ব্যক্তির দৃশ্যকে প্রথম-ব্যক্তির সিদ্ধান্তে রূপান্তরিত করতে হয়। এই ব্যবধানটিতেই ভুলগুলো ঘটে: যেমন—ধরা আলগা হয়ে যাওয়া, স্পর্শবিন্দুতে ভুল হওয়া, বা প্রয়োজনের চেয়ে এক মুহূর্ত আগে হাত বন্ধ করে দেওয়া।
ফার্স্ট-পার্সন ডেটার উপর প্রশিক্ষণ দিলে সেই অনুবাদের ধাপটি বাদ পড়ে যায়। মডেলটি সেই একই ভিউ থেকে শেখে যা সে পরে ব্যবহার করবে। সাম্প্রতিক রোবট-লার্নিং গবেষণায় দেখা গেছে যে, কাজের ধরনের উপর নির্ভর করে, ফার্স্ট-পার্সন ডেটার উপর প্রশিক্ষিত পলিসিগুলো ম্যানিপুলেশন টাস্কের ক্ষেত্রে থার্ড-পার্সন ডেটার উপর প্রশিক্ষিত পলিসিগুলোর চেয়ে ১৫-৩০% বেশি ভালো পারফর্ম করতে পারে। এর সুফল কাজের মধ্যেই দেখা যায়: আরও নিখুঁত গ্রিপ, উন্নত হ্যান্ড-আই টাইমিং, এবং অগোছালো ও আংশিক দৃশ্যের প্রতি আরও বুদ্ধিদীপ্ত প্রতিক্রিয়া।
এই কারণেই প্রথম-ব্যক্তি ডেটা কেন্দ্রবিন্দুতে থাকে। শারীরিক এআই সিস্টেম এবং নতুন তরঙ্গ দৃষ্টি-ভাষা-কর্ম মডেল — এমন সিস্টেম যা চাক্ষুষ ইনপুট এবং মৌখিক বা লিখিত নির্দেশনা গ্রহণ করে, এবং তারপর বাস্তব জগতে একটি প্রকৃত কাজ সম্পাদন করে।
একটি উচ্চ-মানের আত্মকেন্দ্রিক ডেটাসেটের ভিতরে
শুধুমাত্র কাঁচা ভিডিও যথেষ্ট নয়। উচ্চ-মানের আত্মকেন্দ্রিক তথ্য সংগ্রহে ফার্স্ট-পার্সন ভিডিওর সাথে আরও বেশ কিছু সংকেত যুক্ত করা হয়:
- সিঙ্ক্রোনাইজড ভিডিও ভালো রেজোলিউশনে, প্রায়শই একাধিক কোণ থেকে (মাথা, বুক বা কবজি)।
- গভীরতার তথ্য যা একটি মডেলকে বুঝতে সাহায্য করে যে একটি বস্তু কতটা দূরে আছে, শুধু ফ্রেমে এটি কোথায় দেখা যাচ্ছে তা-ই নয়।
- মোশন সেন্সর (IMU) ডেটা যা ফ্রেম বাই ফ্রেম মাথা ও শরীরের নড়াচড়া ট্র্যাক করে
- Audio — যা আশ্চর্যজনকভাবে অনেক প্রাসঙ্গিক তথ্য বহন করে, যেমন বোর্ডের ওপর একটি ছুরি বা কাছাকাছি কোনো ব্যক্তির কথা বলা।
- হাত বা চোখের ট্র্যাকিং যেসব কাজে মনোযোগ এবং আঁকড়ে ধরা গুরুত্বপূর্ণ
মূল বিষয় হলো, এই সবকিছুকে মিলিসেকেন্ড পর্যন্ত নিখুঁতভাবে মিলতে হবে। যদি ডেপথ স্ট্রিম ভিডিওর চেয়ে এক-চতুর্থাংশ সেকেন্ড পিছিয়ে পড়ে, তাহলে মডেলটি ভুল কার্যকারণ সম্পর্ক শিখে ফেলে। পুরোপুরি আত্মকেন্দ্রিক। ডেটা টীকা এর পাশাপাশি সু-সমন্বিত ক্যাপচারই কাঁচা রেকর্ডিংকে প্রশিক্ষণের জন্য প্রস্তুত ডেটাতে পরিণত করে।
ল্যাবের ফুটেজ বনাম বাস্তব জগতের চিত্র
এটি ভিন্ন ধরনের একটি প্রশিক্ষণ সমস্যার চিত্র তুলে ধরতে সাহায্য করে।
ভাবুন তো, কাউকে শুধু উপর থেকে তোলা ড্রোন ফুটেজ দেখিয়ে সাইকেল চালানো শেখানো হচ্ছে। সে দেখবে সাইকেলটা, রাস্তাটা আর পথটা। কিন্তু সে দেখবে না হ্যান্ডেলবারের কাঁপুনি, বাঁকের সময় চোখ যেভাবে সামনে তাকায়, বা মোড় নেওয়ার আগে শরীরটা কীভাবে নড়ে ওঠে। নামমাত্র হলেও সে জানবে সাইকেল চালানো কী। দেখতেতারা জানত না কিভাবে do এটা.
বৃহৎ পরিসরে ল্যাবের ডেটাতেও একই সমস্যা দেখা যায়। পরিষ্কার আলো, পরিষ্কার টেবিলের উপর একটি বস্তু, প্রতি ক্লিপে একটি কাজ — এটি পরিপাটি, কিন্তু এটি সেই জগৎ নয় যেখানে একটি রোবটকে পাঠানো হয়। ল্যাবের ফুটেজের উপর প্রশিক্ষিত মডেলগুলো প্রায়শই প্রথম দিনেই ঠিকঠাক কাজ করে এবং ত্রিশতম দিনে ভেঙে পড়ে, যখন আলো কাঁপে, দুজন মানুষ একে অপরের পথ অতিক্রম করে, বা একই তাকে তিনটি ভিন্ন পণ্য থাকে।
বাস্তব জগতের আত্মকেন্দ্রিক চিত্রায়ন কোলাহলকে আবার ফিরিয়ে আনে। এই কোলাহলই মডেলগুলোকে স্থাপনের পরেও টিকে থাকতে সাহায্য করে।
একটি আত্মকেন্দ্রিক ডেটাসেট স্ট্যাকের চারটি স্তর
বিভিন্ন সমস্যার জন্য বিভিন্ন ডেটা লেয়ার প্রয়োজন। একটি কাজের জন্য তৈরি ডেটাসেট খুব কমই অন্য কাজ ভালোভাবে সম্পন্ন করতে পারে। বেশিরভাগ ফিজিক্যাল এআই টিম একটি সম্পূর্ণ এমবডিড এআই ডেটাসেট তৈরি করতে যে লেয়ারগুলো একসাথে সাজায়, সেগুলোকে সহজভাবে ভাবার একটি উপায় এখানে দেওয়া হলো:
| স্তর | এটি যা ধারণ করে | এটি যা প্রশিক্ষণ দেয় |
|---|---|---|
| মানুষের উপলব্ধি | দৈনন্দিন পরিবেশে বাস্তব মানবিক কার্যকলাপ | মৌলিক উপলব্ধি — মানুষ কীভাবে চলাচল করে, জিনিসপত্র ধরে, কাজ পরিবর্তন করে |
| কাজ সম্পাদন | ম্যানিপুলেশন ডেটা: গতিপথ, গ্রিপ, জয়েন্টের অবস্থা | রোবটের গতি নিয়ন্ত্রণ এবং দক্ষতার পুনরাবৃত্তি |
| নির্দেশনা অনুসরণ | দৃষ্টি + মৌখিক বা লিখিত নির্দেশনা + কার্যকলাপ | দৃষ্টি-ভাষা-কর্ম মডেল যা একটি নির্দেশনাকে বাস্তব কর্মে পরিণত করে |
| কর্মপ্রবাহ সমাপ্তি | ব্যতিক্রম পরিচালনা সহ দীর্ঘ, বহু-ধাপের টাস্ক ডেটা | দীর্ঘমেয়াদী যুক্তি এবং কোনো সমস্যা হলে তা থেকে পুনরুদ্ধার। |
বেশিরভাগ প্রোডাকশন টিম একাধিক স্তর থেকে ধারণা গ্রহণ করে। উদাহরণস্বরূপ, একটি হিউম্যানয়েডকে যখন ডিশওয়াশার লোড করতে হয়, তখন সে অন্তত তিনটি উৎস থেকে সাহায্য নেয়: মানুষের দেখানো পদ্ধতি, সূক্ষ্ম পরিচালনা এবং ধাপে ধাপে কাজের কাঠামো।
যেখানে আত্মকেন্দ্রিক তথ্য প্রকৃত চাহিদাকে চালিত করে
একটি মাঝারি আকারের গুদামের কথা ভাবুন, যেখানে গত ত্রৈমাসিকে একটি পিক-অ্যান্ড-প্লেস রোবট চালু করা হয়েছে। ল্যাবের পরিপাটি ফুটেজের ওপর প্রশিক্ষণপ্রাপ্ত রোবটটি প্রথম সপ্তাহটা দারুণভাবে সামলেছিল। এরপর হঠাৎ করে কাজের চাপ বেড়ে গেল। বাক্সগুলো এলোমেলোভাবে সাজানো, ফ্লুরোসেন্ট বাতিগুলো মিটমিট করছে, দুজন কর্মী করিডোর পার হচ্ছে। রোবটটি থমকে গেল—মডেলটি ভেঙে যাওয়ার কারণে নয়, বরং এর প্রশিক্ষণের কোনো কিছুই আসল কাজের পরিবর্তনের মতো মনে হচ্ছিল না।
এই ধরনের ব্যবধান বিভিন্ন শিল্পখাত জুড়েই দেখা যাচ্ছে, এবং একারণেই কিছু নির্দিষ্ট জায়গায় ফার্স্ট-পার্সন ট্রেনিং ডেটার চাহিদা বাড়ছে:
- হিউম্যানয়েড এবং হোম রোবট। রান্না করা, ঘর পরিষ্কার করা, বাজার থেকে আনা জিনিসপত্র গুছিয়ে রাখা। এই কাজগুলো দেখতে সহজ মনে হলেও, একটি রোবটকে সেগুলো করতে দেখলে ব্যাপারটা আর সহজ থাকে না।
- স্বায়ত্তশাসিত গতিশীলতা। ড্রাইভিং, গাড়ির ভেতরের কার্যকলাপ, শেষ ধাপের ডেলিভারি। ফার্স্ট-পার্সন ক্যাপচার সিমুলেশন এবং বাস্তব রাস্তার মধ্যকার ব্যবধান কমিয়ে দেয়।
- শিল্পভিত্তিক আত্মকেন্দ্রিক ডেটাসেট। কারখানার মেঝে, অ্যাসেম্বলি লাইন, তেল ও গ্যাস ক্ষেত্র — নিরাপত্তা শনাক্তকরণ, কর্মোপযোগী ট্র্যাকিং এবং কর্মী-সহায়ক রোবটিক প্রশিক্ষণের জন্য ব্যবহৃত হয়।
- অস্ত্রোপচার সংক্রান্ত প্রথম-ব্যক্তি ভিডিও ডেটা। সার্জনদের পরিহিত হেড-মাউন্টেড ক্যামেরা থেকে কার্যপ্রণালীর চিত্র ধারণ করা হয়, যা সহায়ক মডেল এবং মেডিকেল এআর সিস্টেমকে প্রশিক্ষণ দিতে ব্যবহৃত হয়।
- খুচরা ভোক্তার আচরণের আত্মকেন্দ্রিক তথ্য। আসল দোকানে ক্রেতাদের পরিধানযোগ্য ফুটেজ, যা তাকের কাছে তাদের মনোযোগ, দিকনির্দেশনা এবং সিদ্ধান্ত গ্রহণ প্রক্রিয়া অধ্যয়নের জন্য ব্যবহৃত হয়।
শিল্পক্ষেত্র ভিন্ন হলেও মূল চাহিদা একই: এমন ডেটা যা গবেষণার ফল, গবেষণাগারের নয়।
কীসের জন্য একটি আত্মকেন্দ্রিক ডেটাসেট মডেল-প্রস্তুত হয়?
আপনি অভ্যন্তরীণভাবে ডেটা তৈরি করুন বা আত্মকেন্দ্রিক ডেটা সরবরাহকারীদের মূল্যায়ন করুন না কেন, পাঁচটি বিষয় গবেষণা-মানের ডেটা এবং প্রোডাকশনে ব্যবহারযোগ্য ডেটার মধ্যে পার্থক্য গড়ে দেয়:

- আত্মকেন্দ্রিক ডেটা টীকা গভীরতা। শুধু বাউন্ডিং বক্সই নয়। হাতের ভঙ্গি, অবজেক্টের অবস্থা, কাজের ধাপ এবং অভিপ্রায় — সবকিছুই সঠিক ফ্রেমে সারিবদ্ধ থাকে।
- সেন্সর ক্রমাঙ্কন। ভিডিও, ডেপথ, অডিও এবং মোশনের মধ্যে টাইম-সিঙ্ক করা হয়, যাতে মডেলটি পাঁচটি বিচ্ছিন্ন স্রোতের পরিবর্তে একটি সুসংহত মুহূর্ত দেখতে পায়।
- প্রান্তিক পরিস্থিতিগত কভারেজ। স্বল্প আলো, প্রতিবন্ধকতা, জনাকীর্ণ দৃশ্য, বিরল ঘটনা। এইসব ক্ষেত্রে ল্যাবের ডেটা নীরবে ফাঁক রেখে যায়। ডেটা পার্টনারদের মূল্যায়ন করার সময় ইন্ডাস্ট্রির ক্রেতাদের সমীক্ষায় ধারাবাহিকভাবে অ্যানোটেশনের গুণমান এবং এজ-কেস কভারেজকে শীর্ষ দুটি মানদণ্ড হিসেবে স্থান দেওয়া হয়।
- সম্মতি ও পরিপালন। ফার্স্ট-পার্সন ভিডিও স্বভাবতই সংবেদনশীল। ডেটাসেটের জন্য অংশগ্রহণকারীর লিখিত সম্মতি, প্রয়োজন অনুযায়ী মুখমণ্ডলের পরিচয় গোপন রাখা এবং GDPR ও HIPAA-এর মতো ফ্রেমওয়ার্কের সাথে সামঞ্জস্য থাকা প্রয়োজন। ISO 27001 এবং SOC 2 Type II-এর মতো ভেন্ডর কন্ট্রোলগুলো সেই পদ্ধতিগত স্তরটি যোগ করে, যা এন্টারপ্রাইজের আইনি দলগুলো প্রত্যাশা করে।
- সিমুলেশন থেকে বাস্তব প্রস্তুতি। বাস্তব জগতের ফুটেজ যা কৃত্রিম ডেটার সাথে নিখুঁতভাবে মিলে যায়, ফলে দলগুলো মডেলের নির্ভরযোগ্য ভিত্তি না হারিয়েই প্রশিক্ষণের পরিধি বাড়াতে পারে।
গুনাগুন তথ্য সংগ্রহ এটাই সেই অংশ যা পরে ঠিক করা সবচেয়ে কঠিন। উৎস থেকেই এটা ঠিক করে নিলে, বাকি প্রক্রিয়াটা সহজ হয়ে যায়।
কী টেকওয়েস
- আত্মকেন্দ্রিক ডেটাসেট হলো প্রথম-ব্যক্তি ভিডিও এবং সেন্সর ডেটা। — অভিনেতার নিজস্ব দৃষ্টিকোণ থেকে ধারণ করা — যা রোবটিক্স এবং মূর্ত এআই মডেলগুলোকে প্রশিক্ষণ দিতে ব্যবহৃত হয়, ঠিক যেভাবে তারা মোতায়েনের পর পৃথিবীকে বাস্তবে দেখবে।
- প্রথম-ব্যক্তির তথ্য উপলব্ধি ও কর্মের ব্যবধান দূর করে। যার কারণে পরীক্ষাগারে প্রশিক্ষিত রোবটগুলো আসল ডিউটিতে ব্যর্থ হয়।
- গুণগত আত্মকেন্দ্রিক তথ্য বহুমাধ্যমীয় ভিডিও, ডেপথ, অডিও, মোশন এবং ট্র্যাকিং—মিলিসেকেন্ড পর্যন্ত সিঙ্ক্রোনাইজড।
- প্রোডাকশন-রেডি মানে শুধু টীকা লেখার চেয়েও বেশি কিছু। এর অর্থ হলো প্রান্তিক পরিস্থিতি মোকাবিলার সক্ষমতা, বাস্তব পরিবেশ, সিমুলেশন থেকে বাস্তব পরিস্থিতিতে প্রস্তুতি এবং নিয়ম মেনে চলার একটি নথিভুক্ত প্রমাণপত্র।
শাইপ কীভাবে সাহায্য করতে পারে
আপনার দল যদি “আমাদের কি আত্মকেন্দ্রিক ডেটার প্রয়োজন আছে” পর্যায়টি পেরিয়ে “আমরা আসলে কীভাবে তা সংগ্রহ করব” এই পর্যায়ে পৌঁছে যায়, তাহলে সেখানেই শাইপ মানানসই।
আমরা ফিজিক্যাল এআই প্রোগ্রামগুলোর পেছনের সম্পূর্ণ ডেটা পাইপলাইন পরিচালনা করি — বাস্তব পরিবেশে ফার্স্ট-পার্সন ক্যাপচার, ভিএলএ-গ্রেড অ্যানোটেশন, সিন্থেটিক ডেটা, আরএলএইচএফ, এবং ইভ্যালুয়েশন বেঞ্চমার্ক, সবই একটিমাত্র চুক্তির অধীনে। কিছু নির্দিষ্ট বিষয়:
- বাস্তব জগতের ধারণকৃত চিত্র, ল্যাবের ফুটেজ নয়। রান্নাঘর, গুদাম, কারখানা, স্বাস্থ্যকেন্দ্র এবং দোকান জুড়ে হেড-মাউন্টেড ক্যামেরা, স্মার্ট গ্লাস এবং পরিধানযোগ্য ডিভাইস।
- একাধিক সেন্সরের সিঙ্ক্রোনাইজেশন। ভিডিও, আইএমইউ, লাইডার, অডিও এবং ডেপথ — মিলিসেকেন্ড পর্যন্ত ক্যালিব্রেট ও টাইম-অ্যালাইন করা।
- ভিএলএ প্রশিক্ষণের জন্য নির্মিত টীকা। বস্তু, ক্রিয়া, হাত ও বস্তুর পারস্পরিক ক্রিয়া, অভিপ্রায় এবং স্থানিক প্রেক্ষাপট।
- সিম-টু-রিয়েল সাপোর্ট। সিন্থেটিক জেনারেশন এবং রিয়েলটুসিম পাইপলাইন, যা বাস্তব জগতের ভিত্তি না হারিয়েই পরিধি প্রসারিত করে।
- প্রথম দিন থেকেই নিয়ম মেনে চলা। ISO 27001, SOC 2 Type II, HIPAA-রেডি, এবং GDPR — সম্মতি-ভিত্তিক সংগ্রহ এবং নিরীক্ষার জন্য প্রস্তুত ডেটার উৎস সহ।
আপনার ফিজিক্যাল এআই প্রোগ্রামের ভবিষ্যৎ গতিপথ যদি এর সাথে মিলে যায়, তবে আমরা একটি পাইলট প্রকল্প খতিয়ে দেখতে আগ্রহী।
উপসংহার
একটি ইগোসেন্ট্রিক ডেটাসেট শুধু ফার্স্ট-পার্সন ভিডিও নয়। এটি মেশিনকে মানুষের মতো করে দেখতে ও কাজ করতে শেখানোর একটি কাঠামোগত পদ্ধতি। রোবোটিক্স এবং এমবডিড এআই দলগুলোর জন্য, এটি এমন একটি মডেলের মধ্যে পার্থক্য গড়ে দেয় যা ভালোভাবে ডেমো দেখায় এবং এমন একটি মডেল যা বাজারে ছাড়া যায়। লক্ষ্য হিউম্যানয়েড, স্বয়ংক্রিয়তা বা স্মার্ট ফ্যাক্টরি যা-ই হোক না কেন, রোবোটিক্স এবং এআই উন্নয়নের জন্য ইগোসেন্ট্রিক ডেটা প্রতিটি গুরুত্বপূর্ণ এমবডিড এআই ডেটাসেট কৌশলের একটি মূল স্তরে পরিণত হচ্ছে — এটি কোনো ঐচ্ছিক বিষয় নয়। যে দলগুলো এটি সঠিকভাবে করছে, তারা ডেটাকে — সংগ্রহ, টীকা সংযোজন, যাচাইকরণ এবং সম্মতি — সিস্টেমের একটি মূল অংশ হিসেবে বিবেচনা করে, এর আগের কোনো ধাপ হিসেবে নয়।
সহজ ভাষায় ইগোসেন্ট্রিক ডেটাসেট বলতে কী বোঝায়?
এটি প্রথম-ব্যক্তির দৃষ্টিকোণ থেকে ধারণ করা ভিডিও এবং সেন্সর রেকর্ডিংয়ের একটি সুসংগঠিত সেট — সাধারণত মাথা, বুক বা কব্জিতে পরা ক্যামেরা থেকে — যা মানুষ কীভাবে দেখে এবং কাজ করে, সে বিষয়ে এআই সিস্টেমকে প্রশিক্ষণ দিতে ব্যবহৃত হয়।
রোবোটিক্স দলগুলোর সাধারণ থার্ড-পার্সন ভিডিওর পরিবর্তে ইগোসেন্ট্রিক ডেটার প্রয়োজন কেন?
থার্ড-পার্সন ভিডিও একজন দর্শকের দৃষ্টিকোণ থেকে দৃশ্যটি দেখায়। রোবট তার নিজস্ব দৃষ্টিকোণ থেকে কাজ করে। ফার্স্ট-পার্সন ডেটার উপর প্রশিক্ষণ মডেল যা শেখে এবং রোবট বাস্তবে কাজে যা দেখে, তার মধ্যকার ব্যবধান কমিয়ে আনে, এবং এর ফলে ম্যানিপুলেশন টাস্কগুলিতে ১৫-৩০% পর্যন্ত নির্ভুলতা বৃদ্ধির প্রমাণ পাওয়া গেছে।
আত্মকেন্দ্রিক তথ্য সংগ্রহের জন্য সাধারণত কোন সেন্সরগুলো ব্যবহার করা হয়?
আরজিবি ক্যামেরা, ডেপথ সেন্সর, মোশন (আইএমইউ) সেন্সর এবং অডিও। অনেক সেটআপে হ্যান্ড বা আই ট্র্যাকিংও যুক্ত করা হয়। স্বয়ংক্রিয় রোবটিক্সের জন্য, স্থানিক ম্যাপিংয়ের উদ্দেশ্যে কখনও কখনও লাইডার (LiDAR) ব্যবহার করা হয়।
দৃষ্টি-ভাষা-কর্ম (VLA) প্রশিক্ষণে আত্মকেন্দ্রিক তথ্য কীভাবে খাপ খায়?
ভিএলএ মডেলগুলো একটি চাক্ষুষ ইনপুট ও একটি ভাষার নির্দেশনা গ্রহণ করে এবং তারপর একটি ক্রিয়া সম্পাদন করে। ইগোসেন্ট্রিক ডেটা তাদের সেই সঙ্গতিপূর্ণ দৃশ্য, নির্দেশনা এবং ফলাফলের ত্রয়ী সরবরাহ করে, যা এই ম্যাপিংটি নির্ভরযোগ্যভাবে শেখার জন্য তাদের প্রয়োজন।
গবেষণা-স্তরের আত্মকেন্দ্রিক ডেটাসেট এবং প্রয়োগ-স্তরের ডেটাসেটের মধ্যে পার্থক্য কী?
তিনটি বিষয়: আরও উন্নত মানের টীকা, পরীক্ষাগারের পরিবর্তে বাস্তব জগতের পরিবেশে ব্যাপকতর পরিধি, এবং সম্মতি, গোপনীয়তা ও নিরীক্ষার জন্য প্রস্তুত ডেটার উৎস সংক্রান্ত একটি নথিভুক্ত সম্মতি-পথ।


