আত্মকেন্দ্রিক ডেটাসেট

আত্মকেন্দ্রিক ডেটাসেট কী? রোবোটিক্স ও এমবডিড এআই-এর জন্য একটি নির্দেশিকা

ইগোসেন্ট্রিক ডেটাসেট হলো মাথা, বুক বা কব্জিতে লাগানো ক্যামেরা থেকে ধারণ করা ফার্স্ট-পার্সন ভিডিও এবং সেন্সর রেকর্ডিংয়ের একটি সুসংগঠিত সংগ্রহ, যা মানুষ কীভাবে দেখে, নড়াচড়া করে এবং আচরণ করে, সে বিষয়ে রোবটিক্স ও এমবডিড এআই সিস্টেমকে প্রশিক্ষণ দিতে ব্যবহৃত হয়। একটি রোবট পরিচালনার সময় তার অনবোর্ড ক্যামেরা যা দেখে, তার সাথে এটিই সবচেয়ে বেশি সাদৃশ্যপূর্ণ, আর একারণেই এটি ভিশন-ল্যাঙ্গুয়েজ-অ্যাকশন (VLA) মডেল প্রশিক্ষণের ভিত্তি হয়ে উঠেছে।

শুধুমাত্র ল্যাবের ফুটেজের ওপর প্রশিক্ষণপ্রাপ্ত একটি রোবট প্রায়শই ল্যাব ছাড়ার প্রথম দিনেই বিধ্বস্ত হয়। এর কারণ খুব কমই মডেলটি হয়। আসল কারণ হলো ডেটা।

বেশিরভাগ প্রশিক্ষণ ভিডিও ট্রাইপড বা সিলিং ক্যামেরা থেকে ধারণ করা হয়। এই ধরনের ফুটেজে ঘরটি দেখা যায়, কিন্তু কাজটি দেখা যায় না। হাতটি দেখা যায় না। বস্তুটি দেখা যায় না। এমনকি একটি রোবট যখন বাস্তবে একটি কাপ তোলে বা একটি ড্রয়ার খোলে, তখন তার অনবোর্ড ক্যামেরা যে সঠিক কোণ থেকে দেখবে, সেটিও দেখা যায় না। এই শূন্যস্থানটি পূরণ করার জন্যই একটি ইগোসেন্ট্রিক ডেটাসেট তৈরি করা হয়।

এই নির্দেশিকায় আলোচনা করা হয়েছে যে, ইগোসেন্ট্রিক ডেটাসেট কী, কেন ফার্স্ট-পার্সন ডেটা আধুনিক রোবোটিক্স এবং এমবডিড এআই-এর ভিত্তি হয়ে উঠেছে, ভালো ডেটা আসলে কেমন দেখতে হয়, এবং একটি ডেটাসেটের লাইসেন্স বা কমিশন দেওয়ার আগে দলগুলোর কী কী বিষয় খেয়াল রাখা উচিত।

আত্মকেন্দ্রিক ডেটাসেট বলতে কী বোঝায়?

ইগোসেন্ট্রিক ডেটাসেট হলো প্রথম-ব্যক্তির দৃষ্টিকোণ থেকে ধারণ করা ভিডিও এবং সেন্সর ডেটার একটি সুসংগঠিত সংগ্রহ। ক্যামেরাটি কাজটি সম্পাদনকারী ব্যক্তির মাথা, বুক বা কব্জিতে—কখনও কখনও রোবটটির উপরেই—লাগানো থাকে, ফলে রেকর্ডিংটিতে জগৎটা ঠিক সেভাবেই দেখা যায় যেভাবে কাজটি সম্পাদনকারী ব্যক্তিটি দেখেন।

"আত্মকেন্দ্রিক" এর সহজ অর্থ হলো নিজের থেকেএকটি থার্ড-পার্সন ক্যামেরা একটি ঘরের ভেতরে কী ঘটছে তা দেখায়। একটি ইগোসেন্ট্রিক ক্যামেরা দেখায়, ঘটনাটি ঘটার সময় অভিনেতার হাত, চোখ এবং সরঞ্জামগুলো কী করছে। এই পার্থক্যটা শুনতে সামান্য মনে হতে পারে। কিন্তু রোবোটিক্স দলগুলোর জন্য এটাই সবকিছু।

অধিকাংশ আধুনিক ইগোসেন্ট্রিক ডেটাসেট ভিডিওর সাথে অতিরিক্ত সংকেত—যেমন গভীরতা, গতি, অডিও এবং কখনও কখনও চোখ বা হাতের ট্র্যাকিং—যুক্ত করে, যাতে একটি মুহূর্তকে একই সাথে বিভিন্ন দৃষ্টিকোণ থেকে বিশ্লেষণ করা যায়।

রোবোটিক্স এবং দেহভিত্তিক এআই-এর জন্য আত্মকেন্দ্রিক ডেটা কেন গুরুত্বপূর্ণ

বাস্তব জগতে রোবট কয়েকটি কারণে ব্যর্থ হয়। ভুল দৃষ্টিভঙ্গি সেই কারণগুলোর প্রায় শীর্ষেই রয়েছে।

রোবটিক্স এবং মূর্ত কৃত্রিম বুদ্ধিমত্তার জন্য আত্মকেন্দ্রিক তথ্য গুরুত্বপূর্ণ।একটি রোবটের অন্তর্নির্মিত ক্যামেরা রোবটটি যেখানে দাঁড়িয়ে থাকে সেখান থেকে চারপাশের জগৎ দেখে। যদি এটিকে উপর থেকে বা পাশ থেকে তোলা ভিডিওর উপর প্রশিক্ষণ দেওয়া হয়, তবে মডেলটিকে প্রতিবার কাজ করার সময় একটি ব্যবধান পূরণ করতে হয় — একটি তৃতীয়-ব্যক্তির দৃশ্যকে প্রথম-ব্যক্তির সিদ্ধান্তে রূপান্তরিত করতে হয়। এই ব্যবধানটিতেই ভুলগুলো ঘটে: যেমন—ধরা আলগা হয়ে যাওয়া, স্পর্শবিন্দুতে ভুল হওয়া, বা প্রয়োজনের চেয়ে এক মুহূর্ত আগে হাত বন্ধ করে দেওয়া।

ফার্স্ট-পার্সন ডেটার উপর প্রশিক্ষণ দিলে সেই অনুবাদের ধাপটি বাদ পড়ে যায়। মডেলটি সেই একই ভিউ থেকে শেখে যা সে পরে ব্যবহার করবে। সাম্প্রতিক রোবট-লার্নিং গবেষণায় দেখা গেছে যে, কাজের ধরনের উপর নির্ভর করে, ফার্স্ট-পার্সন ডেটার উপর প্রশিক্ষিত পলিসিগুলো ম্যানিপুলেশন টাস্কের ক্ষেত্রে থার্ড-পার্সন ডেটার উপর প্রশিক্ষিত পলিসিগুলোর চেয়ে ১৫-৩০% বেশি ভালো পারফর্ম করতে পারে। এর সুফল কাজের মধ্যেই দেখা যায়: আরও নিখুঁত গ্রিপ, উন্নত হ্যান্ড-আই টাইমিং, এবং অগোছালো ও আংশিক দৃশ্যের প্রতি আরও বুদ্ধিদীপ্ত প্রতিক্রিয়া।

এই কারণেই প্রথম-ব্যক্তি ডেটা কেন্দ্রবিন্দুতে থাকে। শারীরিক এআই সিস্টেম এবং নতুন তরঙ্গ দৃষ্টি-ভাষা-কর্ম মডেল — এমন সিস্টেম যা চাক্ষুষ ইনপুট এবং মৌখিক বা লিখিত নির্দেশনা গ্রহণ করে, এবং তারপর বাস্তব জগতে একটি প্রকৃত কাজ সম্পাদন করে।

একটি উচ্চ-মানের আত্মকেন্দ্রিক ডেটাসেটের ভিতরে

শুধুমাত্র কাঁচা ভিডিও যথেষ্ট নয়। উচ্চ-মানের আত্মকেন্দ্রিক তথ্য সংগ্রহে ফার্স্ট-পার্সন ভিডিওর সাথে আরও বেশ কিছু সংকেত যুক্ত করা হয়:

  • সিঙ্ক্রোনাইজড ভিডিও ভালো রেজোলিউশনে, প্রায়শই একাধিক কোণ থেকে (মাথা, বুক বা কবজি)।
  • গভীরতার তথ্য যা একটি মডেলকে বুঝতে সাহায্য করে যে একটি বস্তু কতটা দূরে আছে, শুধু ফ্রেমে এটি কোথায় দেখা যাচ্ছে তা-ই নয়।
  • মোশন সেন্সর (IMU) ডেটা যা ফ্রেম বাই ফ্রেম মাথা ও শরীরের নড়াচড়া ট্র্যাক করে
  • Audio — যা আশ্চর্যজনকভাবে অনেক প্রাসঙ্গিক তথ্য বহন করে, যেমন বোর্ডের ওপর একটি ছুরি বা কাছাকাছি কোনো ব্যক্তির কথা বলা।
  • হাত বা চোখের ট্র্যাকিং যেসব কাজে মনোযোগ এবং আঁকড়ে ধরা গুরুত্বপূর্ণ

মূল বিষয় হলো, এই সবকিছুকে মিলিসেকেন্ড পর্যন্ত নিখুঁতভাবে মিলতে হবে। যদি ডেপথ স্ট্রিম ভিডিওর চেয়ে এক-চতুর্থাংশ সেকেন্ড পিছিয়ে পড়ে, তাহলে মডেলটি ভুল কার্যকারণ সম্পর্ক শিখে ফেলে। পুরোপুরি আত্মকেন্দ্রিক। ডেটা টীকা এর পাশাপাশি সু-সমন্বিত ক্যাপচারই কাঁচা রেকর্ডিংকে প্রশিক্ষণের জন্য প্রস্তুত ডেটাতে পরিণত করে।

ল্যাবের ফুটেজ বনাম বাস্তব জগতের চিত্র

এটি ভিন্ন ধরনের একটি প্রশিক্ষণ সমস্যার চিত্র তুলে ধরতে সাহায্য করে।

ভাবুন তো, কাউকে শুধু উপর থেকে তোলা ড্রোন ফুটেজ দেখিয়ে সাইকেল চালানো শেখানো হচ্ছে। সে দেখবে সাইকেলটা, রাস্তাটা আর পথটা। কিন্তু সে দেখবে না হ্যান্ডেলবারের কাঁপুনি, বাঁকের সময় চোখ যেভাবে সামনে তাকায়, বা মোড় নেওয়ার আগে শরীরটা কীভাবে নড়ে ওঠে। নামমাত্র হলেও সে জানবে সাইকেল চালানো কী। দেখতেতারা জানত না কিভাবে do এটা.

বৃহৎ পরিসরে ল্যাবের ডেটাতেও একই সমস্যা দেখা যায়। পরিষ্কার আলো, পরিষ্কার টেবিলের উপর একটি বস্তু, প্রতি ক্লিপে একটি কাজ — এটি পরিপাটি, কিন্তু এটি সেই জগৎ নয় যেখানে একটি রোবটকে পাঠানো হয়। ল্যাবের ফুটেজের উপর প্রশিক্ষিত মডেলগুলো প্রায়শই প্রথম দিনেই ঠিকঠাক কাজ করে এবং ত্রিশতম দিনে ভেঙে পড়ে, যখন আলো কাঁপে, দুজন মানুষ একে অপরের পথ অতিক্রম করে, বা একই তাকে তিনটি ভিন্ন পণ্য থাকে।

বাস্তব জগতের আত্মকেন্দ্রিক চিত্রায়ন কোলাহলকে আবার ফিরিয়ে আনে। এই কোলাহলই মডেলগুলোকে স্থাপনের পরেও টিকে থাকতে সাহায্য করে।

একটি আত্মকেন্দ্রিক ডেটাসেট স্ট্যাকের চারটি স্তর

বিভিন্ন সমস্যার জন্য বিভিন্ন ডেটা লেয়ার প্রয়োজন। একটি কাজের জন্য তৈরি ডেটাসেট খুব কমই অন্য কাজ ভালোভাবে সম্পন্ন করতে পারে। বেশিরভাগ ফিজিক্যাল এআই টিম একটি সম্পূর্ণ এমবডিড এআই ডেটাসেট তৈরি করতে যে লেয়ারগুলো একসাথে সাজায়, সেগুলোকে সহজভাবে ভাবার একটি উপায় এখানে দেওয়া হলো:

স্তর এটি যা ধারণ করে এটি যা প্রশিক্ষণ দেয়
মানুষের উপলব্ধি দৈনন্দিন পরিবেশে বাস্তব মানবিক কার্যকলাপ মৌলিক উপলব্ধি — মানুষ কীভাবে চলাচল করে, জিনিসপত্র ধরে, কাজ পরিবর্তন করে
কাজ সম্পাদন ম্যানিপুলেশন ডেটা: গতিপথ, গ্রিপ, জয়েন্টের অবস্থা রোবটের গতি নিয়ন্ত্রণ এবং দক্ষতার পুনরাবৃত্তি
নির্দেশনা অনুসরণ দৃষ্টি + মৌখিক বা লিখিত নির্দেশনা + কার্যকলাপ দৃষ্টি-ভাষা-কর্ম মডেল যা একটি নির্দেশনাকে বাস্তব কর্মে পরিণত করে
কর্মপ্রবাহ সমাপ্তি ব্যতিক্রম পরিচালনা সহ দীর্ঘ, বহু-ধাপের টাস্ক ডেটা দীর্ঘমেয়াদী যুক্তি এবং কোনো সমস্যা হলে তা থেকে পুনরুদ্ধার।

বেশিরভাগ প্রোডাকশন টিম একাধিক স্তর থেকে ধারণা গ্রহণ করে। উদাহরণস্বরূপ, একটি হিউম্যানয়েডকে যখন ডিশওয়াশার লোড করতে হয়, তখন সে অন্তত তিনটি উৎস থেকে সাহায্য নেয়: মানুষের দেখানো পদ্ধতি, সূক্ষ্ম পরিচালনা এবং ধাপে ধাপে কাজের কাঠামো।

যেখানে আত্মকেন্দ্রিক তথ্য প্রকৃত চাহিদাকে চালিত করে

আত্মকেন্দ্রিক তথ্য প্রকৃত চাহিদাকে চালিত করে।একটি মাঝারি আকারের গুদামের কথা ভাবুন, যেখানে গত ত্রৈমাসিকে একটি পিক-অ্যান্ড-প্লেস রোবট চালু করা হয়েছে। ল্যাবের পরিপাটি ফুটেজের ওপর প্রশিক্ষণপ্রাপ্ত রোবটটি প্রথম সপ্তাহটা দারুণভাবে সামলেছিল। এরপর হঠাৎ করে কাজের চাপ বেড়ে গেল। বাক্সগুলো এলোমেলোভাবে সাজানো, ফ্লুরোসেন্ট বাতিগুলো মিটমিট করছে, দুজন কর্মী করিডোর পার হচ্ছে। রোবটটি থমকে গেল—মডেলটি ভেঙে যাওয়ার কারণে নয়, বরং এর প্রশিক্ষণের কোনো কিছুই আসল কাজের পরিবর্তনের মতো মনে হচ্ছিল না।

এই ধরনের ব্যবধান বিভিন্ন শিল্পখাত জুড়েই দেখা যাচ্ছে, এবং একারণেই কিছু নির্দিষ্ট জায়গায় ফার্স্ট-পার্সন ট্রেনিং ডেটার চাহিদা বাড়ছে:

  • হিউম্যানয়েড এবং হোম রোবট। রান্না করা, ঘর পরিষ্কার করা, বাজার থেকে আনা জিনিসপত্র গুছিয়ে রাখা। এই কাজগুলো দেখতে সহজ মনে হলেও, একটি রোবটকে সেগুলো করতে দেখলে ব্যাপারটা আর সহজ থাকে না।
  • স্বায়ত্তশাসিত গতিশীলতা। ড্রাইভিং, গাড়ির ভেতরের কার্যকলাপ, শেষ ধাপের ডেলিভারি। ফার্স্ট-পার্সন ক্যাপচার সিমুলেশন এবং বাস্তব রাস্তার মধ্যকার ব্যবধান কমিয়ে দেয়।
  • শিল্পভিত্তিক আত্মকেন্দ্রিক ডেটাসেট। কারখানার মেঝে, অ্যাসেম্বলি লাইন, তেল ও গ্যাস ক্ষেত্র — নিরাপত্তা শনাক্তকরণ, কর্মোপযোগী ট্র্যাকিং এবং কর্মী-সহায়ক রোবটিক প্রশিক্ষণের জন্য ব্যবহৃত হয়।
  • অস্ত্রোপচার সংক্রান্ত প্রথম-ব্যক্তি ভিডিও ডেটা। সার্জনদের পরিহিত হেড-মাউন্টেড ক্যামেরা থেকে কার্যপ্রণালীর চিত্র ধারণ করা হয়, যা সহায়ক মডেল এবং মেডিকেল এআর সিস্টেমকে প্রশিক্ষণ দিতে ব্যবহৃত হয়।
  • খুচরা ভোক্তার আচরণের আত্মকেন্দ্রিক তথ্য। আসল দোকানে ক্রেতাদের পরিধানযোগ্য ফুটেজ, যা তাকের কাছে তাদের মনোযোগ, দিকনির্দেশনা এবং সিদ্ধান্ত গ্রহণ প্রক্রিয়া অধ্যয়নের জন্য ব্যবহৃত হয়।

শিল্পক্ষেত্র ভিন্ন হলেও মূল চাহিদা একই: এমন ডেটা যা গবেষণার ফল, গবেষণাগারের নয়।

কীসের জন্য একটি আত্মকেন্দ্রিক ডেটাসেট মডেল-প্রস্তুত হয়?

আপনি অভ্যন্তরীণভাবে ডেটা তৈরি করুন বা আত্মকেন্দ্রিক ডেটা সরবরাহকারীদের মূল্যায়ন করুন না কেন, পাঁচটি বিষয় গবেষণা-মানের ডেটা এবং প্রোডাকশনে ব্যবহারযোগ্য ডেটার মধ্যে পার্থক্য গড়ে দেয়:

একটি আত্মকেন্দ্রিক ডেটাসেটকে মডেল-প্রস্তুত করে তোলে

  1. আত্মকেন্দ্রিক ডেটা টীকা গভীরতা। শুধু বাউন্ডিং বক্সই নয়। হাতের ভঙ্গি, অবজেক্টের অবস্থা, কাজের ধাপ এবং অভিপ্রায় — সবকিছুই সঠিক ফ্রেমে সারিবদ্ধ থাকে।
  2. সেন্সর ক্রমাঙ্কন। ভিডিও, ডেপথ, অডিও এবং মোশনের মধ্যে টাইম-সিঙ্ক করা হয়, যাতে মডেলটি পাঁচটি বিচ্ছিন্ন স্রোতের পরিবর্তে একটি সুসংহত মুহূর্ত দেখতে পায়।
  3. প্রান্তিক পরিস্থিতিগত কভারেজ। স্বল্প আলো, প্রতিবন্ধকতা, জনাকীর্ণ দৃশ্য, বিরল ঘটনা। এইসব ক্ষেত্রে ল্যাবের ডেটা নীরবে ফাঁক রেখে যায়। ডেটা পার্টনারদের মূল্যায়ন করার সময় ইন্ডাস্ট্রির ক্রেতাদের সমীক্ষায় ধারাবাহিকভাবে অ্যানোটেশনের গুণমান এবং এজ-কেস কভারেজকে শীর্ষ দুটি মানদণ্ড হিসেবে স্থান দেওয়া হয়।
  4. সম্মতি ও পরিপালন। ফার্স্ট-পার্সন ভিডিও স্বভাবতই সংবেদনশীল। ডেটাসেটের জন্য অংশগ্রহণকারীর লিখিত সম্মতি, প্রয়োজন অনুযায়ী মুখমণ্ডলের পরিচয় গোপন রাখা এবং GDPR ও HIPAA-এর মতো ফ্রেমওয়ার্কের সাথে সামঞ্জস্য থাকা প্রয়োজন। ISO 27001 এবং SOC 2 Type II-এর মতো ভেন্ডর কন্ট্রোলগুলো সেই পদ্ধতিগত স্তরটি যোগ করে, যা এন্টারপ্রাইজের আইনি দলগুলো প্রত্যাশা করে।
  5. সিমুলেশন থেকে বাস্তব প্রস্তুতি। বাস্তব জগতের ফুটেজ যা কৃত্রিম ডেটার সাথে নিখুঁতভাবে মিলে যায়, ফলে দলগুলো মডেলের নির্ভরযোগ্য ভিত্তি না হারিয়েই প্রশিক্ষণের পরিধি বাড়াতে পারে।

গুনাগুন তথ্য সংগ্রহ এটাই সেই অংশ যা পরে ঠিক করা সবচেয়ে কঠিন। উৎস থেকেই এটা ঠিক করে নিলে, বাকি প্রক্রিয়াটা সহজ হয়ে যায়।

কী টেকওয়েস

  • আত্মকেন্দ্রিক ডেটাসেট হলো প্রথম-ব্যক্তি ভিডিও এবং সেন্সর ডেটা। — অভিনেতার নিজস্ব দৃষ্টিকোণ থেকে ধারণ করা — যা রোবটিক্স এবং মূর্ত এআই মডেলগুলোকে প্রশিক্ষণ দিতে ব্যবহৃত হয়, ঠিক যেভাবে তারা মোতায়েনের পর পৃথিবীকে বাস্তবে দেখবে।
  • প্রথম-ব্যক্তির তথ্য উপলব্ধি ও কর্মের ব্যবধান দূর করে। যার কারণে পরীক্ষাগারে প্রশিক্ষিত রোবটগুলো আসল ডিউটিতে ব্যর্থ হয়।
  • গুণগত আত্মকেন্দ্রিক তথ্য বহুমাধ্যমীয় ভিডিও, ডেপথ, অডিও, মোশন এবং ট্র্যাকিং—মিলিসেকেন্ড পর্যন্ত সিঙ্ক্রোনাইজড।
  • প্রোডাকশন-রেডি মানে শুধু টীকা লেখার চেয়েও বেশি কিছু। এর অর্থ হলো প্রান্তিক পরিস্থিতি মোকাবিলার সক্ষমতা, বাস্তব পরিবেশ, সিমুলেশন থেকে বাস্তব পরিস্থিতিতে প্রস্তুতি এবং নিয়ম মেনে চলার একটি নথিভুক্ত প্রমাণপত্র।

শাইপ কীভাবে সাহায্য করতে পারে

আপনার দল যদি “আমাদের কি আত্মকেন্দ্রিক ডেটার প্রয়োজন আছে” পর্যায়টি পেরিয়ে “আমরা আসলে কীভাবে তা সংগ্রহ করব” এই পর্যায়ে পৌঁছে যায়, তাহলে সেখানেই শাইপ মানানসই।

আমরা ফিজিক্যাল এআই প্রোগ্রামগুলোর পেছনের সম্পূর্ণ ডেটা পাইপলাইন পরিচালনা করি — বাস্তব পরিবেশে ফার্স্ট-পার্সন ক্যাপচার, ভিএলএ-গ্রেড অ্যানোটেশন, সিন্থেটিক ডেটা, আরএলএইচএফ, এবং ইভ্যালুয়েশন বেঞ্চমার্ক, সবই একটিমাত্র চুক্তির অধীনে। কিছু নির্দিষ্ট বিষয়:

  • বাস্তব জগতের ধারণকৃত চিত্র, ল্যাবের ফুটেজ নয়। রান্নাঘর, গুদাম, কারখানা, স্বাস্থ্যকেন্দ্র এবং দোকান জুড়ে হেড-মাউন্টেড ক্যামেরা, স্মার্ট গ্লাস এবং পরিধানযোগ্য ডিভাইস।
  • একাধিক সেন্সরের সিঙ্ক্রোনাইজেশন। ভিডিও, আইএমইউ, লাইডার, অডিও এবং ডেপথ — মিলিসেকেন্ড পর্যন্ত ক্যালিব্রেট ও টাইম-অ্যালাইন করা।
  • ভিএলএ প্রশিক্ষণের জন্য নির্মিত টীকা। বস্তু, ক্রিয়া, হাত ও বস্তুর পারস্পরিক ক্রিয়া, অভিপ্রায় এবং স্থানিক প্রেক্ষাপট।
  • সিম-টু-রিয়েল সাপোর্ট। সিন্থেটিক জেনারেশন এবং রিয়েলটুসিম পাইপলাইন, যা বাস্তব জগতের ভিত্তি না হারিয়েই পরিধি প্রসারিত করে।
  • প্রথম দিন থেকেই নিয়ম মেনে চলা। ISO 27001, SOC 2 Type II, HIPAA-রেডি, এবং GDPR — সম্মতি-ভিত্তিক সংগ্রহ এবং নিরীক্ষার জন্য প্রস্তুত ডেটার উৎস সহ।

আপনার ফিজিক্যাল এআই প্রোগ্রামের ভবিষ্যৎ গতিপথ যদি এর সাথে মিলে যায়, তবে আমরা একটি পাইলট প্রকল্প খতিয়ে দেখতে আগ্রহী।

উপসংহার

একটি ইগোসেন্ট্রিক ডেটাসেট শুধু ফার্স্ট-পার্সন ভিডিও নয়। এটি মেশিনকে মানুষের মতো করে দেখতে ও কাজ করতে শেখানোর একটি কাঠামোগত পদ্ধতি। রোবোটিক্স এবং এমবডিড এআই দলগুলোর জন্য, এটি এমন একটি মডেলের মধ্যে পার্থক্য গড়ে দেয় যা ভালোভাবে ডেমো দেখায় এবং এমন একটি মডেল যা বাজারে ছাড়া যায়। লক্ষ্য হিউম্যানয়েড, স্বয়ংক্রিয়তা বা স্মার্ট ফ্যাক্টরি যা-ই হোক না কেন, রোবোটিক্স এবং এআই উন্নয়নের জন্য ইগোসেন্ট্রিক ডেটা প্রতিটি গুরুত্বপূর্ণ এমবডিড এআই ডেটাসেট কৌশলের একটি মূল স্তরে পরিণত হচ্ছে — এটি কোনো ঐচ্ছিক বিষয় নয়। যে দলগুলো এটি সঠিকভাবে করছে, তারা ডেটাকে — সংগ্রহ, টীকা সংযোজন, যাচাইকরণ এবং সম্মতি — সিস্টেমের একটি মূল অংশ হিসেবে বিবেচনা করে, এর আগের কোনো ধাপ হিসেবে নয়।

এটি প্রথম-ব্যক্তির দৃষ্টিকোণ থেকে ধারণ করা ভিডিও এবং সেন্সর রেকর্ডিংয়ের একটি সুসংগঠিত সেট — সাধারণত মাথা, বুক বা কব্জিতে পরা ক্যামেরা থেকে — যা মানুষ কীভাবে দেখে এবং কাজ করে, সে বিষয়ে এআই সিস্টেমকে প্রশিক্ষণ দিতে ব্যবহৃত হয়।

থার্ড-পার্সন ভিডিও একজন দর্শকের দৃষ্টিকোণ থেকে দৃশ্যটি দেখায়। রোবট তার নিজস্ব দৃষ্টিকোণ থেকে কাজ করে। ফার্স্ট-পার্সন ডেটার উপর প্রশিক্ষণ মডেল যা শেখে এবং রোবট বাস্তবে কাজে যা দেখে, তার মধ্যকার ব্যবধান কমিয়ে আনে, এবং এর ফলে ম্যানিপুলেশন টাস্কগুলিতে ১৫-৩০% পর্যন্ত নির্ভুলতা বৃদ্ধির প্রমাণ পাওয়া গেছে।

আরজিবি ক্যামেরা, ডেপথ সেন্সর, মোশন (আইএমইউ) সেন্সর এবং অডিও। অনেক সেটআপে হ্যান্ড বা আই ট্র্যাকিংও যুক্ত করা হয়। স্বয়ংক্রিয় রোবটিক্সের জন্য, স্থানিক ম্যাপিংয়ের উদ্দেশ্যে কখনও কখনও লাইডার (LiDAR) ব্যবহার করা হয়।

ভিএলএ মডেলগুলো একটি চাক্ষুষ ইনপুট ও একটি ভাষার নির্দেশনা গ্রহণ করে এবং তারপর একটি ক্রিয়া সম্পাদন করে। ইগোসেন্ট্রিক ডেটা তাদের সেই সঙ্গতিপূর্ণ দৃশ্য, নির্দেশনা এবং ফলাফলের ত্রয়ী সরবরাহ করে, যা এই ম্যাপিংটি নির্ভরযোগ্যভাবে শেখার জন্য তাদের প্রয়োজন।

তিনটি বিষয়: আরও উন্নত মানের টীকা, পরীক্ষাগারের পরিবর্তে বাস্তব জগতের পরিবেশে ব্যাপকতর পরিধি, এবং সম্মতি, গোপনীয়তা ও নিরীক্ষার জন্য প্রস্তুত ডেটার উৎস সংক্রান্ত একটি নথিভুক্ত সম্মতি-পথ।

এই নিবন্ধটি কি আপনার ভালো লেগেছে? আরও আপডেটের জন্য লিঙ্কডইনে শাইপকে অনুসরণ করুন।

সামাজিক ভাগ