স্পর্শ সংবেদন ডেটা

স্পর্শ সংবেদনের ডেটা: যে রোবটগুলো সত্যিই অনুভব করতে পারে, তাদের প্রশিক্ষণের পেছনের সংকেত

রোবট দেখতে পারে। ইন্টারনেট-ভিত্তিক ছবির ডেটাসেট এবং এক দশকের পরিমার্জিত মডেলই এটি সম্ভব করেছে। কিন্তু একটি রোবটকে যদি সত্যি সত্যি একটি আধ-ভাঙা কার্টন তুলতে, তার ঢোকাতে, বা একজন সার্জনের হাতে যন্ত্র তুলে দিতে বলা হয়, তবে সব তালগোল পাকিয়ে যায়। এর কারণ ক্যামেরাগুলো ব্যর্থ হয়েছে তা নয়। কারণ, রোবটের প্রশিক্ষণে তাকে কখনোই শেখানো হয়নি স্পর্শের অনুভূতি ঠিক কেমন হওয়া উচিত। স্পর্শই হলো সেই ইন্দ্রিয় যা ফিজিক্যাল এআই ভুলে গেছে, এবং এর কারণ বেশিরভাগ দলের ধারণার চেয়েও সহজ: প্রশিক্ষণের জন্য প্রয়োজনীয় সংকেতটি এখনও তৈরিই হয়নি। এই লেখাটি সেই সংকেতটি নিয়েই — স্পর্শ সংবেদন ডেটাএর মধ্যে আসলে কী থাকে, এটি কীভাবে উৎপাদিত হয়, এবং ব্যবহারযোগ্য হওয়ার আগে একে কী দিয়ে চিহ্নিত করতে হয়। এই তিনটি প্রশ্নের যেকোনো একটি বাদ দিলে, মডেলগুলো সেই একটি দিক থেকে অজ্ঞ থেকে যায় যা কারসাজির জন্য সবচেয়ে বেশি গুরুত্বপূর্ণ।

স্পর্শ সংবেদন ডেটার মধ্যে চারটি সংকেত শ্রেণী

স্পর্শ সংবেদন ডেটার ভিতরে চারটি সংকেত শ্রেণী

প্রথম যে ভুলটি হয় তা হলো, “স্পর্শ”কে একটি একক বিভাগ হিসেবে গণ্য করা হয়। বাস্তবে, চালনা শিখতে থাকা একটি মডেলের চারটি স্বতন্ত্র সংকেত শ্রেণীর প্রয়োজন হয়, যার প্রতিটি ভিন্ন ভিন্ন হার্ডওয়্যার দ্বারা ধারণ করা হয় এবং প্রতিটি মডেলকে ভিন্ন কিছু শেখায়। চাপের বণ্টন রোবটকে বলে দেয় কোথায় এবং কিভাবে হার্ড কন্টাক্ট প্যাচ জুড়ে সংস্পর্শ ঘটছে — যা গ্রিপারের ভিতরে বস্তুর গ্রাস্প কোয়ালিটি এবং পোজ অনুমান করার জন্য যথেষ্ট। ভাইব্রেশন উচ্চ-ফ্রিকোয়েন্সির ক্ষণস্থায়ী পরিবর্তনগুলি ধারণ করে: এই ক্ষুদ্র ঘটনাগুলি পিছলে যাওয়া, সংঘর্ষ, বা একটি টেক্সচারযুক্ত পৃষ্ঠের অন্যটির উপর দিয়ে পিছলে যাওয়ার সময় সৃষ্ট কর্কশ শব্দের সংকেত দেয়। বল এবং টর্ক কব্জি বা জয়েন্টে মোট যান্ত্রিক আদান-প্রদানকে বর্ণনা করে — যা একটি বোতাম চাপা এবং সেটিকে বাঁকানোর মধ্যে পার্থক্য। প্রোপ্রিওসেপশন হলো রোবটের নিজের শরীর সম্পর্কে অনুভূতি: আঙুলের অবস্থান, গ্রিপারের খোলা অংশ, এবং ঠিক সংস্পর্শ ঘটার মুহূর্তে জয়েন্টের অবস্থা। এগুলির যেকোনো একটির উপর বিচ্ছিন্নভাবে প্রশিক্ষিত একটি মডেল কার্যকরীভাবে এক-হাতের হয়ে থাকে।

সংকেত শ্রেণী এটা কি পরিমাপ সাধারণ ক্যাপচার হার এটি মডেলকে যা শেখায়
চাপ সংস্পর্শের স্থান, আকৃতি, তীব্রতা 100-500 হার্জেড গ্রিপারে বস্তুর অবস্থান এবং ধরার মান
কম্পন উচ্চ-ফ্রিকোয়েন্সি কন্টাক্ট ট্রানজিয়েন্ট 1-5 kHz স্লিপ অনসেট, সংঘর্ষ, পৃষ্ঠের টেক্সচার
বল / টর্ক একটি সংযোগস্থলে মোট যান্ত্রিক লোড 500-1,500 হার্জেড সন্নিবেশ বল, সম্মতি, নিরাপদ-যোগাযোগ সীমা
প্রোপ্রায়োসেপশন গ্রিপার এবং জয়েন্টের অবস্থা 100-1,000 হার্জেড শারীরিক সচেতনতা, বিকৃতি অনুমান

স্পর্শ সংবেদনের তথ্য আসলে কীভাবে সংগ্রহ করা হয়

দৃষ্টি সংক্রান্ত ডেটার মতো, এর কোনো অংশই স্ক্র্যাপ করা যায় না। প্রতিটি নমুনা একটি বাস্তব সেন্সর দ্বারা একটি বাস্তব বস্তুকে স্পর্শ করিয়ে সংগ্রহ করতে হয়। এর তিনটি ব্যবহারিক সংগ্রহ পদ্ধতি রয়েছে, এবং প্রোডাকশন-গ্রেড প্রোগ্রামগুলো সাধারণত তিনটিই সমান্তরালভাবে চালায়।

টেলিঅপারেটেড মানব প্রদর্শনী

একজন দক্ষ অপারেটর রোবটটিকে দিয়ে কোনো কাজ—যেমন কোনো কিছু তোলা, ঢোকানো, বা হস্তান্তর করা—চালিয়ে থাকেন এবং একই সময়ে এর সমস্ত সেন্সর তা রেকর্ড করে। যেহেতু এই প্রক্রিয়ায় একজন মানুষ জড়িত থাকে, তাই রোবটটির গতিপথ স্বভাবতই সফল ও বৈচিত্র্যময় হয় এবং এটি মানুষের সেইসব অব্যক্ত কৌশলকে ধারণ করে, যা তারা ছোটখাটো ভুল থেকে সামলে ওঠার জন্য ব্যবহার করে। এটাই হলো অনুকরণ-শিক্ষণ এবং দৃষ্টি-ভাষা-কর্ম পাইপলাইনের মূল ভিত্তি।

স্ক্রিপ্টেড ইন্টারঅ্যাকশন রিগ

রোবটটি আগে থেকে বাছাই করা কিছু বস্তুর উপর প্রোগ্রাম করা গতিবিধি প্রয়োগ করে, প্রায়শই বিভিন্ন গতি, কোণ এবং চাপে। নির্দিষ্ট সংস্পর্শ পদ্ধতির কভারেজের জন্য এই মোডটি অপ্রতিদ্বন্দ্বী — যেমন, "দশটি ভিন্ন প্রবেশ কোণ এবং তিনটি ঘর্ষণ পরিস্থিতিতে এই সংযোগকারীটির পঞ্চাশবার প্রবেশ করানো।" এভাবেই এমন ডেটাসেট তৈরি করা হয় যা একটিমাত্র ভেরিয়েবলকে আলাদা করে।

মোতায়েনকালীন ক্যাপচার

একটি রোবট একবার বাস্তব পরিবেশে চলতে শুরু করলে, প্রতিটি শিফট নতুন ডেটা তৈরি করে — যার মধ্যে এমন সব বিরল ঘটনাও থাকে যা আপনি স্ক্রিপ্ট করার কথা কখনো ভাবেননি। স্থাপন এবং পুনঃপ্রশিক্ষণের মধ্যকার চক্রটি সম্পূর্ণ করার মাধ্যমেই দীর্ঘমেয়াদী সক্ষমতার উন্নতি সাধিত হয়।

ভাবুন তো, একটি অ্যাপ্লায়েন্স প্রস্তুতকারক সংস্থা ডিশওয়াশারের ওয়্যারিং হারনেস রাউটিংয়ের জন্য একটি ডুয়াল-আর্ম সেল চালু করছে। সিমুলেশনের মাধ্যমে দলটি একটি কার্যকরী প্রোটোটাইপ তৈরি করতে সক্ষম হয়। ছয় সপ্তাহ ধরে দূরনিয়ন্ত্রিত প্রদর্শনীর মাধ্যমে—যেখানে একজন অভিজ্ঞ টেকনিশিয়ান শত শত আসল হারনেসের মধ্যে দিয়ে আর্ম দুটিকে চালনা করেন এবং সম্পূর্ণ ট্যাকটাইল স্ট্যাক তা রেকর্ড করে—এটি উৎপাদন পর্যায় পার করতে সক্ষম হয়। এই মাপের প্রোগ্রাম পরিচালনাকারী দলগুলো সাধারণত একজন বিশেষজ্ঞের উপর নির্ভর করে। ভৌত এআই ডেটা সংগ্রহের অংশীদার অপারেটরদের নিয়োগ করা, রিগগুলোর মধ্যে সমন্বয় সাধন করা এবং বিভিন্ন মাধ্যমের মধ্যে সিঙ্ক্রোনাইজেশন পরিচালনা করা, যা প্রাপ্ত ডেটাকে প্রকৃতপক্ষে প্রশিক্ষণযোগ্য করে তোলে।

সিমুলেশন সম্পর্কে একটি কথা: এটি মূল্যবান, কিন্তু এটি নিজে থেকে স্পর্শানুভূতির প্রকৃত রূপ দিতে পারে না। সিমুলেটেড স্পর্শ পদার্থবিদ্যা এখনও বাস্তব জগতের ঘর্ষণ, বিকৃতি এবং পিছলে যাওয়া থেকে উল্লেখযোগ্যভাবে ভিন্ন হয় — বিশেষ করে নমনীয় বা প্রসারণশীল পদার্থের ক্ষেত্রে। কৃত্রিম স্পর্শানুভূতির ডেটা একটি বাস্তব ডেটাসেটকে সমৃদ্ধ করে। এটি সেটিকে প্রতিস্থাপন করে না।

স্পর্শযোগ্য ডেটা কী দিয়ে লেবেল করা প্রয়োজন

কাঁচা সেন্সর স্ট্রিমগুলো ট্রেনিং ডেটা নয়। এগুলো তখনই ট্রেনিং ডেটা হয়ে ওঠে, যখন অ্যানোটেটররা চিহ্নিত করেন যে আসলে কী ঘটেছিল, কখন ঘটেছিল এবং তা কতটা ভালোভাবে সম্পন্ন হয়েছিল। পাঁচটি লেবেল পরিবার সবচেয়ে বেশি গুরুত্বপূর্ণ।

কোন স্পর্শজনিত তথ্য লেবেল করা প্রয়োজন

উপলব্ধি-ফলাফল লেবেল: সফল, ফসকে যাওয়া, পুনরায় আয়ত্ত করা, ব্যর্থ — প্রতিটি কারসাজির ক্ষেত্রে প্রযোজ্য। এগুলোই হলো পরবর্তী সবকিছুর জন্য তত্ত্বাবধানের সংকেত।

সংস্পর্শ-ব্যবস্থার সীমানা এবং স্লিপ-অনসেট টাইমস্ট্যাম্প: যে মুহূর্তে গ্রিপারটি বস্তুটিকে স্পর্শ করে। যে মুহূর্তে বস্তুটি গ্রিপের মধ্যে নড়তে শুরু করে। ছেড়ে দেওয়ার মুহূর্ত। এখানকার নির্ভুলতা কয়েক দশ মিলিসেকেন্ডে পরিমাপ করা হয়, কারণ শেখার মতো প্যাটার্নটি সেখানেই থাকে।

বলের মানের বন্ধনী: প্রতিটি মিথস্ক্রিয়া পর্যায়ে—অর্থাৎ কাছে আসা, স্পর্শ, আসনে বসা, ধরে রাখা এবং ছেড়ে দেওয়া—বলের বিচ্ছিন্ন বিন। এগুলো মডেলকে শিখতে সাহায্য করে যে একটি “স্বাভাবিক” প্রবেশ বলের প্রোফাইল দেখতে কেমন হয়, এবং এর ফলে কোনো অস্বাভাবিকতা শনাক্ত করতে পারে।

দৃষ্টি-স্পর্শ যুগল লেবেল: প্রতিটি স্পর্শজনিত ঘটনা তার সাথে থাকা দৃশ্যগত কাঠামো এবং সেই মুহূর্তের প্রোপ্রিওসেপ্টিভ অবস্থার সাথে সামঞ্জস্যপূর্ণ থাকে। অসামঞ্জস্যপূর্ণ ইন্দ্রিয়গুলো মডেলকে আত্মবিশ্বাসী ভুল সম্পর্ক শেখায়, যা কোনো ডেটা না থাকার চেয়েও খারাপ।

বিকৃতি এবং সম্মতি অনুমান: নমনীয়, নরম বা ভঙ্গুর বস্তুর ক্ষেত্রে, টীকাকাররা লিপিবদ্ধ করেন যে ধরার ফলে বস্তুটি কীভাবে পরিবর্তিত হয়েছে এবং স্পর্শের ফলে কতটা নমনীয়তা তৈরি হয়েছে।

এই কূপটিকে চিহ্নিত করা ছবি ট্যাগ করার চেয়ে বরং কাউকে শুনে শুনে বাদ্যযন্ত্র বাজাতে শেখানোর মতো। টীকাকার কোনো পথচারীর চারপাশে বাক্স আঁকছেন না; তারা ১,৫০০ হার্জের একটি সংকেতে ঠিক কোন মুহূর্তে একটি প্যাটার্ন পরিবর্তিত হয়েছে তা শনাক্ত করছেন এবং সেই পরিবর্তনের অর্থ কী তা নামকরণ করছেন। প্রোডাকশন প্রোগ্রামগুলো উদ্দেশ্য-প্রণোদিতভাবে নির্মিত সরঞ্জামের উপর নির্ভর করে। স্পর্শকাতর এবং মাল্টিমোডাল টীকা কর্মপ্রবাহ পর্যায়ক্রমিক মান নিয়ন্ত্রণের মাধ্যমে, কারণ একজন অসতর্ক অ্যানোটেটর নীরবে পুরো প্রশিক্ষণ পর্বটিকে নষ্ট করে দিতে পারে।

উপসংহার — “অনুভব করতে পারে না” থেকে “কিসের জন্য অনুভব করতে হবে তা জানে”

দেখতে পারা রোবট থেকে অনুভব করতে পারা রোবটে উত্তরণটি হার্ডওয়্যারের কোনো পরিবর্তন নয়। এটি হলো ডেটার পরিবর্তন, যা মডেলগুলোকে শেখায় স্পর্শের প্রকৃত অর্থ কী। চাপ, কম্পন, বল, প্রোপ্রিওসেপশন—এগুলো সবই একযোগে ধারণ করা হয়, বাস্তব মিথস্ক্রিয়ার মাধ্যমে সংগ্রহ করা হয় এবং পদার্থবিদ্যার চাহিদা অনুযায়ী নিখুঁতভাবে টীকাযুক্ত করা হয়। যে দলগুলো তৈরি করছে... ভৌত এআই সিস্টেম যাঁরা শুধু প্রদর্শনীতেই নয়, বরং প্রতিটি শিফটে কাজ করেন, তাঁরাই স্পর্শ সংবেদনের ডেটাকে তার প্রকৃত প্রশিক্ষণ সংকেত হিসেবে বিবেচনা করেন: যা সংকীর্ণ, ব্যয়বহুল, অপরিবর্তনীয় এবং সেই একক স্তর যা একটি রোবটকে শুধু জগৎ পর্যবেক্ষণকারী থেকে এমন কিছুতে রূপান্তরিত করে যা জগতে নির্ভরযোগ্যভাবে কাজ করতে পারে।

স্পর্শবিন্দুতে বা তার কাছাকাছি সংগৃহীত যেকোনো সেন্সর সংকেত — যেমন চাপের মানচিত্র, কম্পনের রেখাচিত্র, বল-টর্কের পাঠ এবং স্পর্শকালীন রোবটের নিজস্ব অবস্থান-সংবেদী অবস্থা। কার্যকরী সংজ্ঞাটি এই চারটি শ্রেণীকেই অন্তর্ভুক্ত করে, কারণ এগুলোর প্রায় সবসময়ই একসাথে প্রয়োজন হয়।

তিনটি ব্যবহারিক পদ্ধতি হলো: দূরনিয়ন্ত্রিত মানব প্রদর্শনী, নির্দিষ্ট পরিস্থিতি পৃথককারী স্ক্রিপ্টযুক্ত ইন্টারঅ্যাকশন রিগ, এবং কার্যরত রোবট থেকে মোতায়েনকালীন তথ্য ধারণ। উৎপাদন কর্মসূচিতে এই তিনটিই ব্যবহৃত হয়।

আংশিকভাবে। ব্যাপক পরিসরে এবং বিরল পরিস্থিতিগুলোর জন্য সিমুলেশন চমৎকার, কিন্তু সিমুলেটেড স্পর্শ পদার্থবিদ্যা এখনও বাস্তবতা থেকে বিচ্যুত হয় — বিশেষ করে ঘর্ষণ, পিছলে যাওয়া এবং নমনীয় পদার্থের ক্ষেত্রে। কৃত্রিম স্পর্শ-সংক্রান্ত তথ্য বাস্তব তথ্যের পরিপূরক; এটি তার বিকল্প নয়।

উপলব্ধির ফলাফল, সংস্পর্শ-পরিসরের সীমানা ও পিছলে যাওয়ার সময়কাল, প্রতিটি পর্যায়ে বলের মাত্রার সীমা, দৃষ্টি-স্পর্শের সমন্বয়, এবং বিকৃতি বা নমনীয়তার অনুমান। প্রতিটি লেবেল পরিবার মডেলটিকে ম্যানিপুলেশনের একটি ভিন্ন দিক শেখায়।

কারণ স্পর্শ-সংক্রান্ত ডেটা শুধুমাত্র শারীরিক সংস্পর্শের মাধ্যমেই তৈরি করা যায় — সেন্সর ধরে ধরে, বস্তু ধরে ধরে, পর্ব ধরে ধরে। এর কোনো স্ক্র্যাপিং বিকল্প নেই, আর ঠিক এই কারণেই বিশেষভাবে তৈরি ডেটা সংগ্রহ এবং টীকা সংযোজন প্রোগ্রামগুলো ফিজিক্যাল এআই-এর ক্ষেত্রে প্রতিবন্ধকতা দূরকারী হিসেবে কাজ করে।

এই নিবন্ধটি কি আপনার ভালো লেগেছে? আরও আপডেটের জন্য লিঙ্কডইনে শাইপকে অনুসরণ করুন।

সামাজিক ভাগ