গত এক দশক ধরে কৃত্রিম বুদ্ধিমত্তা মূলত পর্দাতেই সীমাবদ্ধ ছিল। এটি প্রশ্নের উত্তর দিত, বাক্য সম্পূর্ণ করত, ছবি সাজাত এবং এরপর কী দেখতে হবে তার পরামর্শ দিত। সেই যুগের অবসান ঘটছে। কৃত্রিম বুদ্ধিমত্তার পরবর্তী প্রজন্মের রয়েছে হাত, চাকা, রোটর এবং সেন্সর — এবং একে গুদাম, হাসপাতাল, খামার ও শহরের রাস্তায় নির্ভরযোগ্যভাবে কাজ করতে বলা হচ্ছে। শারীরিক এআইএমন বুদ্ধিমত্তা যা বাস্তব জগতে উপলব্ধি করে, সিদ্ধান্ত নেয় এবং কাজ করে, এবং তারপর যা ঘটেছে তা থেকে শেখে। এটি স্ব-চালিত গাড়ি, হিউম্যানয়েড সহকারী এবং শিল্পজুড়ে আবির্ভূত স্বায়ত্তশাসিত বুদ্ধিমত্তার নেপথ্যের এক নীরব স্তর। আর এর ভিত্তি কোনো চিপ বা ক্লাউড পরিকাঠামো নয় — বরং সেই ডেটা, যা যন্ত্রকে শেখায় যে ভৌত জগৎ আসলে কীভাবে আচরণ করে।
ভৌত কৃত্রিম বুদ্ধিমত্তাকে এর পূর্ববর্তী সবকিছু থেকে কী আলাদা করে?
জেনারেটিভ এআই মডেলগুলোকে ইন্টারনেট থেকে সংগৃহীত টেক্সট এবং ছবির ওপর প্রশিক্ষণ দেওয়া হয়। এগুলো বিভিন্ন আউটপুট—যেমন বাক্য, ছবি, কোড—তৈরি করে এবং সেখানেই তাদের কাজ শেষ হয়ে যায়। অপর প্রান্তে থাকা ক্লাসিক্যাল রোবটগুলো কঠোরভাবে নিয়ন্ত্রিত পরিবেশে সুনির্দিষ্ট স্ক্রিপ্ট অনুযায়ী নির্দেশাবলী অনুসরণ করে। ফিজিক্যাল এআই সম্পূর্ণ ভিন্ন একটি শ্রেণীতে পড়ে। এটি একটি চক্র সম্পূর্ণ করে: পরিবেশকে অনুভব করা, সেটিকে ব্যাখ্যা করা, তার ওপর ভিত্তি করে কাজ করা এবং যা ঘটেছে তার ওপর নির্ভর করে পরবর্তী পদক্ষেপকে আরও উন্নত করা। এই চক্রটিকে ঘর্ষণ, বিলম্ব, সেন্সরের আংশিক ব্যর্থতা, অপ্রত্যাশিত আচরণকারী মানুষ এবং পদার্থবিজ্ঞানের নিয়মের অধীনে চলতে হয়। একটি জেনারেটিভ মডেল অলীক কল্পনা সহ্য করতে পারে। একটি ফর্কলিফট তা পারে না।
| মাত্রা | ঐতিহ্যবাহী / জেনারেটিভ এআই | শারীরিক এআই |
|---|---|---|
| অপারেটিং এনভায়রনমেন্ট | ডিজিটাল, স্থির ডেটাসেট | ভৌত জগৎ, গতিশীল পরিস্থিতি |
| উপকরণ | লেখা, ছবি, অডিও | মাল্টিমোডাল সেন্সর ডেটা — ভিশন, লাইডার, ডেপথ, অডিও, ট্যাকটাইল, আইএমইউ |
| আউটপুট | পূর্বাভাস, বিষয়বস্তু, সুপারিশ | অ্যাকচুয়েটর এবং কন্ট্রোলের মাধ্যমে বাস্তব জগতের কার্যকলাপ |
| ব্যর্থতার খরচ | নিম্ন থেকে মধ্যম | উচ্চ — নিরাপত্তা, সরঞ্জাম, মানুষ |
| ফিডব্যাক লুপ | ব্যাচ পুনঃপ্রশিক্ষণ | ক্রমাগত উপলব্ধি-সিদ্ধান্ত-কর্ম-শিক্ষা |
কেন ডেটাই হলো এআই-এর প্রকৃত ভৌত ভিত্তি

ধরুন, একটি মাঝারি আকারের লজিস্টিকস অপারেটর তিনটি গুদামে স্বয়ংক্রিয় পণ্য বাছাইকারী রোবট চালু করছে। বিক্রেতার জন্য আয়োজিত প্রদর্শনীতে রোবটগুলো চমৎকারভাবে কাজ করছিল — একই আলো, একই প্যালেটের উচ্চতা, একই পথের চিহ্ন। কিন্তু বাস্তবে ব্যবহারের দ্বিতীয় সপ্তাহেই এর কার্যকারিতা ভেঙে পড়ল। একটি গুদামে চকচকে ইপোক্সির মেঝে থাকায় ডেপথ সেন্সরগুলো বিভ্রান্ত হচ্ছিল। অন্য একটি গুদামে আধভাঙা কার্টন রাখা ছিল, যা রোবটটির পারসেপশন মডেল আগে কখনো দেখেনি। তৃতীয় গুদামটিতে ভিন্ন ধরনের আলোতে দ্বিতীয় শিফট চলছিল। এর পেছনের মডেলটি ভুল ছিল না। এটি কেবল বাস্তব জগতের সাথে পরিচিত হয়নি।
এটাই সেই বাস্তবতা যার মুখোমুখি প্রতিটি ফিজিক্যাল এআই টিমকে শেষ পর্যন্ত হতে হয়। ডিজিটাল এআই-এর মতো নয়, যেখানে ট্রেনিং ডেটা স্ক্র্যাপ, কপি এবং সস্তায় পুনরায় ব্যবহার করা যায়, ফিজিক্যাল এআই মডেলগুলোর জন্য বিশেষভাবে সংগৃহীত মাল্টিমোডাল ডেটার প্রয়োজন হয় যা বাস্তব পরিবেশের নানান জটিলতা—যেমন বিভিন্ন ধরনের আলো, আবহাওয়া, প্রতিবন্ধকতা, ক্ষয়ের ধরণ, ব্যতিক্রমী পরিস্থিতি এবং বিরল ঘটনা—তুলে ধরে। এই ডেটা তৈরি করা ধীর এবং ব্যয়বহুল, আর একারণেই এই ক্ষেত্রে দ্রুততম গতিতে এগিয়ে চলা সংস্থাগুলো তাদের ডেটাকে অত্যন্ত যত্ন সহকারে তৈরি করে। ফিজিক্যাল এআই ডেটা পাইপলাইন একটি পার্শ্ব প্রকল্প হিসেবে নয়, বরং একটি প্রথম শ্রেণীর সক্ষমতা হিসেবে। যখন ডেটার ভিত্তি শক্তিশালী হয়, তখন এর উপরের প্রতিটি স্তর—উপলব্ধি, যুক্তি, কর্ম, নিরাপত্তা—উপকার পায়। যখন এটি দুর্বল হয়, তখন প্রতিটি স্তরই সেই দুর্বলতা উত্তরাধিকার সূত্রে পায়।
উৎপাদন-উপযোগী ভৌত এআই সিস্টেমের চারটি স্তম্ভ
একটি সক্ষম ফিজিক্যাল এআই সিস্টেম চারটি আন্তঃসংযুক্ত স্তম্ভের উপর দাঁড়িয়ে থাকে। এর যেকোনো একটিতে কম বিনিয়োগ করলে পুরো কাঠামোটিই নড়বড়ে হয়ে পড়ে।

- বহুমাধ্যম উপলব্ধি ডেটা। একটি যন্ত্র কোনো সিদ্ধান্ত নেওয়ার বা কাজ করার আগে, তাকে দেখতে হয়। এর জন্য প্রয়োজন স্টেরিও ক্যামেরা, লাইডার, রাডার, ডেপথ সেন্সর, মাইক্রোফোন, আইএমইউ, এবং কখনও কখনও ফোর্স বা ট্যাকটাইল সেন্সর—এগুলো সবই সময়-সমন্বিত ডেটা স্ট্রিম তৈরি করে। এই কাজটি সঠিকভাবে করা একটি সিস্টেমগত সমস্যা: সেন্সরের অবস্থান, ক্যালিব্রেশন, সিঙ্ক্রোনাইজেশন, এবং সিস্টেমটি বাস্তবে যেসব পরিস্থিতির সম্মুখীন হবে, তার দীর্ঘমেয়াদী চিত্র ধারণ করার ক্ষমতা। বেশিরভাগ প্রোডাকশন-গ্রেড টিম তাদের নিজস্ব সরঞ্জামের বহরের সাথে একজন বিশেষজ্ঞকে একত্রিত করে। তথ্য সংগ্রহের অংশীদার তাদের মডেলগুলোর জন্য প্রয়োজনীয় ভৌগোলিক, জনসংখ্যাতাত্ত্বিক এবং পরিবেশগত বৈচিত্র্যে পৌঁছানোর জন্য।
- সিমুলেশন এবং সংশ্লেষিত ডেটা। শুধুমাত্র বাস্তব জগতের চিত্র ধারণ করে যথেষ্ট বিরল ঘটনা তৈরি করা সম্ভব নয়। আপনি নিরাপদে হাজারো অল্পের জন্য দুর্ঘটনা থেকে বেঁচে যাওয়া পথচারীর দৃশ্য মঞ্চস্থ করতে পারবেন না, কিংবা একটি সার্জিক্যাল রোবট যেসব আলোর অবস্থার সম্মুখীন হতে পারে, তার প্রত্যেকটির চিত্রগ্রহণ করতে পারবেন না। সিমুলেশন সেই শূন্যস্থান পূরণ করে। উচ্চ-মানের ফিজিক্স ইঞ্জিন, ডিজিটাল টুইন এবং ওয়ার্ল্ড ফাউন্ডেশন মডেলগুলো এখন ফিজিক্যাল এআই মডেলগুলোকে প্রি-ট্রেইন ও স্ট্রেস-টেস্ট করার জন্য কৃত্রিম দৃশ্যকল্প—যার মধ্যে প্রান্তিক পরিস্থিতিও অন্তর্ভুক্ত—তৈরি করে। কৃত্রিম এবং বাস্তব ডেটা মিশ্রিত করার মাধ্যমে সেরা ফলাফল পাওয়া যায়, যাতে মডেলটি কোনোটির সাথেই অতিরিক্ত খাপ খাইয়ে না নেয়।
- বৃহৎ পরিসরে গ্রাউন্ড-ট্রুথ টীকা। এখানেই বেশিরভাগ ফিজিক্যাল এআই প্রোগ্রাম আটকে যায়। কাঁচা সেন্সর ডেটা ততক্ষণ পর্যন্ত ট্রেনিং ডেটা হিসেবে গণ্য হয় না, যতক্ষণ না এতে সঠিক লেবেল যুক্ত হয় — যেমন ৩ডি বাউন্ডিং বক্স, সিমান্টিক সেগমেন্টেশন, লেন লাইন, স্কেলেটাল পোজ, টেম্পোরাল ইভেন্ট বাউন্ডারি, এবং বিভিন্ন মোডালিটির মধ্যে সেন্সর ফিউশন। অ্যানোটেশনকে একটি ড্রাইভিং স্কুলের মতো করে ভাবুন: একজন শিক্ষার্থী চালক ফুটেজ দেখে শেখে না, তারা শেখে কারণ একজন প্রশিক্ষক তাকে বারবার এবং ধারাবাহিকভাবে দেখিয়ে দেন যে পথচারী কী, ইয়েল্ড সাইনের অর্থ কী, এবং "খুব কাছাকাছি" দেখতে কেমন। ফিজিক্যাল এআই মডেলগুলোও একইভাবে শেখে, এবং সেই প্রশিক্ষণের মানই পরবর্তী সবকিছুর সর্বোচ্চ সীমা নির্ধারণ করে দেয়। যে দলগুলো বড় পরিসরে কাজ করতে আগ্রহী, তারা সাধারণত একটি ডেডিকেটেড সিস্টেমের উপর নির্ভর করে। ডেটা টীকা কর্মপ্রবাহ যথেচ্ছ লেবেলিংয়ের পরিবর্তে বহুস্তরীয় মান নিয়ন্ত্রণ ব্যবস্থা।
- অবিরাম শেখার চক্র। একবার স্থাপন করা হলে, ফিজিক্যাল এআই সিস্টেমগুলো ক্রমাগত অপারেশনাল ডেটা তৈরি করতে থাকে — যেমন সাফল্য, অল্পের জন্য ব্যর্থতা এবং প্রকৃত ব্যর্থতা। সেই ডেটা পুনরায় প্রশিক্ষণ, সিমুলেশন রিফ্রেশ এবং নির্দিষ্ট ক্ষেত্রে পুনঃটীকা প্রদানে ব্যবহৃত হয়। যে সংস্থাগুলো এই প্রক্রিয়াটি সম্পূর্ণ করে, তারা ক্রমবর্ধমান উন্নতি দেখতে পায়। আর যারা তা করে না, তারা নীরবে তাদের পারফরম্যান্সের অবনতি দেখতে থাকে, যতক্ষণ না জনসমক্ষে কোনো সমস্যা দেখা দেয়।
যেখানে ভৌত এআই ইতিমধ্যে কাজ করছে

এই প্রযুক্তি কাল্পনিক নয়। স্বচালিত যানবাহনগুলো শহরের দৃশ্য বুঝতে এবং নির্মাণাধীন এলাকা সামলাতে দৃষ্টি-ভাষা-কর্ম মডেল ব্যবহার করে। হিউম্যানয়েড ও মোবাইল রোবটগুলো গুদামে প্রবেশ করছে, পণ্য স্থানান্তর করছে এবং পুনরায় মজুত করতে সহায়তা করছে। সূক্ষ্ম অস্ত্রোপচারে সহায়তা করার জন্য সার্জিক্যাল প্ল্যাটফর্মগুলোকে সিমুলেশনের মাধ্যমে প্রশিক্ষণ দেওয়া হচ্ছে। ড্রোনগুলো এমন পরিস্থিতিতে উইন্ড টারবাইন, পাইপলাইন এবং সঞ্চালন লাইন পরিদর্শন করে, যা মানুষের পক্ষে অনিরাপদ। কৃষি প্ল্যাটফর্মগুলো প্রতিটি গাছের জন্য নিখুঁতভাবে আগাছা পরিষ্কার, স্প্রে এবং ফসল সংগ্রহ করছে। বহুল উদ্ধৃত একটি অনুমান অনুসারে, এই দশকের শেষ নাগাদ উন্নত অর্থনীতিগুলোতে এআই-চালিত রোবট ও এজেন্টগুলো বার্ষিক ট্রিলিয়ন ডলারের মূল্য উন্মোচন করতে পারে (সূত্র: ম্যাককিনজি, ২০২৪)। এই প্রতিটি ক্ষেত্রের সাধারণ সূত্রটি হলো: যে সংস্থাগুলো এগিয়ে যাচ্ছে, তাদের কাছে শুধু উন্নত মডেল নয়, বরং উন্নত ডেটা রয়েছে।
উপসংহার — ডিজিটাল বুদ্ধিমত্তা থেকে স্বায়ত্তশাসিত বুদ্ধিমত্তা
ফিজিক্যাল এআই হলো সেই পর্যায়, যেখানে কৃত্রিম বুদ্ধিমত্তা কেবল একটি টুল না থেকে আপনার চারপাশের যন্ত্রপাতির মধ্যে অন্তর্নিহিত একটি সক্ষমতায় পরিণত হয়। এই পরিবর্তনটি ধাপে ধাপে হয় না। এটি শিল্পখাত পরিচালনার পদ্ধতি, নিরাপত্তা ব্যবস্থার নকশা এবং মূল্য সৃষ্টির প্রক্রিয়াকে আমূল বদলে দেয়। ফ্রেমওয়ার্ক, কম্পিউট এবং ভিত্তি মডেল—সবই গুরুত্বপূর্ণ, কিন্তু এই দশকে তারাই সফল হবে যারা ডেটাকে কৌশলগত অবকাঠামো হিসেবে বিবেচনা করবে। মাল্টিমোডাল ডেটা সংগ্রহ, সিমুলেশন, অ্যানোটেশন এবং ফিডব্যাক লুপ কোনো সহায়ক ফাংশন নয়। এগুলোই হলো সেই ভিত্তি যার ওপর স্বয়ংক্রিয় বুদ্ধিমত্তা নির্মিত হয়।
সহজ কথায় ফিজিক্যাল এআই কী?
ফিজিক্যাল এআই হলো এমন এক কৃত্রিম বুদ্ধিমত্তা যা সেন্সর এবং অ্যাকচুয়েটরের মাধ্যমে বাস্তব জগতে উপলব্ধি করে, সিদ্ধান্ত নেয় এবং কাজ করে। ডিজিটাল এআই, যা টেক্সট বা ছবি তৈরি করে, তার থেকে ভিন্ন, ফিজিক্যাল এআই রোবট, স্বচালিত যানবাহন, ড্রোনের মতো যন্ত্রগুলোকে শক্তি জোগায়, যেগুলো সরাসরি ভৌত পরিবেশের সাথে যোগাযোগ স্থাপন করে।
ফিজিক্যাল এআই এবং জেনারেটিভ এআই-এর মধ্যে পার্থক্য কী?
জেনারেটিভ এআই ডিজিটাল ইনপুট থেকে ডিজিটাল আউটপুট তৈরি করে। ফিজিক্যাল এআই বাস্তব জগতে উপলব্ধি-সিদ্ধান্ত-কর্ম-শেখার একটি চক্র সম্পন্ন করে, যার অর্থ হলো এটিকে রিয়েল-টাইম সীমাবদ্ধতা, সেন্সরের গোলমাল, পদার্থবিদ্যা এবং নিরাপত্তাজনিত পরিণতি সামলাতে হয়, যা জেনারেটিভ এআইকে মোকাবেলা করতে হয় না।
ফিজিক্যাল এআই-এর এত বেশি প্রশিক্ষণ ডেটা কেন প্রয়োজন?
ভৌত পরিবেশ অত্যন্ত বৈচিত্র্যময় — আলো, আবহাওয়া, পৃষ্ঠতল, বস্তু, মানুষের আচরণ, এবং ব্যতিক্রমী পরিস্থিতি। যে পরিস্থিতিতে মডেলগুলো প্রদর্শিত হয়েছিল, তার বাইরে নির্ভরযোগ্যভাবে সাধারণীকরণ করার জন্য সেগুলোর বিপুল পরিমাণ বহুমাধ্যমীয় ও নির্ভুলভাবে লেবেলযুক্ত ডেটা প্রয়োজন।
সিমুলেশন কী ভূমিকা পালন করে?
সিমুলেশন নিরাপদ ও পুনরাবৃত্তিযোগ্য প্রশিক্ষণের পরিস্থিতি সরবরাহ করে—যার মধ্যে বিরল বা বিপজ্জনক পরিস্থিতিও অন্তর্ভুক্ত—যা বাস্তব জগতে ফুটিয়ে তোলা অবাস্তব। এটি বাস্তব তথ্যের বিকল্প হিসেবে নয়, বরং তার সাথে ব্যবহার করলে সবচেয়ে ভালো কাজ করে।
কোন শিল্পগুলো সর্বপ্রথম ফিজিক্যাল এআই গ্রহণ করছে?
স্বচালিত যানবাহন, গুদাম ও কারখানার রোবটিক্স, প্রতিরক্ষা ও পরিদর্শন ড্রোন, কৃষি, শল্যচিকিৎসা ও সহায়ক স্বাস্থ্যসেবা রোবটিক্স এবং লজিস্টিকস বর্তমানে এর প্রধান ব্যবহারকারী ক্ষেত্র, এবং হিউম্যানয়েড রোবটিক্স দ্রুত পরবর্তী দিগন্ত হিসেবে আবির্ভূত হচ্ছে।


