আপনি যদি একজন জেনারেল এআই মডেলকে বিটলসের মতো একটি গানের কথা লিখতে বলেন এবং যদি এটি একটি চিত্তাকর্ষক কাজ করে তবে এর একটি কারণ রয়েছে। অথবা, আপনি যদি একটি মডেলকে আপনার প্রিয় লেখকের শৈলীতে গদ্য লিখতে বলেন এবং এটি শৈলীটিকে অবিকল প্রতিলিপি করে, তবে এর একটি কারণ রয়েছে।
এমনকি সহজভাবে, আপনি একটি ভিন্ন দেশে আছেন এবং আপনি যখন সুপারমার্কেটের আইলে খুঁজে পাওয়া একটি আকর্ষণীয় খাবারের নাম অনুবাদ করতে চান, তখন আপনার স্মার্টফোন লেবেল সনাক্ত করে এবং পাঠ্যটিকে নির্বিঘ্নে অনুবাদ করে।
AI এই ধরনের সমস্ত সম্ভাবনার ভিত্তির উপর দাঁড়িয়েছে এবং এটি প্রাথমিকভাবে কারণ এআই মডেলগুলিকে এই ধরনের বিপুল পরিমাণ ডেটার উপর প্রশিক্ষণ দেওয়া হত – আমাদের ক্ষেত্রে, দ্য বিটলসের শত শত গান এবং সম্ভবত আপনার প্রিয় লেখকের বই।
জেনারেটিভ এআই-এর উত্থানের সাথে, প্রত্যেকেই একজন সংগীতশিল্পী, লেখক, শিল্পী বা এর সবই। Gen AI মডেলগুলি ব্যবহারকারীর প্রম্পটের উপর নির্ভর করে সেকেন্ডের মধ্যে শিল্পের নির্দিষ্ট অংশ তৈরি করে। তারা তৈরি করতে পারে ভ্যান গগ-ইস্ক শিল্পকলা এবং এমনকি আল পাচিনোকে সেখানে থাকা ছাড়াই পরিষেবার শর্তাবলী পড়ে শোনানো হয়েছে৷
মুগ্ধতা একপাশে, এখানে গুরুত্বপূর্ণ দিক হল নীতিশাস্ত্র। এটা কি ন্যায়সঙ্গত যে এই ধরনের সৃজনশীল কাজগুলি এআই মডেলদের প্রশিক্ষণের জন্য ব্যবহার করা হয়েছে, যা ধীরে ধীরে শিল্পীদের প্রতিস্থাপনের চেষ্টা করছে? এই ধরনের বৌদ্ধিক সম্পত্তির মালিকদের কাছ থেকে সম্মতি নেওয়া হয়েছিল? তারা কি ন্যায্য ক্ষতিপূরণ পেয়েছেন?
2024-এ স্বাগতম: ডেটা যুদ্ধের বছর
গত কয়েক বছর ধরে, তথ্য আরও একটি চুম্বক হয়ে উঠেছে ফার্মগুলির তাদের জেনারেল এআই মডেলগুলিকে প্রশিক্ষণের জন্য মনোযোগ আকর্ষণ করার জন্য। একটি শিশুর মতো, এআই মডেলগুলি নির্বোধ। তাদের শেখাতে হবে এবং তারপর প্রশিক্ষণ দিতে হবে। এই কারণেই কোম্পানিগুলির প্রয়োজন কোটি কোটি, লক্ষ লক্ষ না হলেও, কৃত্রিমভাবে মডেলগুলিকে মানুষের নকল করার জন্য প্রশিক্ষণের জন্য।
উদাহরণস্বরূপ, GPT-3 বিলিয়ন (শত শত) টোকেনের উপর প্রশিক্ষিত ছিল, যা শব্দে ঢিলেঢালাভাবে অনুবাদ করে। যাইহোক, সূত্রগুলি প্রকাশ করে যে এই জাতীয় ট্রিলিয়ন টোকেনগুলি সাম্প্রতিক মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য ব্যবহৃত হয়েছিল।
এত বিপুল পরিমাণ প্রশিক্ষণ ডেটাসেটের প্রয়োজন, বড় প্রযুক্তি সংস্থাগুলি কোথায় যায়?
প্রশিক্ষণ ডেটার তীব্র ঘাটতি
উচ্চাকাঙ্ক্ষা এবং ভলিউম হাতে হাত যায়. যেহেতু এন্টারপ্রাইজগুলি তাদের মডেলগুলিকে স্কেল করে এবং সেগুলিকে অপ্টিমাইজ করে, তাদের আরও বেশি প্রশিক্ষণ ডেটার প্রয়োজন হয়৷ এটি জিপিটি-এর সফল মডেলগুলি উন্মোচন করার দাবি থেকে বা কেবল উন্নত এবং সুনির্দিষ্ট ফলাফল সরবরাহ করতে পারে।
ক্ষেত্রে যাই হোক না কেন, প্রচুর প্রশিক্ষণের ডেটার প্রয়োজন অনিবার্য।
এখানেই উদ্যোগগুলি তাদের প্রথম রোডব্লকের মুখোমুখি হয়। সহজভাবে বলতে গেলে, AI মডেলের প্রশিক্ষণের জন্য ইন্টারনেট খুবই ছোট হয়ে যাচ্ছে। এর অর্থ, কোম্পানিগুলি তাদের মডেলগুলিকে খাওয়ানো এবং প্রশিক্ষণ দেওয়ার জন্য বিদ্যমান ডেটাসেটগুলি ফুরিয়ে যাচ্ছে।
এই ক্ষয়প্রাপ্ত সংস্থানটি স্টেকহোল্ডার এবং প্রযুক্তি উত্সাহীদের ভয় দেখায় কারণ এটি সম্ভাব্যভাবে AI মডেলগুলির বিকাশ এবং বিবর্তনকে সীমিত করতে পারে, যেগুলি বেশিরভাগ ব্র্যান্ডগুলি তাদের পণ্যগুলিকে কীভাবে অবস্থান করে এবং কীভাবে বিশ্বে কিছু জর্জরিত উদ্বেগকে এআই-চালিত দ্বারা মোকাবেলা করা হয় তার সাথে ঘনিষ্ঠভাবে জড়িত। সমাধান
একই সময়ে, সিন্থেটিক ডেটা বা ডিজিটাল ইনব্রিডিং আকারে আশাও রয়েছে যাকে আমরা বলি। লেপারসনের পরিভাষায়, সিন্থেটিক ডেটা হল AI দ্বারা তৈরি প্রশিক্ষণ ডেটা, যা আবার মডেলদের প্রশিক্ষণের জন্য ব্যবহৃত হয়।
যদিও এটি আশাব্যঞ্জক শোনাচ্ছে, প্রযুক্তি বিশেষজ্ঞরা বিশ্বাস করেন যে এই ধরনের প্রশিক্ষণের ডেটা সংশ্লেষণের ফলে হ্যাবসবার্গ এআই বলা হয়। এটি এন্টারপ্রাইজগুলির জন্য একটি প্রধান উদ্বেগের কারণ এই ধরনের অন্তর্নিহিত ডেটাসেটগুলি বাস্তবিক ত্রুটি, পক্ষপাতিত্ব, বা কেবল বিভ্রান্তিকর হতে পারে, যা এআই মডেলগুলির ফলাফলগুলিকে নেতিবাচকভাবে প্রভাবিত করে৷
এটিকে চাইনিজ হুইস্পারের একটি খেলা হিসাবে বিবেচনা করুন তবে একমাত্র মোচড় হল যে প্রথম শব্দটি পাস করা হয় তা অর্থহীনও হতে পারে।
এআই ট্রেনিং ডেটা সোর্সিংয়ের দৌড়
লাইসেন্সিং হল প্রশিক্ষণ তথ্য উৎস করার একটি আদর্শ উপায়। যদিও শক্তিশালী, গ্রন্থাগার এবং ভান্ডারগুলি সসীম উত্স। অর্থ, তারা বড় আকারের মডেলের ভলিউম প্রয়োজনীয়তা যথেষ্ট হতে পারে না। একটি আকর্ষণীয় পরিসংখ্যান শেয়ার করে যে 2026 সালের মধ্যে মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য আমাদের কাছে উচ্চ-মানের ডেটা শেষ হয়ে যেতে পারে, বাস্তব বিশ্বের অন্যান্য ভৌত সংস্থানগুলির সাথে সমানভাবে ডেটার প্রাপ্যতার ওজন।
বৃহত্তম ছবির সংগ্রহস্থলগুলির মধ্যে একটি - শাটারস্টকের 300 মিলিয়ন ছবি রয়েছে। যদিও এটি প্রশিক্ষণ দিয়ে শুরু করার জন্য যথেষ্ট, পরীক্ষা, যাচাইকরণ এবং অপ্টিমাইজ করার জন্য আবার প্রচুর ডেটার প্রয়োজন হবে।
যাইহোক, উপলব্ধ অন্যান্য উত্স আছে. এখানে একমাত্র ধরা হল তারা ধূসর রঙে কোডেড। আমরা ইন্টারনেট থেকে সর্বজনীনভাবে উপলব্ধ ডেটা সম্পর্কে কথা বলছি। এখানে কিছু চমকপ্রদ তথ্য রয়েছে:
- 7.5 মিলিয়নেরও বেশি ব্লগ পোস্ট প্রতি এক দিনে লাইভ নেওয়া হয়
- ইনস্টাগ্রাম, এক্স, স্ন্যাপচ্যাট, টিকটক এবং আরও অনেক কিছুর মতো সোশ্যাল মিডিয়া প্ল্যাটফর্মে 5.4 বিলিয়নেরও বেশি লোক রয়েছে।
- ইন্টারনেটে 1.8 বিলিয়নেরও বেশি ওয়েবসাইট বিদ্যমান।
- প্রতিদিন 3.7 মিলিয়নেরও বেশি ভিডিও শুধুমাত্র YouTube-এ আপলোড করা হয়।
এছাড়াও, লোকেরা কেবলমাত্র অডিও পডকাস্টের মাধ্যমে পাঠ্য, ভিডিও, ফটো এবং এমনকি বিষয়-বস্তুর দক্ষতা প্রকাশ্যে ভাগ করে নিচ্ছে।
এই বিষয়বস্তু স্পষ্টভাবে উপলব্ধ টুকরা.
সুতরাং, এআই মডেলগুলিকে প্রশিক্ষণের জন্য তাদের ব্যবহার করা অবশ্যই ন্যায্য হতে হবে, তাই না?
এটি ধূসর এলাকা যা আমরা আগে উল্লেখ করেছি। এই প্রশ্নে কোন হার্ড-এবং-দ্রুত মতামত নেই কারণ এই ধরনের প্রচুর পরিমাণে ডেটার অ্যাক্সেস সহ প্রযুক্তি সংস্থাগুলি এই প্রয়োজনীয়তা মিটমাট করার জন্য নতুন সরঞ্জাম এবং নীতি সংশোধন নিয়ে আসছে।
কিছু টুল ইউটিউব ভিডিও থেকে অডিওকে টেক্সটে পরিণত করে এবং তারপর প্রশিক্ষণের উদ্দেশ্যে টোকেন হিসেবে ব্যবহার করে। এন্টারপ্রাইজগুলি গোপনীয়তা নীতিগুলি পুনর্বিবেচনা করছে এবং এমনকি মামলার মুখোমুখি হওয়ার পূর্ব-নির্ধারিত অভিপ্রায় সহ মডেলদের প্রশিক্ষণের জন্য পাবলিক ডেটা ব্যবহার করার পরিমাণ পর্যন্ত যাচ্ছে।
কাউন্টার মেকানিজম
একই সময়ে, কোম্পানিগুলি সিন্থেটিক ডেটা বলেও বিকাশ করছে, যেখানে এআই মডেলগুলি পাঠ্য তৈরি করে যা আবার লুপের মতো মডেলগুলিকে প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে।
অন্যদিকে, ডাটা স্ক্র্যাপিং প্রতিরোধ করতে এবং এন্টারপ্রাইজগুলিকে আইনি ফাঁকফোকরগুলিকে কাজে লাগাতে বাধা দিতে, ওয়েবসাইটগুলি ডেটা-স্কেপিং বটগুলিকে প্রশমিত করার জন্য প্লাগইন এবং কোডগুলি প্রয়োগ করছে৷
চূড়ান্ত সমাধান কি?
বাস্তব-বিশ্বের উদ্বেগ সমাধানে AI-এর প্রভাব সর্বদা মহৎ উদ্দেশ্য দ্বারা সমর্থিত হয়েছে। তাহলে কেন এই ধরনের মডেলগুলিকে প্রশিক্ষণের জন্য ডেটাসেট সোর্সিং ধূসর মডেলের উপর নির্ভর করতে হবে?
দায়িত্বশীল, নৈতিক, এবং জবাবদিহিমূলক এআই-এর উপর কথোপকথন এবং বিতর্কগুলি প্রাধান্য এবং শক্তি অর্জন করে, তাই প্রশিক্ষণের ডেটা সরবরাহ করার জন্য হোয়াইট-হ্যাট কৌশল রয়েছে এমন বিকল্প উত্সগুলিতে স্যুইচ করা সমস্ত স্কেলের সংস্থাগুলির উপর।
এই হল যেখানে শিপ এ excel. ডেটা সোর্সিং-এর আশেপাশে বিদ্যমান উদ্বেগগুলি বোঝার জন্য, শাইপ সর্বদা নৈতিক কৌশলগুলির পক্ষে সমর্থন করেছেন এবং বিভিন্ন উত্স থেকে ডেটা সংগ্রহ এবং সংকলন করার জন্য ধারাবাহিকভাবে পরিমার্জিত এবং অপ্টিমাইজ করা পদ্ধতিগুলি অনুশীলন করেছেন।
হোয়াইট হ্যাট ডেটাসেট সোর্সিং পদ্ধতি
আমাদের মালিকানাধীন ডেটা সংগ্রহের সরঞ্জামটিতে ডেটা সনাক্তকরণ এবং বিতরণ চক্রের কেন্দ্রে মানুষ রয়েছে। আমরা আমাদের ক্লায়েন্টরা যে ক্ষেত্রে কাজ করে তার সংবেদনশীলতা এবং আমাদের ডেটাসেটগুলি তাদের মডেলগুলির ফলাফলের উপর কী প্রভাব ফেলবে তা আমরা বুঝতে পারি। উদাহরণস্বরূপ, স্বায়ত্তশাসিত গাড়ির জন্য কম্পিউটার দৃষ্টির ডেটাসেটের তুলনায় স্বাস্থ্যসেবা ডেটাসেটগুলির সংবেদনশীলতা রয়েছে।
ঠিক এই কারণেই আমাদের মোডাস অপারেন্ডিতে প্রাসঙ্গিক ডেটাসেটগুলি সনাক্ত এবং সংকলন করার জন্য সূক্ষ্ম মানের পরীক্ষা এবং কৌশল জড়িত। এটি আমাদেরকে ছবি, ভিডিও, অডিও, টেক্সট এবং আরও বিশেষ প্রয়োজনীয়তার মতো একাধিক ফর্ম্যাট জুড়ে একচেটিয়া জেনারেল এআই প্রশিক্ষণ ডেটাসেট সহ কোম্পানিগুলিকে ক্ষমতায়ন করার অনুমতি দিয়েছে।
আমাদের দর্শন
আমরা ডেটাসেট সংগ্রহের ক্ষেত্রে সম্মতি, গোপনীয়তা এবং ন্যায্যতার মতো মূল দর্শনের উপর কাজ করি। আমাদের দৃষ্টিভঙ্গি তথ্যের বৈচিত্র্যও নিশ্চিত করে তাই অচেতন পক্ষপাতের কোনো প্রবর্তন নেই।
যেহেতু এআই রাজ্য ন্যায্য অনুশীলন দ্বারা চিহ্নিত একটি নতুন যুগের সূচনার জন্য প্রস্তুত, আমরা শাইপে এই ধরনের মতাদর্শের পতাকাবাহী এবং অগ্রদূত হতে চাই। যদি প্রশ্নাতীতভাবে ন্যায্য এবং মানসম্পন্ন ডেটাসেটগুলি আপনি আপনার AI মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য খুঁজছেন, তাহলে আজই আমাদের সাথে যোগাযোগ করুন৷