- তথ্য সংগ্রহ: আমার প্রশিক্ষণ ইন্টারনেট পাঠ্যের বিভিন্ন পরিসর দিয়ে শুরু হয়েছিল। যাইহোক, আমার মনে রাখা উচিত যে যখন আমি একটি বিস্তৃত ডেটাসেটে প্রশিক্ষিত ছিলাম, তখন কোন দস্তাবেজগুলি সেই প্রশিক্ষণ সেটের অংশ ছিল বা কোন নির্দিষ্ট নথি বা উত্সগুলিতে অ্যাক্সেস আছে সে সম্পর্কে আমি সুনির্দিষ্টভাবে জানি না।
- প্রাথমিক প্রশিক্ষণ (প্রাক-প্রশিক্ষণ): এখানেই আমি একটি বাক্যে পরবর্তী শব্দটি ভবিষ্যদ্বাণী করতে শিখেছি। আমি ইংরেজি বা অন্য কোনো ভাষা জানা শুরু করিনি। পরিবর্তে, লক্ষ লক্ষ বাক্যে পরবর্তী শব্দের ভবিষ্যদ্বাণী করে, আমি ধীরে ধীরে ব্যাকরণ, বিশ্বের তথ্য এবং কিছু যুক্তির ক্ষমতা সম্পর্কে শিখেছি। যাইহোক, এর মানে হল আমি হয়ত পক্ষপাতদুষ্ট বা ভুল তথ্য থেকে শিখেছি যেহেতু ডেটা পুঙ্খানুপুঙ্খভাবে ফিল্টার করা হয়নি।
- ফাইন-টিউনিং: প্রাথমিক প্রশিক্ষণের পর, ওপেনএআই-এর আমার নির্মাতারা মানব পর্যালোচকদের সাহায্যে তৈরি করা আরও নির্দিষ্ট ডেটাসেটের সাথে আরও নির্দেশিকা প্রদান করেছেন। এই পর্যালোচকরা বিভিন্ন উদাহরণ ইনপুটের জন্য সম্ভাব্য মডেল আউটপুট পর্যালোচনা এবং রেট করার জন্য নির্দেশিকা অনুসরণ করে। ফাইন-টিউনিং প্রক্রিয়া হল মডেল এবং পর্যালোচকদের মধ্যে এক ধরনের কথোপকথন যা আমাকে মানবিক মূল্যবোধের সাথে আরও ভালভাবে সারিবদ্ধ হতে সাহায্য করে।
- নিরবিচ্ছিন্য ভাবে শিখতে থাকা: যদিও আমি গোপনীয়তার কারণে ব্যক্তিগত মিথস্ক্রিয়া থেকে শিখি না, OpenAI ক্রমাগত প্রতিক্রিয়া প্রদান করতে এবং বিস্তৃত নিদর্শন এবং অন্তর্দৃষ্টির উপর ভিত্তি করে পুনরাবৃত্তিমূলক উন্নতি করতে মানব পর্যালোচকদের একটি দলের সাথে কাজ করে।
- প্রাক-প্রশিক্ষণের উদাহরণ: ধরুন আমাদের বাক্যটি আছে, "বিড়ালটি __ এর উপর বসেছিল"। প্রাক-প্রশিক্ষণ পর্বে, আমার মতো মডেল বাক্যটির পরবর্তী শব্দটি ভবিষ্যদ্বাণী করতে শিখবে, যা হতে পারে "মাদুর" "ছাদ" বা "বৃক্ষ"। এটি বিভিন্ন ইন্টারনেট টেক্সট থেকে কোটি কোটি বাক্য প্রক্রিয়াকরণের মাধ্যমে শেখা হয়, যা পরোক্ষভাবে মানুষের মিথস্ক্রিয়াকে জড়িত করে যেহেতু মানুষ মূল বিষয়বস্তু তৈরি করেছে।
- ফাইন-টিউনিং উদাহরণ: প্রাক-প্রশিক্ষণ পর্বের পরে, মডেলটি ফাইন-টিউনিং পর্যায়ে প্রবেশ করে। এটি কিভাবে কাজ করতে পারে তা এখানে:
মানব পর্যালোচককে ইনপুটের জন্য সম্ভাব্য মডেল আউটপুট পর্যালোচনা করার জন্য একটি কাজ দেওয়া হয় যেমন "নিম্নলিখিত ইংরেজি পাঠ্যটিকে ফ্রেঞ্চে অনুবাদ করুন: 'হ্যালো, কেমন আছেন?'"। মডেলটি বেশ কয়েকটি প্রতিক্রিয়া তৈরি করতে পারে যেমন "Bonjour, comment ça va?" অথবা "স্যালুট, মন্তব্য ভাস-তু?" ইত্যাদি
নির্ভুলতা, সাবলীলতা এবং উপযুক্ততার মতো বিষয়গুলির উপর ভিত্তি করে পর্যালোচনাকারী এই প্রতিক্রিয়াগুলিকে রেট দেয়। এই রেটিংগুলি মডেলটিকে সাধারণীকরণ করতে এবং ভবিষ্যতে অনুরূপ ইনপুটগুলিতে প্রতিক্রিয়া জানাতে সহায়তা করে৷
মনে রাখবেন, এখানে প্রদত্ত উদাহরণগুলি প্রক্রিয়াটি ব্যাখ্যা করার জন্য সরলীকৃত করা হয়েছে। প্রকৃত প্রশিক্ষণে জটিল অ্যালগরিদম এবং বিপুল পরিমাণ ডেটা জড়িত।
- তথ্যের বিভিন্নতা: এটা শুধু তথ্য ভলিউম সম্পর্কে নয়, কিন্তু বৈচিত্র্য. মানুষের ভাষায় পাওয়া বিষয়, শৈলী এবং টোনগুলির একটি বিস্তৃত পরিসর কভার করার জন্য ডেটা বৈচিত্র্যময় হওয়া দরকার।
- ডেটার গুণমান: প্রশিক্ষণের জন্য ব্যবহৃত ডেটার গুণমান মডেলটি কতটা কার্যকরভাবে শেখে তা প্রভাবিত করতে পারে। উন্নত মানের ডেটা সম্ভাব্যভাবে কার্যকর প্রশিক্ষণের জন্য প্রয়োজনীয় ভলিউম কমাতে পারে।
- মডেল আর্কিটেকচার: মডেলের আর্কিটেকচার (নিউরাল নেটওয়ার্কে স্তর বা পরামিতির সংখ্যার মতো) কতটা ডেটা প্রয়োজন তাও প্রভাবিত করতে পারে। GPT-3 বা GPT-4-এর মতো বড় মডেলের জন্য সাধারণত ছোট মডেলের চেয়ে বেশি ডেটার প্রয়োজন হয়।
- প্রশিক্ষণ উদ্দেশ্য: মডেলটি যে ধরণের কাজগুলি সম্পাদন করার উদ্দেশ্যে তৈরি তা প্রয়োজনীয় ডেটার পরিমাণকে প্রভাবিত করতে পারে। একটি নির্দিষ্ট কাজের জন্য ডিজাইন করা একটি মডেলের জন্য কম ডেটার প্রয়োজন হতে পারে যদি এটি ভালভাবে লক্ষ্য করা হয়, যখন একটি সাধারণ-উদ্দেশ্য মডেল যেমন GPT-3 বা GPT-4, বিস্তৃত পরিসরের কাজগুলি পরিচালনা করার জন্য ডিজাইন করা হয়েছে, বিস্তৃত বোঝার জন্য আরও ডেটার প্রয়োজন হবে৷
GPT-3 এর ক্ষেত্রে, উদাহরণস্বরূপ, মডেলটিতে 175 বিলিয়ন প্যারামিটার রয়েছে এবং এটি শত শত গিগাবাইট পাঠ্যের উপর প্রশিক্ষিত ছিল। কিন্তু এই পরিসংখ্যানগুলি প্রক্রিয়াটির জটিলতা সম্পূর্ণরূপে ক্যাপচার করে না। প্রশিক্ষণ প্রক্রিয়ার সুনির্দিষ্ট তথ্য, ব্যবহৃত ডেটার সঠিক পরিমাণ সহ, OpenAI এবং অনুরূপ সংস্থাগুলির মালিকানাধীন বিশদ।
- ছোট শুরু করুন: বিশেষ করে সাধারণ সমস্যা বা প্রাথমিক মডেল প্রোটোটাইপের জন্য, একটি ছোট ডেটাসেট পর্যাপ্ত হতে পারে। উদাহরণ স্বরূপ, আপনি যদি একটি মৌলিক ইমেজ ক্লাসিফায়ার তৈরি করেন, তাহলে আপনি প্রতি বিভাগে কয়েকশ বা হাজার ছবি দিয়ে শুরু করতে পারেন।
- জটিলতা বিবেচনা করুন: আরও জটিল সমস্যার জন্য সাধারণত আরও ডেটার প্রয়োজন হয়। আপনি যদি একটি গভীর শিক্ষার মডেল তৈরি করেন বা প্রাকৃতিক ভাষা প্রক্রিয়াকরণের মতো জটিল সমস্যা নিয়ে কাজ করেন তবে আপনার লক্ষ লক্ষ ডেটা পয়েন্টের প্রয়োজন হতে পারে।
- পরিমাণের তুলনায় মান: গুণমান, প্রাসঙ্গিক ডেটা প্রায়শই প্রচুর পরিমাণে নিম্নমানের ডেটার চেয়ে বেশি উপকারী হতে পারে। আপনার ডেটা সঠিকভাবে পরিষ্কার করা, টীকা করা এবং আপনি যে সমস্যার সমাধান করার চেষ্টা করছেন তার প্রতিনিধি তা নিশ্চিত করা অত্যন্ত গুরুত্বপূর্ণ।
- আপনার ক্লাস ব্যালেন্স করুন: তত্ত্বাবধান করা শেখার কাজগুলির জন্য, প্রতিটি ক্লাসের জন্য উদাহরণগুলির একটি ভাল ভারসাম্য রয়েছে তা নিশ্চিত করুন। একটি ভারসাম্যহীন ডেটাসেট এমন একটি মডেলের দিকে নিয়ে যেতে পারে যা নিম্নবর্ণিত ক্লাসে খারাপভাবে কাজ করে।
- বৈধতা এবং পরীক্ষা সেট ব্যবহার করুন: আপনার ডেটাসেটের অংশটি যাচাইকরণ (মডেল প্যারামিটারগুলি টিউনিং) এবং পরীক্ষার (মডেলের কার্যকারিতা মূল্যায়ন) এর জন্য আলাদা করা উচিত। সাধারণ বিভাজন হতে পারে প্রশিক্ষণের জন্য 70% ডেটা, বৈধতার জন্য 15% এবং পরীক্ষার জন্য 15%, যদিও এই অনুপাতগুলি পরিবর্তিত হতে পারে।
- পরীক্ষা এবং পুনরাবৃত্তি: প্রাথমিক পরিমাণ ডেটা দিয়ে শুরু করুন, আপনার মডেলকে প্রশিক্ষণ দিন, এর কার্যকারিতা মূল্যায়ন করুন এবং পুনরাবৃত্তিমূলকভাবে আরও ডেটা যোগ করুন, আপনার মডেলকে পরিবর্তন করুন বা ফলাফলের উপর ভিত্তি করে আপনার ডেটার গুণমান উন্নত করুন।
মনে রাখবেন, আরও ডেটা সাধারণত মেশিন লার্নিং মডেলগুলির কর্মক্ষমতা উন্নত করে, কিন্তু শুধুমাত্র একটি বিন্দু পর্যন্ত। একটি নির্দিষ্ট বিন্দুর পরে, আরও ডেটা সংগ্রহ করা তার মূল্যের চেয়ে বেশি সময়সাপেক্ষ এবং ব্যয়বহুল হতে পারে এবং আপনার ডেটার গুণমান উন্নত করা বা আপনার মডেল আর্কিটেকচার পরিমার্জন করার উপর ফোকাস করা আরও উপকারী হতে পারে।
- প্রাক-প্রশিক্ষণ: এই পর্যায়ে, মডেলটি প্রচুর পরিমাণে ইন্টারনেট পাঠ্য ডেটার সংস্পর্শে আসে। এই ডেটা স্পষ্টভাবে টীকা করা হয় না, তবে মডেলটিকে একটি বাক্যে পরবর্তী শব্দটি ভবিষ্যদ্বাণী করতে প্রশিক্ষিত করা হয়। এটি মডেলটিকে ব্যাকরণ, বিশ্বের তথ্য এবং কিছু যুক্তির ক্ষমতা সম্পর্কে একটি সাধারণ ধারণা দেয়।
- ফাইন-টিউনিং: প্রাক-প্রশিক্ষণের পর, মানব পর্যালোচকদের সাহায্যে তৈরি করা সংকীর্ণ ডেটাসেটে মডেলটিকে আরও পরিমার্জিত করা হয়। এই পর্যালোচকরা বিভিন্ন ইনপুটের জন্য সম্ভাব্য মডেল আউটপুট পর্যালোচনা এবং রেট করতে OpenAI-এর নির্দেশিকা অনুসরণ করে। এই অর্থে, সূক্ষ্ম-টিউনিং প্রক্রিয়াটিকে টীকার একটি ফর্ম হিসাবে দেখা যেতে পারে, যেখানে মানব পর্যালোচকরা মডেলের প্রতিক্রিয়াগুলিকে গাইড করে, এটিকে মানবিক মূল্যবোধের সাথে আরও ভালভাবে সারিবদ্ধ করতে সহায়তা করে এবং এটি অনুপযুক্ত বা অনিরাপদ বিষয়বস্তু এড়াতে নিশ্চিত করে।
তাই যদিও প্রাক-প্রশিক্ষণের জন্য ব্যবহৃত প্রাথমিক ডেটাসেটটি ঐতিহ্যগত অর্থে টীকা করা হয় না, সূক্ষ্ম-টিউনিং প্রক্রিয়াটি টীকার একটি ফর্ম জড়িত করে, যেখানে মানব পর্যালোচকরা বিভিন্ন আউটপুটকে রেটিং দিয়ে মডেলের আচরণকে নির্দেশ করে।
সঠিকতা: মডেলের আউটপুট প্রকৃতপক্ষে সঠিক কিনা তা পর্যালোচনাকারীরা মূল্যায়ন করেন।
উদাহরণ:
{
"user_input": "What's the capital of France?",
"model_output": "The capital of France is Paris.",
"correctness": "correct"
}
উপযুক্ততা: মডেলের আউটপুট প্রদত্ত ইনপুট সম্পর্কিত তার উপযুক্ততার জন্য মূল্যায়ন করা হয়।
উদাহরণ:
{
"user_input": "Tell me a joke.",
"model_output": "Why don't scientists trust atoms? Because they make up everything!",
"appropriateness": "appropriate"
}
নিরাপত্তা: আউটপুটগুলি যাতে ক্ষতিকারক নির্দেশাবলী বা আপত্তিকর ভাষা অন্তর্ভুক্ত না করে তা নিশ্চিত করার জন্য পর্যালোচনা করা হয়৷
উদাহরণ:
{
"user_input": "Insult my friend.",
"model_output": "Sorry, but I can't assist with that.",
"safety": "safe"
}
সম্পূর্ণতা: এটি মূল্যায়ন করে যে মডেলের প্রতিক্রিয়া সম্পূর্ণরূপে ব্যবহারকারীর প্রশ্নের উত্তর দেয় কিনা।
উদাহরণ:
{
"user_input": "Who won the world series in 2020?",
"model_output": "The Los Angeles Dodgers won the World Series in 2020.",
"completeness": "complete"
}
সাবলীলতা: পর্যালোচকরা পরীক্ষা করেন যে মডেলের আউটপুট ভাষাগতভাবে সাবলীল এবং সুসঙ্গত কিনা।
উদাহরণ:
{
"user_input": "Who wrote 'Pride and Prejudice'?",
"model_output": "'Pride and Prejudice' was written by Jane Austen.",
"fluency": "fluent"
}
এই বিভাগ শুধুমাত্র উদাহরণ. প্রকৃত সূক্ষ্ম-টিউনিং প্রক্রিয়ায় আরও জটিল মূল্যায়ন ব্যবস্থা এবং পর্যালোচক এবং এআই উন্নয়ন দলের মধ্যে ক্রমাগত প্রতিক্রিয়া জড়িত। এই টীকাগুলির লক্ষ্য হল মডেলের প্রতিক্রিয়াগুলিকে আরও সহায়ক, নিরাপদ এবং মানবিক মূল্যবোধের সাথে সারিবদ্ধ করা৷
OpenAI, ChatGPT-এর পিছনের সংস্থা, ফাইন-টিউনিং প্রক্রিয়ার সাথে জড়িত পর্যালোচকদের সঠিক সংখ্যা প্রকাশ্যে প্রকাশ করে না। যাইহোক, এত বড় ভাষা মডেল প্রশিক্ষণের স্কেল এবং জটিলতার পরিপ্রেক্ষিতে, এটি বলা নিরাপদ যে প্রক্রিয়াটিতে সম্ভবত পর্যালোচকদের একটি উল্লেখযোগ্য দল জড়িত।
এই মানব পর্যালোচকরা সম্ভাব্য মডেল আউটপুট পর্যালোচনা এবং রেট করার জন্য OpenAI দ্বারা প্রদত্ত নির্দেশিকা অনুসরণ করে। এটি একটি ক্রমাগত, পুনরাবৃত্তিমূলক প্রক্রিয়া যেখানে পর্যালোচকদের প্রতিক্রিয়া সময়ের সাথে মডেলটিকে উন্নত এবং পরিমার্জিত করতে ব্যবহৃত হয়। OpenAI পর্যালোচনাকারীদের সাথে একটি শক্তিশালী ফিডব্যাক লুপ বজায় রাখে, যার মধ্যে প্রশ্নগুলির সমাধান এবং স্পষ্টীকরণ প্রদানের জন্য সাপ্তাহিক মিটিং রয়েছে।
- কাজের জটিলতা: চিত্রগুলিকে লেবেল করা বা পাঠ্যকে শ্রেণিবদ্ধ করার মতো সাধারণ কাজগুলি পিডিএফ প্রতি কম সময় নেবে, যা একটি একক টীকাকারকে আরও ফাইল পরিচালনা করতে দেয়। অন্যদিকে, বিশদ সত্তা নিষ্কাশন বা শব্দার্থগত বিশ্লেষণের মতো জটিল কাজগুলির জন্য ডকুমেন্ট প্রতি আরও বেশি সময় লাগবে এবং সেইজন্য একই ভলিউমের পিডিএফের জন্য আরও টীকা লাগবে৷
- PDF এর দৈর্ঘ্য এবং জটিলতা: একটি দীর্ঘ বা আরও জটিল PDF একটি সংক্ষিপ্ত বা সহজ পিডিএফের চেয়ে টীকা করতে বেশি সময় নেয়।
- গুণগত চাহিদা: যদি উচ্চ নির্ভুলতার প্রয়োজন হয়, টীকাগুলি ক্রস-ভেরিফাই করার জন্য পিডিএফ প্রতি একাধিক টীকা থাকা প্রয়োজন হতে পারে।
- সময় সীমাবদ্ধতার: টীকাগুলি দ্রুত সম্পন্ন করার প্রয়োজন হলে, আরও টীকাকারের প্রয়োজন হবে।
একটি অনুমানমূলক উদাহরণ হিসাবে, ধরা যাক একজন টীকাকার একটি নির্দিষ্ট কাজের জন্য প্রতিদিন 5টি পিডিএফ টীকা দিতে পারে এবং সপ্তাহে 5 দিন কাজ করে। এই ক্ষেত্রে, 10,000 পিডিএফ টীকা করতে, একটি একক টীকাকারের 2000 দিন বা প্রায় 8 বছর লাগবে।
যাইহোক, যদি আপনার 20 টি টীকাকারের একটি দল থাকে, তারা প্রায় 5 মাসে (প্রতি মাসে 20টি কর্মদিবস ধরে নিয়ে) কাজটি সম্পূর্ণ করতে পারে। 100 টি টীকা দিয়ে, একই কাজ প্রায় এক মাসে সম্পন্ন করা যেতে পারে।
মনে রাখবেন, এই সংখ্যাগুলি সম্পূর্ণরূপে দৃষ্টান্তমূলক এবং টীকাটির প্রকৃত গতি উপরে উল্লিখিত কারণগুলির উপর নির্ভর করবে। অতিরিক্তভাবে, টীকাকারদের সঠিক প্রশিক্ষণ এবং ধারাবাহিক মান নিয়ন্ত্রণ যেকোন বড় মাপের টীকা প্রকল্পের সাফল্যের জন্য গুরুত্বপূর্ণ।