যদি আপনি ভয়েস ইন্টারফেস, ট্রান্সক্রিপশন, অথবা মাল্টিমোডাল এজেন্ট তৈরি করেন, তাহলে আপনার মডেলের সিলিং আপনার ডেটা দ্বারা নির্ধারিত হয়। স্পিচ রিকগনিশন (ASR) -এ, এর অর্থ হল বাস্তব বিশ্বের ব্যবহারকারী, ডিভাইস এবং পরিবেশের প্রতিফলনকারী বৈচিত্র্যময়, সু-লেবেলযুক্ত অডিও সংগ্রহ করা এবং শৃঙ্খলার সাথে মূল্যায়ন করা।
এই নির্দেশিকাটি আপনাকে দেখায় কিভাবে বক্তৃতা প্রশিক্ষণের ডেটা পরিকল্পনা, সংগ্রহ, কিউরেট এবং মূল্যায়ন করতে হয় যাতে আপনি দ্রুত নির্ভরযোগ্য পণ্য সরবরাহ করতে পারেন।
"বক্তৃতা স্বীকৃতি তথ্য" হিসেবে কী গণনা করা হয়?
ন্যূনতম: অডিও + টেক্সট। বাস্তবিকভাবে, উচ্চ-কার্যক্ষমতাসম্পন্ন সিস্টেমগুলির জন্য সমৃদ্ধ মেটাডেটা (স্পিকার ডেমোগ্রাফিক্স, লোকেল, ডিভাইস, অ্যাকোস্টিক কন্ডিশন), টীকা শিল্পকর্ম (টাইমস্ট্যাম্প, ডায়েরাইজেশন, হাসির মতো অ-লেক্সিকাল ইভেন্ট) এবং শক্তিশালী কভারেজ সহ মূল্যায়ন বিভাজনেরও প্রয়োজন।
প্রো টিপ: যখন আপনি "ডেটাসেট" বলেন, তখন টাস্ক (ডিক্টেশন বনাম কমান্ড বনাম কথোপকথনমূলক ASR), ডোমেন (সাপোর্ট কল, স্বাস্থ্যসেবা নোট, ইন-কার কমান্ড) এবং সীমাবদ্ধতা (লেটেন্সি, অন-ডিভাইস বনাম ক্লাউড) উল্লেখ করুন। এটি স্যাম্পলিং রেট থেকে শুরু করে অ্যানোটেশন স্কিমা পর্যন্ত সবকিছু পরিবর্তন করে।
স্পিচ ডেটা স্পেকট্রাম (আপনার ব্যবহারের ক্ষেত্রে যা মেলে তা বেছে নিন)

১. স্ক্রিপ্টেড স্পিচ (উচ্চ নিয়ন্ত্রণ)
বক্তারা প্রম্পটগুলি অক্ষরে অক্ষরে পড়েন। কমান্ড এবং নিয়ন্ত্রণ, জাগরণ শব্দ, অথবা ফোনেটিক কভারেজের জন্য দুর্দান্ত। দ্রুত স্কেল; কম প্রাকৃতিক পরিবর্তন।
২. দৃশ্যপট-ভিত্তিক বক্তৃতা (আধা-নিয়ন্ত্রিত)
বক্তারা একটি দৃশ্যপটের মধ্যে প্রম্পটগুলি অভিনয় করেন ("গ্লুকোমা অ্যাপয়েন্টমেন্টের জন্য একটি ক্লিনিকে জিজ্ঞাসা করুন")। আপনি কাজ করার সময় বিভিন্ন ধরণের বাক্যাংশ পান - ডোমেন ভাষা কভারেজের জন্য আদর্শ।
৩. স্বাভাবিক/অলিখিত বক্তৃতা (নিয়ন্ত্রণ কম)
বাস্তব কথোপকথন অথবা বিনামূল্যের একক সংলাপ। বহু-স্পিকার, দীর্ঘ-ফর্ম, অথবা কোলাহলপূর্ণ ব্যবহারের ক্ষেত্রে প্রয়োজনীয়। পরিষ্কার করা কঠিন, কিন্তু দৃঢ়তার জন্য অত্যন্ত গুরুত্বপূর্ণ। মূল নিবন্ধে এই বর্ণালীটি চালু করা হয়েছিল; এখানে আমরা অতিরিক্ত বা কম ফিটিং এড়াতে পণ্যের সাথে বর্ণালী মেলানোর উপর জোর দিচ্ছি।
আপনার ডেটাসেটটিকে একটি পণ্যের মতো পরিকল্পনা করুন
সাফল্য এবং সীমাবদ্ধতাগুলি আগে থেকেই সংজ্ঞায়িত করুন
- প্রাথমিক মেট্রিক: বেশিরভাগ ভাষার জন্য WER (শব্দ ত্রুটির হার); স্পষ্ট শব্দ সীমানা ছাড়াই ভাষাগুলির জন্য CER (অক্ষর ত্রুটির হার)।
- লেটেন্সি এবং ফুটপ্রিন্ট: আপনি কি ডিভাইসে চালাবেন? এটি স্যাম্পলিং রেট, মডেল এবং কম্প্রেশনের উপর প্রভাব ফেলে।
- গোপনীয়তা এবং সম্মতি: যদি আপনি PHI/PII (যেমন, স্বাস্থ্যসেবা) স্পর্শ করেন, তাহলে সম্মতি, পরিচয় বাতিলকরণ এবং নিরীক্ষণযোগ্যতা নিশ্চিত করুন।
ডেটা স্পেসিফিকেশনের মধ্যে প্রকৃত ব্যবহার ম্যাপ করুন
- লোকেল এবং উচ্চারণ: যেমন, en-US, en-IN, en-GB; নগর/গ্রামীণ এবং বহুভাষিক কোড-সুইচিংয়ের ভারসাম্য বজায় রাখুন।
- পরিবেশ: অফিস, রাস্তা, গাড়ি, রান্নাঘর; SNR টার্গেট; রিভার্ব বনাম ক্লোজ-টক মাইক।
- ডিভাইস: স্মার্ট স্পিকার, মোবাইল (অ্যান্ড্রয়েড/আইওএস), হেডসেট, গাড়ির কিট, ল্যান্ডলাইন।
- বিষয়বস্তুর নীতি: অশ্লীল ভাষা, সংবেদনশীল বিষয়, অ্যাক্সেসিবিলিটি ইঙ্গিত (তোতলানো, ডিসার্থ্রিয়া) যেখানে উপযুক্ত এবং অনুমোদিত।
আপনার কত ডেটা দরকার?
কোনও একক সংখ্যা নেই, তবে কভারেজ অসম্পূর্ণ ঘন্টার চেয়েও বেশি। কয়েকজন অবদানকারীর অতি-দীর্ঘ রেকর্ডিংয়ের চেয়ে স্পিকার, ডিভাইস এবং অ্যাকোস্টিকের প্রস্থকে অগ্রাধিকার দিন। কমান্ড-এন্ড-কন্ট্রোলের জন্য, শত শত স্পিকারের হাজার হাজার উচ্চারণ প্রায়শই কম, দীর্ঘ রেকর্ডিংকে ছাড়িয়ে যায়। কথোপকথনের ASR এর জন্য, ঘন্টা × বৈচিত্র্য এবং সতর্কতার সাথে টীকা বিনিয়োগ করুন।
বর্তমান ভূদৃশ্য: লক্ষ লক্ষ ঘন্টা ধরে প্রশিক্ষিত ওপেন-সোর্স মডেলগুলি (যেমন, হুইস্পার) একটি শক্তিশালী বেসলাইন স্থাপন করে; ডোমেন, অ্যাকসেন্ট এবং আপনার ডেটার সাথে শব্দ অভিযোজন এখনও উৎপাদন মেট্রিক্সকে চালিত করে।
সংগ্রহ: ধাপে ধাপে কর্মপ্রবাহ

১. প্রকৃত ব্যবহারকারীর উদ্দেশ্য থেকে শুরু করুন
খনি অনুসন্ধান লগ, সহায়তা টিকিট, IVR ট্রান্সক্রিপ্ট, চ্যাট লগ এবং পণ্য বিশ্লেষণ প্রম্পট এবং পরিস্থিতি খসড়া করার জন্য। আপনি দীর্ঘ-লেজের উদ্দেশ্যগুলি কভার করবেন যা আপনি অন্যথায় মিস করবেন।
2. ভিন্নতার কথা মাথায় রেখে খসড়া প্রম্পট এবং স্ক্রিপ্ট
- ন্যূনতম জোড়া লিখুন ("বসার ঘরের আলো জ্বালাও" বনাম "সুইচ চালু করো...")।
- বীজের বিচ্ছুরণ ("উহ, তুমি পারবে...") এবং প্রাসঙ্গিক হলে কোড-সুইচিং।
- ক্লান্তি এড়াতে পড়ার সময়সীমা প্রায় ১৫ মিনিটের মধ্যে সীমাবদ্ধ করুন; পরিষ্কার বিভাজনের জন্য লাইনের মধ্যে ২-৩ সেকেন্ডের ব্যবধান রাখুন (আপনার মূল নির্দেশিকা অনুসারে)।
৩. সঠিক বক্তাদের নিয়োগ করুন
বাজার এবং ন্যায্যতার লক্ষ্যের সাথে সামঞ্জস্যপূর্ণ জনসংখ্যাগত বৈচিত্র্য লক্ষ্য করুন। যোগ্যতা, কোটা এবং সম্মতি নথিভুক্ত করুন। ন্যায্যভাবে ক্ষতিপূরণ দিন।
৪. বাস্তবসম্মত পরিস্থিতিতে রেকর্ড করুন
একটি ম্যাট্রিক্স সংগ্রহ করুন: স্পিকার × ডিভাইস × পরিবেশ।
উদাহরণ স্বরূপ:
- ডিভাইস: আইফোন মিড-টায়ার, অ্যান্ড্রয়েড লো-টায়ার, স্মার্ট স্পিকার ফার-ফিল্ড মাইক।
- এনভায়রনমেন্ট: শান্ত ঘর (মাঠের কাছে), রান্নাঘর (যন্ত্রপাতি), গাড়ি (হাইওয়ে), রাস্তা (যানবাহন)।
- ফর্ম্যাট: ASR-এর জন্য ১৬ kHz / ১৬-বিট PCM সাধারণ; যদি আপনি ডাউনস্যাম্পেল করেন তবে উচ্চতর হার বিবেচনা করুন।
৫. পরিবর্তনশীলতা প্ররোচিত করুন (উদ্দেশ্যক্রমে)
স্বাভাবিক গতি, স্ব-সংশোধন এবং বাধাগুলিকে উৎসাহিত করুন। পরিস্থিতি-ভিত্তিক এবং প্রাকৃতিক তথ্যের জন্য, অতিরিক্ত প্রশিক্ষণ দেবেন না; আপনি আপনার গ্রাহকদের তৈরি করা অগোছালোতা চান।
৬. হাইব্রিড পাইপলাইন দিয়ে ট্রান্সক্রাইব করুন
- একটি শক্তিশালী বেসলাইন মডেল (যেমন, হুইস্পার বা আপনার ইন-হাউস) দিয়ে অটো-ট্রান্সক্রাইব করুন।
- সংশোধন, ডায়েরিকরণ এবং ঘটনার জন্য মানবিক QA (হাসি, ফিলার শব্দ)।
- ধারাবাহিকতা পরীক্ষা: বানান অভিধান, ডোমেন অভিধান, বিরাম চিহ্ন নীতি।
৭. ভালোভাবে ভাগ করো; সৎভাবে পরীক্ষা করো
- স্পিকার এবং দৃশ্যকল্প বিচ্ছিন্নতা সহ ট্রেন/ডেভেলপ/পরীক্ষা (লিকেজ এড়ান)।
- একটি বাস্তব-বিশ্বের ব্লাইন্ড সেট রাখুন যা উৎপাদনের শব্দ এবং ডিভাইসগুলিকে প্রতিফলিত করে; পুনরাবৃত্তির সময় এটি স্পর্শ করবেন না।
টীকা: লেবেলকে আপনার পরিখা বানান
একটি স্পষ্ট স্কিমা সংজ্ঞায়িত করুন
- আভিধানিক নিয়ম: সংখ্যা ("পঁচিশ" বনাম "২৫"), সংক্ষিপ্ত রূপ, বিরামচিহ্ন।
- ঘটনা: [হাসি], [ক্রসটক], [শ্রবণাতীত: ০০:০৩.২–০০:০৩.৭]।
- ডায়ারাইজেশন: যেখানে অনুমতি আছে সেখানে স্পিকার A/B লেবেল বা ট্র্যাক করা আইডি।
- টাইমস্ট্যাম্প: যদি আপনি অনুসন্ধান, সাবটাইটেল, বা সারিবদ্ধকরণ সমর্থন করেন তবে শব্দ- বা বাক্যাংশ-স্তর।
টীকাকারদের প্রশিক্ষণ দিন; তাদের পরিমাপ করুন
গোল্ড টাস্ক এবং ইন্টার-অ্যানোটেটর চুক্তি (IAA) ব্যবহার করুন। গুরুত্বপূর্ণ টোকেন (পণ্যের নাম, ওষুধ) এবং টার্নঅ্যারাউন্ড সময়গুলির উপর নির্ভুলতা/প্রত্যাহার ট্র্যাক করুন। মাল্টি-পাস QA (পিয়ার পর্যালোচনা → লিড পর্যালোচনা) মডেল মূল্যায়ন স্থিতিশীলতার পরে ফল দেয়।
মান ব্যবস্থাপনা: আপনার ডেটা লেক পাঠাবেন না
- স্বয়ংক্রিয় স্ক্রিন: ক্লিপিং, ক্লিপিং অনুপাত, SNR সীমানা, দীর্ঘ নীরবতা, কোডেক অমিল।
- মানব নিরীক্ষা: পরিবেশ এবং ডিভাইস অনুসারে এলোমেলো নমুনা; স্পট চেক ডায়ারাইজেশন এবং বিরামচিহ্ন।
- সংস্করণকরণ: কোড—সেমভার, চেঞ্জলগ এবং অপরিবর্তনীয় পরীক্ষার সেটের মতো ডেটাসেটগুলিকে ব্যবহার করুন।
আপনার ASR মূল্যায়ন: একটি একক WER এর বাইরে
সামগ্রিকভাবে এবং স্লাইস অনুসারে WER পরিমাপ করুন:
- পরিবেশ অনুসারে: নীরবতা বনাম গাড়ি বনাম রাস্তা
- ডিভাইস দ্বারা: নিম্নমানের অ্যান্ড্রয়েড বনাম আইফোন
- উচ্চারণ/স্থান অনুসারে: en-IN বনাম en-US
- ডোমেন পদ অনুসারে: পণ্যের নাম, ওষুধ, ঠিকানা
রিয়েল-টাইম UX ব্যবহার করলে ল্যাটেন্সি, আংশিক আচরণ এবং এন্ডপয়েন্টিং ট্র্যাক করুন। মডেল পর্যবেক্ষণের জন্য, WER অনুমান এবং ত্রুটি সনাক্তকরণের উপর গবেষণা সবকিছু ট্রান্সক্রাইব না করেই মানব পর্যালোচনাকে অগ্রাধিকার দিতে সাহায্য করতে পারে।
বিল্ড বনাম বাই (অথবা উভয়): ডেটা সোর্স যা আপনি একত্রিত করতে পারেন

১. অফ-দ্য-শেল্ফ ক্যাটালগ
বুটস্ট্র্যাপিং এবং প্রি-ট্রেনিং এর জন্য দরকারী, বিশেষ করে ভাষা বা বক্তার বৈচিত্র্য দ্রুত কভার করার জন্য।
2. কাস্টম ডেটা সংগ্রহ
যখন ডোমেন, অ্যাকোস্টিক, অথবা লোকেলের প্রয়োজনীয়তা নির্দিষ্ট হয়, তখন কাস্টম হল আপনি কীভাবে অন-টার্গেট WER-তে আঘাত করেন। আপনি প্রম্পট, কোটা, ডিভাইস এবং QA নিয়ন্ত্রণ করেন।
৩. ডেটা খুলুন (সাবধানে)
পরীক্ষার জন্য দুর্দান্ত; লাইসেন্সের সামঞ্জস্যতা, PII সুরক্ষা এবং আপনার ব্যবহারকারীদের সাপেক্ষে বিতরণ পরিবর্তন সম্পর্কে সচেতনতা নিশ্চিত করুন।
নিরাপত্তা, গোপনীয়তা এবং সম্মতি
- স্পষ্ট সম্মতি এবং স্বচ্ছ অবদানকারীর শর্তাবলী
- প্রয়োজনে শনাক্তকরণ/অজ্ঞাতনামা বাতিল করা
- জিও-ফেন্সড স্টোরেজ এবং অ্যাক্সেস নিয়ন্ত্রণ
- নিয়ন্ত্রক বা এন্টারপ্রাইজ গ্রাহকদের জন্য নিরীক্ষার পথ
বাস্তব-বিশ্বের অ্যাপ্লিকেশন (আপডেট করা হয়েছে)
- ভয়েস অনুসন্ধান এবং আবিষ্কার: ক্রমবর্ধমান ব্যবহারকারীর সংখ্যা; বাজার এবং ব্যবহারের ক্ষেত্রের উপর নির্ভর করে গ্রহণযোগ্যতা পরিবর্তিত হয়।
- স্মার্ট হোম এবং ডিভাইস: পরবর্তী প্রজন্মের সহকারীরা আরও কথোপকথনমূলক, বহু-পদক্ষেপের অনুরোধগুলিকে সমর্থন করে—দূরবর্তী, কোলাহলপূর্ণ কক্ষগুলির জন্য প্রশিক্ষণ ডেটা মানের উপর মান বৃদ্ধি করে।
- গ্রাহক সমর্থন: ডায়ারাইজেশন এবং এজেন্ট সহায়তা সহ স্বল্প-টার্ন, ডোমেন-ভারী ASR।
- স্বাস্থ্যসেবা নির্দেশিকা: কাঠামোগত শব্দভাণ্ডার, সংক্ষিপ্ত রূপ এবং কঠোর গোপনীয়তা নিয়ন্ত্রণ।
- গাড়ির ভেতরের কণ্ঠস্বর: দূর-ক্ষেত্রের মাইক্রোফোন, গতির শব্দ, এবং নিরাপত্তা-সমালোচনামূলক বিলম্বিতা।
মিনি কেস স্টাডি: স্কেলে বহুভাষিক কমান্ড ডেটা
ডিভাইসে কমান্ড চালানোর জন্য একটি বিশ্বব্যাপী OEM-এর টিয়ার-১ এবং টিয়ার-২ ভাষা জুড়ে উচ্চারণ ডেটা (৩-৩০ সেকেন্ড) প্রয়োজন ছিল। টিমটি:
- জাগরণের শব্দ, নেভিগেশন, মিডিয়া এবং সেটিংস কভার করে ডিজাইন করা প্রম্পট
- ডিভাইস কোটা সহ প্রতি লোকেলের জন্য নিয়োগপ্রাপ্ত স্পিকার
- শান্ত কক্ষ এবং দূরবর্তী পরিবেশে অডিও ক্যাপচার করা হয়েছে
- JSON মেটাডেটা (ডিভাইস, SNR, লোকেল, লিঙ্গ/বয়স বাকেট) এবং যাচাইকৃত ট্রান্সক্রিপ্ট সরবরাহ করা হয়েছে
ফল: একটি উৎপাদন-প্রস্তুত ডেটাসেট যা দ্রুত মডেল পুনরাবৃত্তি এবং ইন-ডোমেন কমান্ডগুলিতে পরিমাপযোগ্য WER হ্রাস সক্ষম করে।
সাধারণ সমস্যা (এবং সমাধান)
- অনেক বেশি ঘন্টা, পর্যাপ্ত কভারেজ নেই: স্পিকার/ডিভাইস/পরিবেশের কোটা সেট করুন।
- লিকি ইভাল: স্পিকার-ডিসজয়েন্ট স্প্লিট এবং একটি সত্যিকারের অন্ধ পরীক্ষা কার্যকর করুন।
- অ্যানোটেশন ড্রিফট: চলমান QA চালান এবং বাস্তব উদাহরণ সহ নির্দেশিকা রিফ্রেশ করুন।
- প্রান্তিক বাজার উপেক্ষা করা: কোড-স্যুইচিং, আঞ্চলিক উচ্চারণ এবং কম-সম্পদযুক্ত লোকেলের জন্য লক্ষ্যযুক্ত ডেটা যোগ করুন।
- লেটেন্সি চমক: টার্গেট ডিভাইসে আপনার অডিও সহ প্রোফাইল মডেলগুলি আগে থেকেই।
কখন অফ-দ্য-শেল্ফ বনাম কাস্টম ডেটা ব্যবহার করবেন
বুটস্ট্র্যাপ করতে বা দ্রুত ভাষা কভারেজ প্রসারিত করতে অফ-দ্য-শেল্ফ ব্যবহার করুন; আপনার ডোমেনে WER প্লেট হওয়ার সাথে সাথেই কাস্টমে স্যুইচ করুন। অনেক দল মিশ্রিত করে: ক্যাটালগ ঘন্টাগুলিতে প্রি-ট্রেন/ফাইন-টিউন করে, তারপর আপনার উৎপাদন ফানেলকে প্রতিফলিত করে এমন বেসপোক ডেটার সাথে মানিয়ে নেয়।
চেকলিস্ট: সংগ্রহ করতে প্রস্তুত?
- ব্যবহারের ধরণ, সাফল্যের মেট্রিক্স, সীমাবদ্ধতা সংজ্ঞায়িত
- লোকেল, ডিভাইস, পরিবেশ, কোটা চূড়ান্ত করা হয়েছে
- সম্মতি + গোপনীয়তা নীতিগুলি নথিভুক্ত করা হয়েছে
- প্রম্পট প্যাক (স্ক্রিপ্টেড + দৃশ্যকল্প) প্রস্তুত
- টীকা নির্দেশিকা + QA পর্যায় অনুমোদিত
- ট্রেন/ডেভেলপ/পরীক্ষা বিভক্ত করার নিয়ম (স্পিকার- এবং দৃশ্যকল্প-বিচ্ছিন্ন)
- উৎক্ষেপণ-পরবর্তী প্রবাহের জন্য পর্যবেক্ষণ পরিকল্পনা
কী Takeaways
- কভারেজ ঘন্টার চেয়েও বেশি। আরও মিনিট তাড়া করার আগে স্পিকার, ডিভাইস এবং পরিবেশের ভারসাম্য বজায় রাখুন।
- লেবেলিং মানের যৌগ। পরিষ্কার স্কিমা + মাল্টি-স্টেজ QA একক-পাস সম্পাদনাগুলিকে ছাড়িয়ে যায়।
- স্লাইস দিয়ে মূল্যায়ন করুন। উচ্চারণ, যন্ত্র এবং শব্দ দিয়ে WER ট্র্যাক করুন; এখানেই পণ্যের ঝুঁকি লুকিয়ে থাকে।
- ডেটা সোর্সগুলিকে মিশ্রিত করুন। ক্যাটালগ + কাস্টম অভিযোজন দিয়ে বুটস্ট্র্যাপিং প্রায়শই দ্রুততম মূল্য নির্ধারণ করে।
- গোপনীয়তা হলো পণ্য। প্রথম দিন থেকেই সম্মতি, পরিচয়পত্র বাতিল এবং নিরীক্ষণযোগ্যতা অন্তর্ভুক্ত করুন।
শাইপ আপনাকে কীভাবে সাহায্য করতে পারে
কাস্টম স্পিচ ডেটার প্রয়োজন? শাইপ কাস্টম সংগ্রহ, টীকা এবং ট্রান্সক্রিপশন প্রদান করে—এবং ১৫০+ ভাষা/ভেরিয়েন্টে অফ-দ্য-শেল্ফ অডিও/ট্রান্সক্রিপ্ট সহ ব্যবহারের জন্য প্রস্তুত ডেটাসেট অফার করে, স্পিকার, ডিভাইস এবং পরিবেশ দ্বারা সাবধানে ভারসাম্যপূর্ণ।

