সঠিক ASR (স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি) সঠিক তথ্য দিয়ে শুরু হয় - "আরও" তথ্য দিয়ে নয়। আপনার সংগ্রহ পরিকল্পনাটি প্রকৃত ব্যবহারকারীরা কীভাবে কথা বলে তা প্রতিফলিত করা উচিত: উচ্চারণ এবং উপভাষা, পটভূমির শব্দ, ডিভাইস মাইক, চ্যানেল কোডেক এবং এমনকি লোকেরা বাক্যের মাঝখানে কীভাবে ভাষা পরিবর্তন করে। এই নির্দেশিকাটি অডিও সংগ্রহ, লেবেল এবং পরিচালনা করার জন্য একটি ব্যবহারিক, গোপনীয়তা-প্রধান প্রক্রিয়ার মধ্য দিয়ে যায় যা মডেল (এবং সম্মতি দল) বিশ্বাস করতে পারে।
স্পিচ রিকগনিশন মডেলের জন্য অডিও সংগ্রহের প্রক্রিয়া
১) ডেটা লক্ষ্য নির্ধারণ করুন (রেকর্ড করার আগে)
মডেলটিকে কী বুঝতে হবে এবং কোন পরিস্থিতিতে তা নির্ধারণ করুন। একটি আঁটসাঁট সুযোগ অপচয় সংগ্রহ রোধ করে এবং QA পরিমাপযোগ্য করে তোলে।
- ব্যবহারের ক্ষেত্রে: ডিকটেশন, যোগাযোগ-কেন্দ্র, কমান্ড, মিটিং, আইভিআর
- ভাষা/উপভাষা এবং প্রত্যাশিত কোড সুইচিং
- চ্যানেল এবং পরিবেশ: ফোন, অ্যাপ/ডেস্কটপ, দূর-ক্ষেত্র; নীরব বনাম কোলাহলপূর্ণ
- লক্ষ্য মেট্রিক্স: WER/CER, সত্তার নির্ভুলতা, ডায়েরাইজেশন, ল্যাটেন্সি (যদি স্ট্রিমিং হয়)
- বিতরণযোগ্য: এক পৃষ্ঠার ডেটা স্পেক সবাই স্বাক্ষর করে
২) নমুনা পরিকল্পনা: কে, কোথায়, কত
স্পিকার, উচ্চারণ, ডিভাইস এবং শব্দের ভারসাম্য বজায় রাখুন যাতে ফলাফল সাধারণীকরণ করা যায় এবং ন্যায্য থাকে। প্রতি "স্লাইস" এর জন্য আগে থেকেই ঘন্টা পরিকল্পনা করুন।
- বক্তার বৈচিত্র্য: অঞ্চল, বয়সসীমা, লিঙ্গ, বক্তৃতা হার
- প্রতি উপভাষায় উচ্চারণের কোটা (যেমন, প্রতিটি ১০-১৫%)
- উচ্চারণের মিশ্রণ: পড়া, কথ্য, কমান্ড/কোয়েরি
- শব্দভান্ডারের উপর জোর: ডোমেন পদ, সংখ্যা/তারিখ/ইউনিট
- স্তর: ডিভাইস × পরিবেশ × উচ্চারণ সর্বনিম্ন ঘন্টা সহ
৩) সম্মতি, গোপনীয়তা এবং সম্মতি
কাউকে জাহাজে নেওয়ার আগে অনুমতি এবং ডেটা হ্যান্ডলিং লক করুন। PII/PHI কে একটি পৃথক, নিয়ন্ত্রিত সম্পদ হিসেবে বিবেচনা করুন।
- স্পষ্ট সম্মতি (উদ্দেশ্য, ধরে রাখা, শেয়ার করা, অপ্ট-আউট)
- পরিচয় বাতিল করা তাড়াতাড়ি; রি-আইডি কী আলাদাভাবে সংরক্ষণ করুন
- আবাসন ও আইন: HIPAA/GDPR/স্থানীয় নিয়ম
- অ্যাক্সেস: সর্বনিম্ন-সুবিধা + অডিট ট্রেইল
৪) রেকর্ডিং সেটআপ এবং প্রোটোকল
ধারাবাহিক ক্যাপচার লেবেলের শব্দ কমায় এবং মডেলের মান বাড়ায়। হার্ডওয়্যার, সেটিংস এবং পরিস্থিতি মানসম্মত করে।
- হার্ডওয়্যার: অনুমোদিত ফোন/মাইক্রোফোন; লগ তৈরি/মডেল
- সেটিংস: WAV/FLAC, মনো, ১৬-বিট, ১৬ কিলোহার্টজ+
দৃশ্য: শান্ত বেসলাইন + নিয়ন্ত্রিত শব্দ (ক্যাফে, ট্র্যাফিক, অফিস) - প্রম্পট: স্ক্রিপ্ট, রোল-প্লে, কমান্ড তালিকা
- অপারেটরের নোট: মাইকের দূরত্ব, ঘরের আকার, বসার জায়গা
৫) গুরুত্বপূর্ণ মেটাডেটা
দুর্দান্ত মেটাডেটা আপনার ডেটাসেটকে পুনঃব্যবহারযোগ্য এবং ডিবাগযোগ্য করে তোলে। আপনি যা ব্যবহার করবেন কেবল তা ক্যাপচার করুন।
- ভাষা/স্থানীয়, অ্যাকসেন্ট ট্যাগ, ডিভাইস/ওএস, মাইকের ধরণ
- পরিবেশ, SNR অনুমান, চ্যানেল (PSTN/VoIP)
- ছদ্মনামযুক্ত স্পিকার ক্ষেত্র (বয়সসীমা, অঞ্চল, সম্মতি সংস্করণ)
- ফাইলের নামকরণ: _ _ _ _ _ _ .wav সম্পর্কে
৬) টীকা নির্দেশিকা এবং সরঞ্জাম
সামঞ্জস্যপূর্ণ লেবেলগুলি বৃহত্তর ডেটাসেটগুলিকে ছাড়িয়ে যায়। একটি সংক্ষিপ্ত, সংস্করণযুক্ত স্টাইল গাইডের সাথে আলোচনা করা যায় না।
- নিয়ম: কেসিং, বিরামচিহ্ন, সংখ্যাসূচক, দ্বিধা, ওভারল্যাপ
- ট্যাগ: কোড-সুইচ মার্কার, বিশেষ্য-বিশেষ্য অভিধান, স্থানীয় বানান
- ডায়ারাইজেশন ওয়ার্কফ্লো: বাঁক ঠিক করুন, ওভারল্যাপ চিহ্নিত করুন; শব্দ টাইমস্ট্যাম্প
- সরঞ্জাম: হটকি, QA প্যানেল, লেক্সিকন প্রম্পট
৭) গুণমান নিশ্চিতকরণ (বহু-স্তর)
আপনি যা পারেন তা স্বয়ংক্রিয় করুন, তারপর মানুষের সাথে নমুনা নিন। চুক্তি ট্র্যাক করুন এবং হটস্পটগুলি তাড়াতাড়ি ঠিক করুন।
- স্বয়ংক্রিয় গেট: বিন্যাস, ক্লিপিং/নীরবতা, সময়কাল, মেটাডেটা সম্পূর্ণতা
- মানব QA: ডুয়াল ট্রান্সক্রাইব + ফয়সালা; ট্র্যাক আইএএ
- সোনার সেট (২-৫%): বেঞ্চমার্ক বিক্রেতা/টীকাকারদের বিশেষজ্ঞ লেবেল
- মেট্রিক্স: WER/CER (উচ্চারণ/ডিভাইস/শব্দ অনুসারে), সত্তা এবং ডায়ারাইজেশন নির্ভুলতা, শৈলী সম্মতি
৮) ট্রেন/ভ্যাল/টেস্ট স্প্লিট যা লিক হয় না
সঠিক স্কোর পেতে স্পিকারগুলিকে আলাদা আলাদা করে রাখুন। পরীক্ষায় "কঠিন" অবস্থার ভারসাম্য বজায় রাখুন।
- স্পিকার স্তরের বিচ্ছেদ (কোনও ক্রস-স্প্লিট স্পিকার নেই)
- সুষম উচ্চারণ/ডিভাইস/শব্দ অনুপাত
- কঠিন কেস: কম SNR, ওভারল্যাপ, দ্রুত বক্তৃতা, ভারী কোড-সুইচিং, জার্গন স্ট্রেস পরীক্ষা
৯) নিরাপদ সংরক্ষণ এবং শাসনব্যবস্থা
স্পিচ ডেটা সংবেদনশীল—এটিকে সোর্স কোড এবং PII-এর মতো পরিচালনা করুন।
- বিশ্রামের সময়/ট্রানজিটের সময় এনক্রিপ্ট করুন; অডিও/টেক্সট থেকে PII আলাদা করুন
- RBAC, টাইম-বক্সড ভেন্ডর অ্যাক্সেস, অডিট লগ
- জীবনচক্র: ধরে রাখা, মুছে ফেলার কর্মপ্রবাহ, পুনরায় লেবেলের জন্য সংস্করণকরণ
১০) প্যাকেজিং এবং ডেলিভারি
মডেলারদের জন্য ড্রপ প্লাগ-এন্ড-প্লে তৈরি করুন যাতে তারা দ্রুত পুনরাবৃত্তি করে।
- বান্ডিল: অডিও + ট্রান্সক্রিপ্ট (JSON/CSV), শব্দের টাইমস্ট্যাম্প, স্পিকার লেবেল, কনফিডেন্স
- ডেটা কার্ড: পদ্ধতি, জনসংখ্যা, সীমাবদ্ধতা, QA পরিসংখ্যান, লাইসেন্স
- চেঞ্জলগ: নতুন কী (উচ্চারণ/ডিভাইস, নির্দেশিকা আপডেট)
ছোট চেকলিস্ট
রেকর্ডার অনবোর্ডিং
- স্বাক্ষরিত সম্মতি এবং স্থান ক্যাপচার করা হয়েছে
- ডিভাইস/মাইক যাচাই করা হয়েছে
- টেস্ট ক্লিপ QC পাস করেছে
প্রাক-টীকা QC
- কোডেক/নমুনার হার সঠিক
- কোনও ক্লিপিং/মৃত নীরবতা নেই
- মেটাডেটা সম্পূর্ণ হয়েছে
- ফাইলের নাম স্কিমা বৈধ
টীকা QA
- স্টাইল গাইড অনুসরণ করা হয়েছে
- টাইমস্ট্যাম্প নির্ভুলতা ঠিক আছে
- সত্তার বানান/স্বাভাবিকীকরণ
- IAA ≥ লক্ষ্য (যেমন, 0.9 সেগমেন্ট-লেভেল)
স্বয়ংক্রিয় বক্তৃতা স্বীকৃতির জন্য শীর্ষ ব্যবহারের কেস
গ্রাহক অভিজ্ঞতা এবং যোগাযোগ কেন্দ্র

- লাইভ এজেন্ট সহায়তা (স্ট্রিমিং): রিয়েল-টাইম ট্রান্সক্রিপ্টগুলি প্রম্পট, ফর্ম এবং জ্ঞানের হিটগুলিকে ট্রিগার করে।
উদাহরণ: বিলিং কলের সময়, ASR রিফান্ড নীতি প্রকাশ করে এবং কেস ফর্মটি স্বয়ংক্রিয়ভাবে পূরণ করে। - কল-পরবর্তী QA এবং সম্মতি (ব্যাচ): স্কোর কল, ফ্ল্যাগ ঝুঁকি এবং কোচ এজেন্টদের রেকর্ডিং ট্রান্সক্রাইব করুন।
উদাহরণ: সাপ্তাহিক QA অনুপস্থিত প্রকাশ খুঁজে বের করে এবং লক্ষ্যবস্তু প্রশিক্ষণের পরামর্শ দেয়। - ভয়েস বিশ্লেষণ এবং অন্তর্দৃষ্টি: লক্ষ লক্ষ মিনিট ধরে আমার বিষয়, অনুভূতি, মন্থন সংকেত।
উদাহরণ: "শিপিং বিলম্ব"-এর স্পাইক অপারেশন সংশোধনের কারণ।
স্বাস্থ্যসেবা ও জীবন বিজ্ঞান

- চিকিৎসকের নির্দেশনা এবং নোট: ডাক্তাররা নির্দেশ দেন; ASR টাইমস্ট্যাম্প সহ SOAP নোট তৈরি করে।
উদাহরণ: কয়েক মিনিটের মধ্যে এনকাউন্টার নোট তৈরি করা হয়, তারপর পর্যালোচনা করা হয় এবং স্বাক্ষর করা হয়। - মেডিকেল কোডিং সাপোর্ট: ট্রান্সক্রিপ্টগুলি কোডারের জন্য CPT/ICD প্রার্থীদের তুলে ধরে।
উদাহরণ: "ব্রঙ্কাইটিস" এবং ডোজের শর্তাবলী পর্যালোচনার জন্য স্বয়ংক্রিয়ভাবে পতাকাঙ্কিত। - ক্লিনিক্যাল গবেষণা এবং পরীক্ষা: সাক্ষাৎকারের অডিওকে অনুসন্ধানযোগ্য টেক্সটে মানসম্মত করুন।
উদাহরণ: রোগীর রিপোর্ট করা ফলাফল বিশ্লেষণের জন্য সংগ্রহ করা হয়েছে।
ভয়েস পণ্য এবং ডিভাইস

- ভয়েস কমান্ড এবং সহকারী: অ্যাপ, কিয়স্ক এবং যানবাহন জুড়ে হ্যান্ডস-ফ্রি নিয়ন্ত্রণ।
উদাহরণ: "রাত ৮ টায় টেবিল বুক করুন" রিজার্ভেশন প্রবাহকে ট্রিগার করে। - আইভিআর এবং স্মার্ট রাউটিং: কীপ্রেস ট্রি ছাড়াই কলার ইন্টেন্ট এবং রুট বুঝুন।
উদাহরণ: "আমার কার্ড ফ্রিজ করুন" সরাসরি জালিয়াতির কর্মপ্রবাহে চলে যায়। - মোটরগাড়ি এবং পরিধেয় জিনিসপত্র: কম-বিলম্বিততা নিয়ন্ত্রণের জন্য অন-ডিভাইস/এজ ASR।
উদাহরণ: সংযোগ বিচ্ছিন্ন হলে অফলাইন কমান্ড।
নিয়ন্ত্রিত এবং অর্থায়ন

- KYC/সংগ্রহ কল: ট্রান্সক্রিপ্টগুলি নিরীক্ষা, বিরোধ নিষ্পত্তি এবং প্রশিক্ষণ সক্ষম করে।
উদাহরণ: ট্রান্সক্রিপ্ট থেকে যাচাইকৃত পেমেন্ট প্ল্যানের শর্তাবলী। - ঝুঁকি ও সম্মতি পর্যবেক্ষণ: সীমাবদ্ধ বাক্যাংশ বা প্রতিশ্রুতি সনাক্ত করুন।
উদাহরণ: অ্যাডভাইজরি কলে "গ্যারান্টিযুক্ত রিটার্ন" সম্পর্কে সতর্কতা।
বহুভাষিক এবং বিশ্বব্যাপী

- কোড-সুইচিং এবং বহুভাষিক সহায়তা: মিশ্র-ভাষার পালা (যেমন, হিংলিশ)।
উদাহরণ: ASR হিন্দি প্রসঙ্গে "রিফান্ড স্ট্যাটাস প্লিজ" পরিচালনা করে। - সাবটাইটেলিং এবং স্থানীয়করণ: ট্রান্সক্রাইব করুন, তারপর বিশ্বব্যাপী প্রকাশের জন্য অনুবাদ করুন।
উদাহরণ: স্বয়ংক্রিয়ভাবে তৈরি ইংরেজি ক্যাপশনগুলি স্প্যানিশ ভাষায় স্থানীয়করণ করা হয়েছে।
যেখানে শাইপ সাহায্য করে
আপনি যদি গতি চান ছাড়া গুণমান বা সম্মতির ঝুঁকির ক্ষেত্রে, Shaip আপনার ASR-এর পিছনে ডেটা পেশী সরবরাহ করে:
- এন্ড-টু-এন্ড সংগ্রহ: বহুভাষিক নিয়োগ, নিয়ন্ত্রিত ডিভাইস/পরিবেশ, সম্মতি কর্মপ্রবাহ
- বিশেষজ্ঞ টীকা এবং QA: বিচার, ট্র্যাকিং, সোনার সেট ব্যবস্থাপনা
- PHI-নিরাপদ পরিচয় বাতিলকরণ: মানব QA সহ স্বাস্থ্যসেবা-গ্রেড পাইপলাইন
- মূল্যায়ন প্যাক: অ্যাকসেন্ট/ডিভাইস/নয়েজ-ব্যালেন্সড টেস্ট সেট; WER, সত্তা, ডায়ারাইজেশনের জন্য ড্যাশবোর্ড
শাইপের ASR ডেটা বিশেষজ্ঞদের সাথে কথা বলুন একটি উপযুক্ত সংগ্রহ এবং QA পরিকল্পনার জন্য।

