স্পিচ রিকগনিশন ট্রেনিং ডেটা

বক্তৃতা স্বীকৃতির জন্য প্রশিক্ষণের তথ্য: B2B এআই টিমের জন্য একটি ব্যবহারিক নির্দেশিকা

যদি আপনি ভয়েস ইন্টারফেস, ট্রান্সক্রিপশন, অথবা মাল্টিমোডাল এজেন্ট তৈরি করেন, তাহলে আপনার মডেলের সিলিং আপনার ডেটা দ্বারা নির্ধারিত হয়। স্পিচ রিকগনিশন (ASR) -এ, এর অর্থ হল বাস্তব বিশ্বের ব্যবহারকারী, ডিভাইস এবং পরিবেশের প্রতিফলনকারী বৈচিত্র্যময়, সু-লেবেলযুক্ত অডিও সংগ্রহ করা এবং শৃঙ্খলার সাথে মূল্যায়ন করা।

এই নির্দেশিকাটি আপনাকে দেখায় কিভাবে বক্তৃতা প্রশিক্ষণের ডেটা পরিকল্পনা, সংগ্রহ, কিউরেট এবং মূল্যায়ন করতে হয় যাতে আপনি দ্রুত নির্ভরযোগ্য পণ্য সরবরাহ করতে পারেন।

"বক্তৃতা স্বীকৃতি তথ্য" হিসেবে কী গণনা করা হয়?

ন্যূনতম: অডিও + টেক্সট। বাস্তবিকভাবে, উচ্চ-কার্যক্ষমতাসম্পন্ন সিস্টেমগুলির জন্য সমৃদ্ধ মেটাডেটা (স্পিকার ডেমোগ্রাফিক্স, লোকেল, ডিভাইস, অ্যাকোস্টিক কন্ডিশন), টীকা শিল্পকর্ম (টাইমস্ট্যাম্প, ডায়েরাইজেশন, হাসির মতো অ-লেক্সিকাল ইভেন্ট) এবং শক্তিশালী কভারেজ সহ মূল্যায়ন বিভাজনেরও প্রয়োজন।

প্রো টিপ: যখন আপনি "ডেটাসেট" বলেন, তখন টাস্ক (ডিক্টেশন বনাম কমান্ড বনাম কথোপকথনমূলক ASR), ডোমেন (সাপোর্ট কল, স্বাস্থ্যসেবা নোট, ইন-কার কমান্ড) এবং সীমাবদ্ধতা (লেটেন্সি, অন-ডিভাইস বনাম ক্লাউড) উল্লেখ করুন। এটি স্যাম্পলিং রেট থেকে শুরু করে অ্যানোটেশন স্কিমা পর্যন্ত সবকিছু পরিবর্তন করে।

স্পিচ ডেটা স্পেকট্রাম (আপনার ব্যবহারের ক্ষেত্রে যা মেলে তা বেছে নিন)

স্পিচ ডেটা স্পেকট্রাম

১. স্ক্রিপ্টেড স্পিচ (উচ্চ নিয়ন্ত্রণ)

বক্তারা প্রম্পটগুলি অক্ষরে অক্ষরে পড়েন। কমান্ড এবং নিয়ন্ত্রণ, জাগরণ শব্দ, অথবা ফোনেটিক কভারেজের জন্য দুর্দান্ত। দ্রুত স্কেল; কম প্রাকৃতিক পরিবর্তন।

২. দৃশ্যপট-ভিত্তিক বক্তৃতা (আধা-নিয়ন্ত্রিত)

বক্তারা একটি দৃশ্যপটের মধ্যে প্রম্পটগুলি অভিনয় করেন ("গ্লুকোমা অ্যাপয়েন্টমেন্টের জন্য একটি ক্লিনিকে জিজ্ঞাসা করুন")। আপনি কাজ করার সময় বিভিন্ন ধরণের বাক্যাংশ পান - ডোমেন ভাষা কভারেজের জন্য আদর্শ।

৩. স্বাভাবিক/অলিখিত বক্তৃতা (নিয়ন্ত্রণ কম)

বাস্তব কথোপকথন অথবা বিনামূল্যের একক সংলাপ। বহু-স্পিকার, দীর্ঘ-ফর্ম, অথবা কোলাহলপূর্ণ ব্যবহারের ক্ষেত্রে প্রয়োজনীয়। পরিষ্কার করা কঠিন, কিন্তু দৃঢ়তার জন্য অত্যন্ত গুরুত্বপূর্ণ। মূল নিবন্ধে এই বর্ণালীটি চালু করা হয়েছিল; এখানে আমরা অতিরিক্ত বা কম ফিটিং এড়াতে পণ্যের সাথে বর্ণালী মেলানোর উপর জোর দিচ্ছি।

আপনার ডেটাসেটটিকে একটি পণ্যের মতো পরিকল্পনা করুন

সাফল্য এবং সীমাবদ্ধতাগুলি আগে থেকেই সংজ্ঞায়িত করুন

  • প্রাথমিক মেট্রিক: বেশিরভাগ ভাষার জন্য WER (শব্দ ত্রুটির হার); স্পষ্ট শব্দ সীমানা ছাড়াই ভাষাগুলির জন্য CER (অক্ষর ত্রুটির হার)।
  • লেটেন্সি এবং ফুটপ্রিন্ট: আপনি কি ডিভাইসে চালাবেন? এটি স্যাম্পলিং রেট, মডেল এবং কম্প্রেশনের উপর প্রভাব ফেলে।
  • গোপনীয়তা এবং সম্মতি: যদি আপনি PHI/PII (যেমন, স্বাস্থ্যসেবা) স্পর্শ করেন, তাহলে সম্মতি, পরিচয় বাতিলকরণ এবং নিরীক্ষণযোগ্যতা নিশ্চিত করুন।

ডেটা স্পেসিফিকেশনের মধ্যে প্রকৃত ব্যবহার ম্যাপ করুন

  • লোকেল এবং উচ্চারণ: যেমন, en-US, en-IN, en-GB; নগর/গ্রামীণ এবং বহুভাষিক কোড-সুইচিংয়ের ভারসাম্য বজায় রাখুন।
  • পরিবেশ: অফিস, রাস্তা, গাড়ি, রান্নাঘর; SNR টার্গেট; রিভার্ব বনাম ক্লোজ-টক মাইক।
  • ডিভাইস: স্মার্ট স্পিকার, মোবাইল (অ্যান্ড্রয়েড/আইওএস), হেডসেট, গাড়ির কিট, ল্যান্ডলাইন।
  • বিষয়বস্তুর নীতি: অশ্লীল ভাষা, সংবেদনশীল বিষয়, অ্যাক্সেসিবিলিটি ইঙ্গিত (তোতলানো, ডিসার্থ্রিয়া) যেখানে উপযুক্ত এবং অনুমোদিত।

আপনার কত ডেটা দরকার?

কোনও একক সংখ্যা নেই, তবে কভারেজ অসম্পূর্ণ ঘন্টার চেয়েও বেশি। কয়েকজন অবদানকারীর অতি-দীর্ঘ রেকর্ডিংয়ের চেয়ে স্পিকার, ডিভাইস এবং অ্যাকোস্টিকের প্রস্থকে অগ্রাধিকার দিন। কমান্ড-এন্ড-কন্ট্রোলের জন্য, শত শত স্পিকারের হাজার হাজার উচ্চারণ প্রায়শই কম, দীর্ঘ রেকর্ডিংকে ছাড়িয়ে যায়। কথোপকথনের ASR এর জন্য, ঘন্টা × বৈচিত্র্য এবং সতর্কতার সাথে টীকা বিনিয়োগ করুন।

বর্তমান ভূদৃশ্য: লক্ষ লক্ষ ঘন্টা ধরে প্রশিক্ষিত ওপেন-সোর্স মডেলগুলি (যেমন, হুইস্পার) একটি শক্তিশালী বেসলাইন স্থাপন করে; ডোমেন, অ্যাকসেন্ট এবং আপনার ডেটার সাথে শব্দ অভিযোজন এখনও উৎপাদন মেট্রিক্সকে চালিত করে।

সংগ্রহ: ধাপে ধাপে কর্মপ্রবাহ

সংগ্রহ: ধাপে ধাপে কর্মপ্রবাহ

১. প্রকৃত ব্যবহারকারীর উদ্দেশ্য থেকে শুরু করুন

খনি অনুসন্ধান লগ, সহায়তা টিকিট, IVR ট্রান্সক্রিপ্ট, চ্যাট লগ এবং পণ্য বিশ্লেষণ প্রম্পট এবং পরিস্থিতি খসড়া করার জন্য। আপনি দীর্ঘ-লেজের উদ্দেশ্যগুলি কভার করবেন যা আপনি অন্যথায় মিস করবেন।

2. ভিন্নতার কথা মাথায় রেখে খসড়া প্রম্পট এবং স্ক্রিপ্ট

  • ন্যূনতম জোড়া লিখুন ("বসার ঘরের আলো জ্বালাও" বনাম "সুইচ চালু করো...")।
  • বীজের বিচ্ছুরণ ("উহ, তুমি পারবে...") এবং প্রাসঙ্গিক হলে কোড-সুইচিং।
  • ক্লান্তি এড়াতে পড়ার সময়সীমা প্রায় ১৫ মিনিটের মধ্যে সীমাবদ্ধ করুন; পরিষ্কার বিভাজনের জন্য লাইনের মধ্যে ২-৩ সেকেন্ডের ব্যবধান রাখুন (আপনার মূল নির্দেশিকা অনুসারে)।

৩. সঠিক বক্তাদের নিয়োগ করুন

বাজার এবং ন্যায্যতার লক্ষ্যের সাথে সামঞ্জস্যপূর্ণ জনসংখ্যাগত বৈচিত্র্য লক্ষ্য করুন। যোগ্যতা, কোটা এবং সম্মতি নথিভুক্ত করুন। ন্যায্যভাবে ক্ষতিপূরণ দিন।

৪. বাস্তবসম্মত পরিস্থিতিতে রেকর্ড করুন

একটি ম্যাট্রিক্স সংগ্রহ করুন: স্পিকার × ডিভাইস × পরিবেশ।

উদাহরণ স্বরূপ:

  • ডিভাইস: আইফোন মিড-টায়ার, অ্যান্ড্রয়েড লো-টায়ার, স্মার্ট স্পিকার ফার-ফিল্ড মাইক।
  • এনভায়রনমেন্ট: শান্ত ঘর (মাঠের কাছে), রান্নাঘর (যন্ত্রপাতি), গাড়ি (হাইওয়ে), রাস্তা (যানবাহন)।
  • ফর্ম্যাট: ASR-এর জন্য ১৬ kHz / ১৬-বিট PCM সাধারণ; যদি আপনি ডাউনস্যাম্পেল করেন তবে উচ্চতর হার বিবেচনা করুন।

৫. পরিবর্তনশীলতা প্ররোচিত করুন (উদ্দেশ্যক্রমে)

স্বাভাবিক গতি, স্ব-সংশোধন এবং বাধাগুলিকে উৎসাহিত করুন। পরিস্থিতি-ভিত্তিক এবং প্রাকৃতিক তথ্যের জন্য, অতিরিক্ত প্রশিক্ষণ দেবেন না; আপনি আপনার গ্রাহকদের তৈরি করা অগোছালোতা চান।

৬. হাইব্রিড পাইপলাইন দিয়ে ট্রান্সক্রাইব করুন

  • একটি শক্তিশালী বেসলাইন মডেল (যেমন, হুইস্পার বা আপনার ইন-হাউস) দিয়ে অটো-ট্রান্সক্রাইব করুন।
  • সংশোধন, ডায়েরিকরণ এবং ঘটনার জন্য মানবিক QA (হাসি, ফিলার শব্দ)।
  • ধারাবাহিকতা পরীক্ষা: বানান অভিধান, ডোমেন অভিধান, বিরাম চিহ্ন নীতি।

৭. ভালোভাবে ভাগ করো; সৎভাবে পরীক্ষা করো

  • স্পিকার এবং দৃশ্যকল্প বিচ্ছিন্নতা সহ ট্রেন/ডেভেলপ/পরীক্ষা (লিকেজ এড়ান)।
  • একটি বাস্তব-বিশ্বের ব্লাইন্ড সেট রাখুন যা উৎপাদনের শব্দ এবং ডিভাইসগুলিকে প্রতিফলিত করে; পুনরাবৃত্তির সময় এটি স্পর্শ করবেন না।

টীকা: লেবেলকে আপনার পরিখা বানান

একটি স্পষ্ট স্কিমা সংজ্ঞায়িত করুন

  •  আভিধানিক নিয়ম: সংখ্যা ("পঁচিশ" বনাম "২৫"), সংক্ষিপ্ত রূপ, বিরামচিহ্ন।
  •  ঘটনা: [হাসি], [ক্রসটক], [শ্রবণাতীত: ০০:০৩.২–০০:০৩.৭]।
  • ডায়ারাইজেশন: যেখানে অনুমতি আছে সেখানে স্পিকার A/B লেবেল বা ট্র্যাক করা আইডি।
  • টাইমস্ট্যাম্প: যদি আপনি অনুসন্ধান, সাবটাইটেল, বা সারিবদ্ধকরণ সমর্থন করেন তবে শব্দ- বা বাক্যাংশ-স্তর।

টীকাকারদের প্রশিক্ষণ দিন; তাদের পরিমাপ করুন

গোল্ড টাস্ক এবং ইন্টার-অ্যানোটেটর চুক্তি (IAA) ব্যবহার করুন। গুরুত্বপূর্ণ টোকেন (পণ্যের নাম, ওষুধ) এবং টার্নঅ্যারাউন্ড সময়গুলির উপর নির্ভুলতা/প্রত্যাহার ট্র্যাক করুন। মাল্টি-পাস QA (পিয়ার পর্যালোচনা → লিড পর্যালোচনা) মডেল মূল্যায়ন স্থিতিশীলতার পরে ফল দেয়।

মান ব্যবস্থাপনা: আপনার ডেটা লেক পাঠাবেন না

  • স্বয়ংক্রিয় স্ক্রিন: ক্লিপিং, ক্লিপিং অনুপাত, SNR সীমানা, দীর্ঘ নীরবতা, কোডেক অমিল।
  • মানব নিরীক্ষা: পরিবেশ এবং ডিভাইস অনুসারে এলোমেলো নমুনা; স্পট চেক ডায়ারাইজেশন এবং বিরামচিহ্ন।
  • সংস্করণকরণ: কোড—সেমভার, চেঞ্জলগ এবং অপরিবর্তনীয় পরীক্ষার সেটের মতো ডেটাসেটগুলিকে ব্যবহার করুন।

আপনার ASR মূল্যায়ন: একটি একক WER এর বাইরে

সামগ্রিকভাবে এবং স্লাইস অনুসারে WER পরিমাপ করুন:

  • পরিবেশ অনুসারে: নীরবতা বনাম গাড়ি বনাম রাস্তা
  • ডিভাইস দ্বারা: নিম্নমানের অ্যান্ড্রয়েড বনাম আইফোন
  • উচ্চারণ/স্থান অনুসারে: en-IN বনাম en-US
  • ডোমেন পদ অনুসারে: পণ্যের নাম, ওষুধ, ঠিকানা

রিয়েল-টাইম UX ব্যবহার করলে ল্যাটেন্সি, আংশিক আচরণ এবং এন্ডপয়েন্টিং ট্র্যাক করুন। মডেল পর্যবেক্ষণের জন্য, WER অনুমান এবং ত্রুটি সনাক্তকরণের উপর গবেষণা সবকিছু ট্রান্সক্রাইব না করেই মানব পর্যালোচনাকে অগ্রাধিকার দিতে সাহায্য করতে পারে।

বিল্ড বনাম বাই (অথবা উভয়): ডেটা সোর্স যা আপনি একত্রিত করতে পারেন

একটি ডেটা টীকা টুল তৈরি করা বা না করা

১. অফ-দ্য-শেল্ফ ক্যাটালগ

বুটস্ট্র্যাপিং এবং প্রি-ট্রেনিং এর জন্য দরকারী, বিশেষ করে ভাষা বা বক্তার বৈচিত্র্য দ্রুত কভার করার জন্য।

2. কাস্টম ডেটা সংগ্রহ

যখন ডোমেন, অ্যাকোস্টিক, অথবা লোকেলের প্রয়োজনীয়তা নির্দিষ্ট হয়, তখন কাস্টম হল আপনি কীভাবে অন-টার্গেট WER-তে আঘাত করেন। আপনি প্রম্পট, কোটা, ডিভাইস এবং QA নিয়ন্ত্রণ করেন।

৩. ডেটা খুলুন (সাবধানে)

পরীক্ষার জন্য দুর্দান্ত; লাইসেন্সের সামঞ্জস্যতা, PII সুরক্ষা এবং আপনার ব্যবহারকারীদের সাপেক্ষে বিতরণ পরিবর্তন সম্পর্কে সচেতনতা নিশ্চিত করুন।

নিরাপত্তা, গোপনীয়তা এবং সম্মতি

  • স্পষ্ট সম্মতি এবং স্বচ্ছ অবদানকারীর শর্তাবলী
  • প্রয়োজনে শনাক্তকরণ/অজ্ঞাতনামা বাতিল করা
  • জিও-ফেন্সড স্টোরেজ এবং অ্যাক্সেস নিয়ন্ত্রণ
  • নিয়ন্ত্রক বা এন্টারপ্রাইজ গ্রাহকদের জন্য নিরীক্ষার পথ

বাস্তব-বিশ্বের অ্যাপ্লিকেশন (আপডেট করা হয়েছে)

  • ভয়েস অনুসন্ধান এবং আবিষ্কার: ক্রমবর্ধমান ব্যবহারকারীর সংখ্যা; বাজার এবং ব্যবহারের ক্ষেত্রের উপর নির্ভর করে গ্রহণযোগ্যতা পরিবর্তিত হয়।
  • স্মার্ট হোম এবং ডিভাইস: পরবর্তী প্রজন্মের সহকারীরা আরও কথোপকথনমূলক, বহু-পদক্ষেপের অনুরোধগুলিকে সমর্থন করে—দূরবর্তী, কোলাহলপূর্ণ কক্ষগুলির জন্য প্রশিক্ষণ ডেটা মানের উপর মান বৃদ্ধি করে।
  • গ্রাহক সমর্থন: ডায়ারাইজেশন এবং এজেন্ট সহায়তা সহ স্বল্প-টার্ন, ডোমেন-ভারী ASR।
  • স্বাস্থ্যসেবা নির্দেশিকা: কাঠামোগত শব্দভাণ্ডার, সংক্ষিপ্ত রূপ এবং কঠোর গোপনীয়তা নিয়ন্ত্রণ।
  • গাড়ির ভেতরের কণ্ঠস্বর: দূর-ক্ষেত্রের মাইক্রোফোন, গতির শব্দ, এবং নিরাপত্তা-সমালোচনামূলক বিলম্বিতা।

মিনি কেস স্টাডি: স্কেলে বহুভাষিক কমান্ড ডেটা

ডিভাইসে কমান্ড চালানোর জন্য একটি বিশ্বব্যাপী OEM-এর টিয়ার-১ এবং টিয়ার-২ ভাষা জুড়ে উচ্চারণ ডেটা (৩-৩০ সেকেন্ড) প্রয়োজন ছিল। টিমটি:

  • জাগরণের শব্দ, নেভিগেশন, মিডিয়া এবং সেটিংস কভার করে ডিজাইন করা প্রম্পট
  • ডিভাইস কোটা সহ প্রতি লোকেলের জন্য নিয়োগপ্রাপ্ত স্পিকার
  • শান্ত কক্ষ এবং দূরবর্তী পরিবেশে অডিও ক্যাপচার করা হয়েছে
  • JSON মেটাডেটা (ডিভাইস, SNR, লোকেল, লিঙ্গ/বয়স বাকেট) এবং যাচাইকৃত ট্রান্সক্রিপ্ট সরবরাহ করা হয়েছে

ফল: একটি উৎপাদন-প্রস্তুত ডেটাসেট যা দ্রুত মডেল পুনরাবৃত্তি এবং ইন-ডোমেন কমান্ডগুলিতে পরিমাপযোগ্য WER হ্রাস সক্ষম করে।

সাধারণ সমস্যা (এবং সমাধান)

  • অনেক বেশি ঘন্টা, পর্যাপ্ত কভারেজ নেই: স্পিকার/ডিভাইস/পরিবেশের কোটা সেট করুন।
  •  লিকি ইভাল: স্পিকার-ডিসজয়েন্ট স্প্লিট এবং একটি সত্যিকারের অন্ধ পরীক্ষা কার্যকর করুন।
  • অ্যানোটেশন ড্রিফট: চলমান QA চালান এবং বাস্তব উদাহরণ সহ নির্দেশিকা রিফ্রেশ করুন।
  • প্রান্তিক বাজার উপেক্ষা করা: কোড-স্যুইচিং, আঞ্চলিক উচ্চারণ এবং কম-সম্পদযুক্ত লোকেলের জন্য লক্ষ্যযুক্ত ডেটা যোগ করুন।
  • লেটেন্সি চমক: টার্গেট ডিভাইসে আপনার অডিও সহ প্রোফাইল মডেলগুলি আগে থেকেই।

কখন অফ-দ্য-শেল্ফ বনাম কাস্টম ডেটা ব্যবহার করবেন

বুটস্ট্র্যাপ করতে বা দ্রুত ভাষা কভারেজ প্রসারিত করতে অফ-দ্য-শেল্ফ ব্যবহার করুন; আপনার ডোমেনে WER প্লেট হওয়ার সাথে সাথেই কাস্টমে স্যুইচ করুন। অনেক দল মিশ্রিত করে: ক্যাটালগ ঘন্টাগুলিতে প্রি-ট্রেন/ফাইন-টিউন করে, তারপর আপনার উৎপাদন ফানেলকে প্রতিফলিত করে এমন বেসপোক ডেটার সাথে মানিয়ে নেয়।

চেকলিস্ট: সংগ্রহ করতে প্রস্তুত?

  • ব্যবহারের ধরণ, সাফল্যের মেট্রিক্স, সীমাবদ্ধতা সংজ্ঞায়িত
  • লোকেল, ডিভাইস, পরিবেশ, কোটা চূড়ান্ত করা হয়েছে
  • সম্মতি + গোপনীয়তা নীতিগুলি নথিভুক্ত করা হয়েছে
  • প্রম্পট প্যাক (স্ক্রিপ্টেড + দৃশ্যকল্প) প্রস্তুত
  •  টীকা নির্দেশিকা + QA পর্যায় অনুমোদিত
  • ট্রেন/ডেভেলপ/পরীক্ষা বিভক্ত করার নিয়ম (স্পিকার- এবং দৃশ্যকল্প-বিচ্ছিন্ন)
  • উৎক্ষেপণ-পরবর্তী প্রবাহের জন্য পর্যবেক্ষণ পরিকল্পনা

কী Takeaways

  • কভারেজ ঘন্টার চেয়েও বেশি। আরও মিনিট তাড়া করার আগে স্পিকার, ডিভাইস এবং পরিবেশের ভারসাম্য বজায় রাখুন।
  • লেবেলিং মানের যৌগ। পরিষ্কার স্কিমা + মাল্টি-স্টেজ QA একক-পাস সম্পাদনাগুলিকে ছাড়িয়ে যায়।
  • স্লাইস দিয়ে মূল্যায়ন করুন। উচ্চারণ, যন্ত্র এবং শব্দ দিয়ে WER ট্র্যাক করুন; এখানেই পণ্যের ঝুঁকি লুকিয়ে থাকে।
  • ডেটা সোর্সগুলিকে মিশ্রিত করুন। ক্যাটালগ + কাস্টম অভিযোজন দিয়ে বুটস্ট্র্যাপিং প্রায়শই দ্রুততম মূল্য নির্ধারণ করে।
  • গোপনীয়তা হলো পণ্য। প্রথম দিন থেকেই সম্মতি, পরিচয়পত্র বাতিল এবং নিরীক্ষণযোগ্যতা অন্তর্ভুক্ত করুন।

শাইপ আপনাকে কীভাবে সাহায্য করতে পারে

কাস্টম স্পিচ ডেটার প্রয়োজন? শাইপ কাস্টম সংগ্রহ, টীকা এবং ট্রান্সক্রিপশন প্রদান করে—এবং ১৫০+ ভাষা/ভেরিয়েন্টে অফ-দ্য-শেল্ফ অডিও/ট্রান্সক্রিপ্ট সহ ব্যবহারের জন্য প্রস্তুত ডেটাসেট অফার করে, স্পিকার, ডিভাইস এবং পরিবেশ দ্বারা সাবধানে ভারসাম্যপূর্ণ।

সামাজিক ভাগ