স্পিচ রিকগনিশন ট্রেনিং ডেটা

স্পিচ রিকগনিশন ট্রেনিং ডেটা - প্রকার, ডেটা সংগ্রহ এবং অ্যাপ্লিকেশন

আপনি যদি আপনার দৈনন্দিন জীবনের অংশ হিসাবে Siri, Alexa, Cortana, Amazon Echo বা অন্যান্য ব্যবহার করেন, তাহলে আপনি তা গ্রহণ করবেন কন্ঠ সনান্তকরণ আমাদের জীবনের একটি সর্বব্যাপী অংশ হয়ে উঠেছে। এইগুলো কৃত্রিম বুদ্ধিমত্তা-চালিত ভয়েস অ্যাসিস্ট্যান্টরা ব্যবহারকারীদের মৌখিক প্রশ্নগুলিকে টেক্সটে রূপান্তরিত করে, ব্যাখ্যা করে এবং বুঝতে পারে যে ব্যবহারকারী একটি উপযুক্ত প্রতিক্রিয়া নিয়ে আসতে কী বলছে।

নির্ভরযোগ্য বক্তৃতা, স্বীকৃতি মডেল বিকাশের জন্য মানসম্পন্ন ডেটা সংগ্রহের প্রয়োজন রয়েছে। কিন্তু, উন্নয়নশীল স্পিচ রিকগনিশন সফটওয়্যার এটি একটি সহজ কাজ নয় - সঠিকভাবে কারণ ছন্দ, উচ্চারণ, পিচ এবং স্বচ্ছতার মতো সমস্ত জটিলতায় মানুষের বক্তৃতা প্রতিলিপি করা কঠিন। এবং, যখন আপনি এই জটিল মিশ্রণে আবেগ যোগ করেন, এটি একটি চ্যালেঞ্জ হয়ে ওঠে।

স্পিচ রিকগনিশন কি?

স্পিচ রিকগনিশন হল সফটওয়্যারকে চিনতে এবং প্রক্রিয়া করার ক্ষমতা মানুষের বক্তৃতা পাঠ্যের মধ্যে যদিও ভয়েস রিকগনিশন এবং স্পিচ রিকগনিশনের মধ্যে পার্থক্য অনেকের কাছে বিষয়ভিত্তিক মনে হতে পারে, তবে উভয়ের মধ্যে কিছু মৌলিক পার্থক্য রয়েছে।

যদিও বক্তৃতা এবং ভয়েস স্বীকৃতি উভয়ই ভয়েস সহকারী প্রযুক্তির একটি অংশ গঠন করে, তারা দুটি ভিন্ন কার্য সম্পাদন করে। বক্তৃতা শনাক্তকরণ মানুষের বক্তৃতার স্বয়ংক্রিয় ট্রান্সক্রিপশন এবং টেক্সটে কমান্ড দেয়, যখন ভয়েস স্বীকৃতি শুধুমাত্র স্পিকারের ভয়েস চিনতে পারে।

স্পিচ রিকগনিশনের ধরন

আমরা মধ্যে ঝাঁপ আগে বক্তৃতা স্বীকৃতির ধরন, আসুন স্পিচ রিকগনিশন ডেটার একটি সংক্ষিপ্ত বিবরণ দেখি।

স্পিচ রিকগনিশন ডেটা হল মানুষের বক্তৃতা অডিও রেকর্ডিং এবং টেক্সট ট্রান্সক্রিপশনের একটি সংগ্রহ যা মেশিন লার্নিং সিস্টেমকে প্রশিক্ষণ দিতে সাহায্য করে ভয়েস স্বীকৃতি.

অডিও রেকর্ডিং এবং ট্রান্সক্রিপশনগুলি এমএল সিস্টেমে প্রবেশ করানো হয় যাতে অ্যালগরিদমকে বক্তৃতার সূক্ষ্মতা চিনতে এবং এর অর্থ বোঝার জন্য প্রশিক্ষিত করা যায়।

যদিও অনেক জায়গা আছে যেখানে আপনি বিনামূল্যে প্রাক-প্যাকেজ করা ডেটাসেট পেতে পারেন, এটি পাওয়াই উত্তম কাস্টমাইজড ডেটাসেট আপনার প্রকল্পের জন্য। আপনি একটি কাস্টম ডেটাসেট থাকার মাধ্যমে সংগ্রহের আকার, অডিও এবং স্পিকারের প্রয়োজনীয়তা এবং ভাষা নির্বাচন করতে পারেন।

স্পিচ ডেটা স্পেকট্রাম

বক্তৃতা ডেটা বর্ণালী প্রাকৃতিক থেকে অপ্রাকৃতিক পর্যন্ত বক্তৃতার গুণমান এবং পিচ সনাক্ত করে।

  • স্ক্রিপ্টেড স্পিচ স্বীকৃতি ডেটা

    নাম অনুসারে, স্ক্রিপ্টেড বক্তৃতা হল ডেটার একটি নিয়ন্ত্রিত রূপ। স্পিকাররা একটি প্রস্তুত পাঠ্য থেকে নির্দিষ্ট বাক্যাংশ রেকর্ড করে। এইগুলি সাধারণত কমান্ড প্রদানের জন্য ব্যবহৃত হয়, জোর দেয় কিভাবে শব্দ বা বাক্যাংশ যা বলা হচ্ছে তার চেয়ে বলা হয়।

    একটি ভয়েস সহকারী তৈরি করার সময় স্ক্রিপ্টযুক্ত স্পিচ রিকগনিশন ব্যবহার করা যেতে পারে যা বিভিন্ন স্পিকার অ্যাকসেন্ট ব্যবহার করে জারি করা কমান্ডগুলিকে বেছে নেওয়া উচিত।

  • দৃশ্যকল্প-ভিত্তিক বক্তৃতা স্বীকৃতি

    একটি দৃশ্য-ভিত্তিক বক্তৃতায়, স্পিকারকে একটি নির্দিষ্ট দৃশ্যকল্প কল্পনা করতে বলা হয় এবং একটি জারি করা হয় ভয়েস কমান্ডিং দৃশ্যকল্পের উপর ভিত্তি করে। এইভাবে, ফলাফলটি ভয়েস কমান্ডের একটি সংগ্রহ যা স্ক্রিপ্ট করা নয় কিন্তু নিয়ন্ত্রিত।

    দৃশ্যকল্প-ভিত্তিক বক্তৃতা ডেটার প্রয়োজন ডেভেলপারদের এমন একটি ডিভাইস তৈরি করতে যা প্রতিদিনের বক্তৃতা বুঝতে পারে তার বিভিন্ন সূক্ষ্মতা। উদাহরণস্বরূপ, বিভিন্ন প্রশ্ন ব্যবহার করে নিকটস্থ পিৎজা হাটে যাওয়ার জন্য দিকনির্দেশ জিজ্ঞাসা করা।

  • প্রাকৃতিক বক্তৃতা স্বীকৃতি

    স্পিচ স্পেকট্রামের ঠিক শেষে এমন বক্তৃতা হয় যা স্বতঃস্ফূর্ত, স্বাভাবিক এবং কোনোভাবেই নিয়ন্ত্রিত হয় না। স্পিকার তার স্বাভাবিক কথোপকথন স্বন, ভাষা, পিচ এবং টেনার ব্যবহার করে অবাধে কথা বলে।

    আপনি যদি মাল্টি-স্পিকার স্পিচ রিকগনিশনের উপর একটি এমএল-ভিত্তিক অ্যাপ্লিকেশন প্রশিক্ষণ দিতে চান, তাহলে একটি আনস্ক্রিপ্টেড বা কথোপকথনমূলক বক্তব্য ডেটাসেট দরকারী।

বক্তৃতা প্রকল্পের জন্য ডেটা সংগ্রহের উপাদান

বক্তৃতা ডেটা সংগ্রহ বক্তৃতা ডেটা সংগ্রহের সাথে জড়িত পদক্ষেপগুলির একটি সিরিজ নিশ্চিত করে যে সংগৃহীত ডেটা গুণমানের এবং উচ্চ-মানের AI-ভিত্তিক মডেল প্রশিক্ষণে সহায়তা করে।

প্রয়োজনীয় ব্যবহারকারীর প্রতিক্রিয়া বুঝতে

মডেলের জন্য প্রয়োজনীয় ব্যবহারকারীর প্রতিক্রিয়া বোঝার মাধ্যমে শুরু করুন। একটি স্পিচ রিকগনিশন মডেল ডেভেলপ করতে, আপনার এমন ডেটা সংগ্রহ করা উচিত যা আপনার প্রয়োজনীয় বিষয়বস্তুকে ঘনিষ্ঠভাবে উপস্থাপন করে। ব্যবহারকারীর মিথস্ক্রিয়া এবং প্রতিক্রিয়া বোঝার জন্য বাস্তব-বিশ্বের মিথস্ক্রিয়া থেকে ডেটা সংগ্রহ করুন। আপনি যদি একটি AI-ভিত্তিক চ্যাট সহকারী তৈরি করছেন, একটি ডেটাসেট তৈরি করতে চ্যাট লগ, কল রেকর্ডিং, চ্যাট ডায়ালগ বক্সের প্রতিক্রিয়া দেখুন।

ডোমেন-নির্দিষ্ট ভাষা যাচাই করুন

একটি বক্তৃতা শনাক্তকরণ ডেটাসেটের জন্য আপনার জেনেরিক এবং ডোমেন-নির্দিষ্ট উভয় সামগ্রীর প্রয়োজন৷ একবার আপনি জেনেরিক স্পিচ ডেটা সংগ্রহ করার পরে, আপনার ডেটার মাধ্যমে পরীক্ষা করা উচিত এবং জেনেরিকটিকে নির্দিষ্ট থেকে আলাদা করা উচিত।

উদাহরণস্বরূপ, গ্রাহকরা চোখের যত্ন কেন্দ্রে গ্লুকোমা পরীক্ষা করার জন্য অ্যাপয়েন্টমেন্টের জন্য কল করতে পারেন। অ্যাপয়েন্টমেন্টের জন্য জিজ্ঞাসা করা একটি অত্যন্ত সাধারণ শব্দ, কিন্তু গ্লুকোমা ডোমেন-নির্দিষ্ট।

অধিকন্তু, একটি বক্তৃতা শনাক্তকরণ এমএল মডেল প্রশিক্ষণের সময়, নিশ্চিত করুন যে আপনি এটিকে পৃথকভাবে না করে বাক্যাংশ সনাক্ত করতে প্রশিক্ষণ দিয়েছেন স্বীকৃত শব্দ.

মানুষের বক্তৃতা রেকর্ড করুন

পূর্ববর্তী দুটি ধাপ থেকে তথ্য সংগ্রহ করার পর, পরবর্তী ধাপে সংগৃহীত বিবৃতি রেকর্ড করার জন্য মানুষকে নেওয়া জড়িত।

স্ক্রিপ্টের একটি আদর্শ দৈর্ঘ্য বজায় রাখা অপরিহার্য। লোকেদের 15 মিনিটের বেশি পাঠ্য পড়তে বলা বিপরীতমুখী হতে পারে। প্রতিটি রেকর্ড করা বিবৃতির মধ্যে ন্যূনতম 2 - 3 সেকেন্ডের ব্যবধান বজায় রাখুন।

রেকর্ডিংকে গতিশীল হতে দিন

বিভিন্ন ব্যক্তি, কথা বলার উচ্চারণ, বিভিন্ন পরিস্থিতিতে রেকর্ড করা শৈলী, ডিভাইস এবং পরিবেশের একটি বক্তৃতা সংগ্রহস্থল তৈরি করুন। যদি ভবিষ্যত ব্যবহারকারীদের অধিকাংশই ল্যান্ডলাইন ব্যবহার করতে যাচ্ছেন, তাহলে আপনার বক্তৃতা সংগ্রহের ডাটাবেসে একটি উল্লেখযোগ্য উপস্থাপনা থাকা উচিত যা সেই প্রয়োজনীয়তার সাথে মেলে।

বক্তৃতা রেকর্ডিং মধ্যে পরিবর্তনশীলতা প্ররোচিত

একবার টার্গেট এনভায়রনমেন্ট সেট আপ হয়ে গেলে, আপনার ডেটা সংগ্রহের বিষয়গুলিকে অনুরূপ পরিবেশের অধীনে প্রস্তুত স্ক্রিপ্ট পড়তে বলুন। বিষয়গুলিকে ভুল সম্পর্কে চিন্তা না করতে বলুন এবং উপস্থাপনা যতটা সম্ভব স্বাভাবিক রাখুন। ধারণাটি হল একই পরিবেশে স্ক্রিপ্টটি রেকর্ড করার জন্য একটি বৃহৎ গোষ্ঠী থাকা।

বক্তৃতা প্রতিলিপি

একবার আপনি একাধিক বিষয় (ভুল সহ) ব্যবহার করে স্ক্রিপ্টটি রেকর্ড করার পরে, আপনাকে ট্রান্সক্রিপশনের সাথে এগিয়ে যেতে হবে। ভুলগুলি অক্ষত রাখুন, কারণ এটি আপনাকে সংগৃহীত ডেটাতে গতিশীলতা এবং বৈচিত্র্য অর্জনে সহায়তা করবে।

মানুষ শব্দের জন্য সম্পূর্ণ পাঠ্য শব্দ প্রতিলিপি করার পরিবর্তে, আপনি প্রতিলিপি করার জন্য একটি স্পিচ-টু-টেক্সট ইঞ্জিনকে জড়িত করতে পারেন। যাইহোক, আমরা আপনাকে ভুল সংশোধনের জন্য হিউম্যান ট্রান্সক্রাইবার নিয়োগ করার পরামর্শ দিই।

একটি পরীক্ষার সেট তৈরি করুন

একটি পরীক্ষা সেট তৈরি করা অত্যন্ত গুরুত্বপূর্ণ কারণ এটি একটি সামনে-রানার ভাষার মডেল.

বক্তৃতা এবং সংশ্লিষ্ট পাঠ্যের একটি জোড়া তৈরি করুন এবং সেগুলিকে ভাগে ভাগ করুন।

সংগৃহীত উপাদানগুলি সংগ্রহ করার পরে, 20% এর একটি নমুনা বের করুন, যা পরীক্ষার সেট তৈরি করে। এটি প্রশিক্ষণের সেট নয়, তবে এই নির্যাসিত ডেটা আপনাকে জানাবে যদি প্রশিক্ষিত মডেল অডিও প্রতিলিপি করে যেটিতে এটি প্রশিক্ষিত হয়নি।

ভাষা প্রশিক্ষণ মডেল এবং পরিমাপ তৈরি করুন

এখন ডোমেন-নির্দিষ্ট বিবৃতি এবং প্রয়োজনে অতিরিক্ত বৈচিত্র ব্যবহার করে স্পিচ রিকগনিশন ভাষার মডেল তৈরি করুন। একবার আপনি মডেলটি প্রশিক্ষণ নিলে, আপনার এটি পরিমাপ করা শুরু করা উচিত।

প্রশিক্ষণ মডেল নিন (80% নির্বাচিত অডিও সেগমেন্ট সহ) এবং ভবিষ্যদ্বাণী এবং নির্ভরযোগ্যতা পরীক্ষা করার জন্য পরীক্ষা সেটের (20% ডেটাসেট নিষ্কাশিত) এর সাথে পরীক্ষা করুন। ভুল, নিদর্শন পরীক্ষা করুন এবং পরিবেশগত কারণগুলির উপর ফোকাস করুন যা সংশোধন করা যেতে পারে।

সম্ভাব্য ব্যবহারের ক্ষেত্রে বা অ্যাপ্লিকেশন

স্পিচ রিকগনিশন ইউজ কেস

ভয়েস অ্যাপ্লিকেশন, স্মার্ট অ্যাপ্লায়েন্স, টেক্সট থেকে বক্তৃতা, গ্রাহক সহায়তা, বিষয়বস্তু নির্দেশনা, নিরাপত্তা অ্যাপ্লিকেশন, স্বায়ত্তশাসিত যানবাহন, স্বাস্থ্যসেবার জন্য নোট নেওয়া।

বক্তৃতা স্বীকৃতি সম্ভাবনার একটি বিশ্ব উন্মুক্ত করে, এবং কয়েক বছর ধরে ভয়েস অ্যাপ্লিকেশনগুলির ব্যবহারকারীর গ্রহণ বৃদ্ধি পেয়েছে।

এর কিছু সাধারণ অ্যাপ্লিকেশন বক্তৃতা শনাক্তকরণ প্রযুক্তি অন্তর্ভুক্ত:

  1. ভয়েস অনুসন্ধান অ্যাপ্লিকেশন

    গুগলের মতে, প্রায় 20% Google অ্যাপে পরিচালিত অনুসন্ধানগুলির মধ্যে ভয়েস। আট কোটি মানুষ 2023 সালের মধ্যে ভয়েস সহকারী ব্যবহার করার অনুমান করা হয়েছে, যা 6.4 সালে ভবিষ্যদ্বাণী করা 2022 বিলিয়ন থেকে একটি তীব্র বৃদ্ধি।

    কয়েক বছর ধরে ভয়েস অনুসন্ধান গ্রহণ উল্লেখযোগ্যভাবে বৃদ্ধি পেয়েছে এবং এই প্রবণতা অব্যাহত থাকবে বলে পূর্বাভাস দেওয়া হয়েছে। ভোক্তারা ক্যোয়ারী অনুসন্ধান, পণ্য ক্রয়, ব্যবসা সনাক্তকরণ, স্থানীয় ব্যবসা খুঁজে বের করতে এবং আরও অনেক কিছুর জন্য ভয়েস অনুসন্ধানের উপর নির্ভর করে।

  2. হোম ডিভাইস/স্মার্ট অ্যাপ্লায়েন্সেস

    ভয়েস রিকগনিশন প্রযুক্তি হোম স্মার্ট ডিভাইস যেমন টিভি, লাইট এবং অন্যান্য যন্ত্রপাতিতে ভয়েস কমান্ড প্রদান করতে ব্যবহার করা হচ্ছে। গ্রাহকদের 66% যুক্তরাজ্য, মার্কিন যুক্তরাষ্ট্র এবং জার্মানিতে বলা হয়েছে যে তারা স্মার্ট ডিভাইস এবং স্পিকার ব্যবহার করার সময় ভয়েস সহকারী ব্যবহার করে।

  3. পাঠ্য স্পিচ

    ইমেল, নথি, প্রতিবেদন এবং অন্যান্য টাইপ করার সময় বিনামূল্যে কম্পিউটিংয়ে সাহায্য করার জন্য স্পিচ-টু-টেক্সট অ্যাপ্লিকেশনগুলি ব্যবহার করা হচ্ছে। পাঠ্য স্পিচ নথিপত্র টাইপ করা, বই এবং মেইল ​​লেখা, সাবটাইটেল ভিডিও এবং টেক্সট অনুবাদ করার সময় নষ্ট করে।

  4. গ্রাহক সমর্থন

    বক্তৃতা স্বীকৃতি অ্যাপ্লিকেশনগুলি প্রধানত গ্রাহক পরিষেবা এবং সমর্থনে ব্যবহৃত হয়। একটি স্পিচ রিকগনিশন সিস্টেম সীমিত সংখ্যক প্রতিনিধিদের সাথে সাশ্রয়ী মূল্যে 24/7 গ্রাহক পরিষেবা সমাধান প্রদান করতে সহায়তা করে।

  5. বিষয়বস্তু ডিক্টেশন

    কন্টেন্ট ডিক্টেশন অন্য বক্তৃতা স্বীকৃতি ব্যবহার ক্ষেত্রে যা শিক্ষার্থীদের এবং শিক্ষাবিদদের সময়ের একটি ভগ্নাংশে ব্যাপক বিষয়বস্তু লিখতে সাহায্য করে। অন্ধত্ব বা দৃষ্টি সমস্যার কারণে অসুবিধায় থাকা শিক্ষার্থীদের জন্য এটি বেশ সহায়ক।

  6. নিরাপত্তা অ্যাপ্লিকেশন

    ভয়েস স্বীকৃতি অনন্য ভয়েস বৈশিষ্ট্য সনাক্ত করে নিরাপত্তা এবং প্রমাণীকরণ উদ্দেশ্যে ব্যাপকভাবে ব্যবহৃত হয়। ব্যক্তিগত তথ্য চুরি বা অপব্যবহার করে ব্যক্তিকে নিজের পরিচয় দেওয়ার পরিবর্তে ভয়েস বায়োমেট্রিক্স নিরাপত্তা বাড়ায়।

    অধিকন্তু, নিরাপত্তার উদ্দেশ্যে ভয়েস স্বীকৃতি গ্রাহকের সন্তুষ্টির স্তরকে উন্নত করেছে কারণ এটি বর্ধিত লগইন প্রক্রিয়া এবং শংসাপত্রের অনুলিপি দূর করে।

  7. যানবাহনের জন্য ভয়েস কমান্ড

    যানবাহন, প্রাথমিকভাবে গাড়ি, এখন ড্রাইভিং নিরাপত্তা বাড়ানোর জন্য একটি সাধারণ ভয়েস রিকগনিশন বৈশিষ্ট্য রয়েছে৷ এটি ড্রাইভারদের রেডিও স্টেশন নির্বাচন করা, কল করা বা ভলিউম কমানোর মতো সাধারণ ভয়েস কমান্ড গ্রহণ করে ড্রাইভিংয়ে ফোকাস করতে সহায়তা করে।

  8. স্বাস্থ্যসেবা জন্য নোট গ্রহণ

    স্পিচ রিকগনিশন অ্যালগরিদম ব্যবহার করে তৈরি মেডিকেল ট্রান্সক্রিপশন সফ্টওয়্যার সহজেই ডাক্তারদের ভয়েস নোট, কমান্ড, রোগ নির্ণয় এবং লক্ষণগুলি ক্যাপচার করে। মেডিকেল নোট গ্রহণ স্বাস্থ্যসেবা শিল্পে গুণমান এবং জরুরিতা বাড়ায়।

আপনার মনে কি একটি বক্তৃতা স্বীকৃতি প্রকল্প আছে যা আপনার ব্যবসাকে রূপান্তর করতে পারে? আপনার যা প্রয়োজন হতে পারে তা হল একটি কাস্টমাইজড স্পিচ রিকগনিশন ডেটাসেট।

একটি AI-ভিত্তিক স্পিচ রিকগনিশন সফ্টওয়্যারকে মেশিন লার্নিং অ্যালগরিদমের নির্ভরযোগ্য ডেটাসেটের উপর প্রশিক্ষিত করতে হবে যাতে সিনট্যাক্স, ব্যাকরণ, বাক্যের গঠন, আবেগ এবং মানুষের বক্তৃতার সূক্ষ্মতা একীভূত হয়। সবচেয়ে গুরুত্বপূর্ণ, সফ্টওয়্যারটিকে ক্রমাগত শিখতে হবে এবং প্রতিক্রিয়া জানাতে হবে - প্রতিটি মিথস্ক্রিয়ায় ক্রমবর্ধমান।

Shaip-এ, আমরা বিভিন্ন মেশিন লার্নিং প্রকল্পের জন্য সম্পূর্ণ কাস্টমাইজড স্পিচ রিকগনিশন ডেটাসেট সরবরাহ করি। Shaip সঙ্গে, আপনি অ্যাক্সেস আছে সর্বোচ্চ মানের দর্জি তৈরি প্রশিক্ষণ তথ্য যা একটি নির্ভরযোগ্য স্পিচ রিকগনিশন সিস্টেম তৈরি এবং বাজারজাত করতে ব্যবহার করা যেতে পারে। আমাদের অফারগুলির একটি বিস্তৃত বোঝার জন্য আমাদের বিশেষজ্ঞদের সাথে যোগাযোগ করুন।

[এছাড়াও পড়ুন: কথোপকথনমূলক এআই-এর সম্পূর্ণ নির্দেশিকা]

সামাজিক ভাগ