স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি

স্বয়ংক্রিয় বক্তৃতা স্বীকৃতির জন্য অডিও ডেটা সংগ্রহের প্রক্রিয়া বোঝা

স্বয়ংক্রিয় স্পিচ রিকগনিশন সিস্টেম এবং ভার্চুয়াল সহকারী যেমন Siri, Alexa, এবং Cortana আমাদের জীবনের সাধারণ অংশ হয়ে উঠেছে। তারা আরও স্মার্ট হওয়ার সাথে সাথে তাদের উপর আমাদের নির্ভরতা উল্লেখযোগ্যভাবে বৃদ্ধি পাচ্ছে। আমাদের লাইট জ্বালানো থেকে শুরু করে টিভি চ্যানেল পরিবর্তন করা পর্যন্ত কল করা পর্যন্ত, আমরা জাগতিক কাজগুলি সম্পূর্ণ করতে এই স্মার্ট প্রযুক্তিগুলিকে কাজে লাগাই৷

যাইহোক, আপনি কি কখনও ভেবে দেখেছেন কিভাবে এই স্পিচ রিকগনিশন সিস্টেমগুলি কাজ করে?

ঠিক আছে, এই ব্লগটি আপনাকে স্বয়ংক্রিয় বক্তৃতা স্বীকৃতির কিছু মৌলিক বিষয়ে শিক্ষিত করবে। এছাড়াও, আমরা এটির কাজ এবং কীভাবে সিরির মতো কার্যকরী ভার্চুয়াল সহকারী তৈরি করা হয় তা অন্বেষণ করব।

স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি কি?

স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি (ASR) হল এমন একটি সফ্টওয়্যার যা কম্পিউটার সিস্টেমকে একাধিক কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং অ্যালগরিদম ব্যবহার করে মানুষের বক্তৃতাকে পাঠ্যে রূপান্তর করতে সক্ষম করে।

প্রদত্ত কমান্ডটি রূপান্তর এবং বিশ্লেষণ করার পরে, কম্পিউটার ব্যবহারকারীর জন্য একটি উপযুক্ত আউটপুট দিয়ে প্রতিক্রিয়া জানায়। ASR প্রথম 1962 সালে চালু করা হয়েছিল, এবং তারপর থেকে, এটি ক্রমাগতভাবে এর ক্রিয়াকলাপগুলিকে উন্নত করছে এবং আলেক্সা এবং সিরির মতো জনপ্রিয় অ্যাপ্লিকেশনগুলির কারণে বিশাল লাইমলাইট পেয়েছে।

আপনি কি জানেন যে স্বয়ংক্রিয় স্পিচ রিকগনিশনকে স্পিচ-টু-টেক্সট রিডার নামেও পরিচিত? এই ব্লগে এটি সম্পর্কে আরও পড়ুন! 

ASR মডেলের প্রশিক্ষণের জন্য বক্তৃতা সংগ্রহের প্রক্রিয়া কী?

বক্তৃতা সংগ্রহ প্রক্রিয়া

বক্তৃতা সংগ্রহের লক্ষ্য ASR মডেলগুলিকে খাওয়ানো এবং প্রশিক্ষণের জন্য ব্যবহৃত একাধিক এলাকা থেকে বেশ কয়েকটি নমুনা রেকর্ডিং সংগ্রহ করা। ASR সিস্টেম সর্বোচ্চ দক্ষতা প্রদান করে যখন বক্তৃতা এবং অডিওর বড় ডেটাসেট সংগ্রহ করা হয় এবং এর সিস্টেমে সরবরাহ করা হয়।

নির্বিঘ্নে কাজ করার জন্য, সংগৃহীত বক্তৃতা ডেটাসেটে অবশ্যই সমস্ত লক্ষ্য জনসংখ্যা, ভাষা, উচ্চারণ এবং উপভাষা থাকতে হবে। নিম্নলিখিত প্রক্রিয়াটি দেখায় কিভাবে একাধিক ধাপে মেশিন লার্নিং মডেলকে প্রশিক্ষণ দিতে হয়:

  • একটি ডেমোগ্রাফিক ম্যাট্রিক্স তৈরি করে শুরু করুন

    সর্বাগ্রে অবস্থান, লিঙ্গ, ভাষা, বয়স এবং উচ্চারণের মতো বিভিন্ন জনসংখ্যার জন্য ডেটা সংগ্রহ করে। এছাড়াও, রাস্তার কোলাহল, ওয়েটিং রুমের কোলাহল, পাবলিক অফিসের কোলাহল ইত্যাদির মতো বিভিন্ন পরিবেশগত শব্দ ক্যাপচার করা নিশ্চিত করুন।

  • স্পিচ ডেটা সংগ্রহ করুন এবং প্রতিলিপি করুন

    পরবর্তী ধাপ হল আপনার ASR মডেলকে প্রশিক্ষণের জন্য বিভিন্ন ভৌগলিক অবস্থানের উপর ভিত্তি করে মানুষের অডিও এবং বক্তৃতা নমুনা সংগ্রহ করা। এটি একটি গুরুত্বপূর্ণ পদক্ষেপ এবং বাক্যটির প্রকৃত অনুভূতি পেতে এবং বিভিন্ন উচ্চারণ এবং উপভাষায় একই বাক্য পুনরাবৃত্তি করার জন্য মানব বিশেষজ্ঞদের দীর্ঘ এবং সংক্ষিপ্ত উচ্চারণ করতে হবে।

  • একটি পৃথক পরীক্ষার সেট তৈরি করুন

    একবার আপনি প্রতিলিপি করা পাঠ্য সংগ্রহ করলে, পরবর্তী পদক্ষেপটি সংশ্লিষ্ট অডিও ডেটার সাথে এটিকে যুক্ত করা। তারপরে, ডেটা আরও ভাগ করুন এবং তাদের থেকে একটি বিবৃতি অন্তর্ভুক্ত করুন। এখন, বিভক্ত ডেটা জোড়া থেকে, আপনি আরও পরীক্ষার জন্য একটি সেট থেকে র্যান্ডম ডেটা টানতে পারেন।

  • আপনার ASR ভাষার মডেলকে প্রশিক্ষণ দিন

    আপনার ডেটাসেটগুলিতে যত বেশি তথ্য থাকবে, আপনার এআই-প্রশিক্ষিত মডেল তত ভাল পারফর্ম করবে। অতএব, আপনি আগে রেকর্ড করা পাঠ্য এবং বক্তৃতার একাধিক বৈচিত্র তৈরি করুন। বিভিন্ন বক্তৃতা স্বরলিপি ব্যবহার করে একই বাক্যকে প্যারাফ্রেজ করুন।

  • আউটপুট মূল্যায়ন করুন এবং অবশেষে, পুনরাবৃত্তি করুন

    অবশেষে, আপনার ASR মডেলের কার্যক্ষমতা ঠিক করতে এর আউটপুট পরিমাপ করে। একটি পরীক্ষার সেটের বিপরীতে মডেলটি পরীক্ষা করুন এর কার্যকারিতা নির্ধারণ করতে। উপযুক্তভাবে, আপনার ASR মডেলকে একটি ফিডব্যাক লুপে নিযুক্ত করুন যাতে কাঙ্খিত আউটপুট জেনারেট করা যায় এবং যেকোন শূন্যস্থান ঠিক করা যায়।

[এছাড়াও পড়ুন: স্বয়ংক্রিয় বক্তৃতা স্বীকৃতির একটি ব্যাপক ওভারভিউ]

বক্তৃতা স্বীকৃতির বিভিন্ন ব্যবহারের ক্ষেত্রে কী কী?

বক্তৃতা স্বীকৃতি প্রযুক্তি আজ অনেক শিল্পে অত্যন্ত প্রচলিত। এই অসাধারণ প্রযুক্তি ব্যবহার করে কিছু শিল্প নিম্নরূপ:

  • খাদ্য শিল্প খাদ্য শিল্প: Wendy's এবং McDonald's-এর মতো ফুড জায়ান্টগুলি ASR ব্যবহার করে তাদের গ্রাহকদের অভিজ্ঞতা বাড়াতে প্রস্তুত৷ তাদের অনেক আউটলেটে, তারা অর্ডার নেওয়ার জন্য সম্পূর্ণরূপে কার্যকরী ASR মডেল স্থাপন করেছে এবং গ্রাহকের অর্ডার প্রস্তুত করার জন্য রান্নার বিভাগে সেগুলি প্রেরণ করেছে।

     

  • টেলিকমিউনিকেশন টেলিযোগাযোগ: ভোডাফোন বিশ্বের অন্যতম বৃহত্তম টেলিকম সরবরাহকারী। এটি তার কাস্টমার কেয়ার এবং টেলিফোন রিলে পরিষেবাগুলিকে ASR মডেলগুলিকে কাজে লাগিয়ে ডিজাইন করেছে যা আপনাকে বিভিন্ন প্রশ্নের সমাধান করতে এবং সংশ্লিষ্ট বিভাগে আপনার কলগুলিকে পুনরায় রুট করতে সহায়তা করে৷

     

  • ভ্রমণ ও অপসারণ ভ্রমণ এবং পরিবহন: গুগল অ্যান্ড্রয়েড অটো বা অ্যাপল কারপ্লে সাধারণ হয়ে উঠেছে। বেশিরভাগ লোকেরা নেভিগেশন সিস্টেমগুলি সক্রিয় করতে, বার্তা পাঠাতে বা সঙ্গীত প্লেলিস্টগুলি পরিবর্তন করতে ব্যবহার করে। যাইহোক, প্রযুক্তিগত অগ্রগতির সাথে, এই ধরনের সিস্টেমগুলি আরও পরিমার্জিত হয়ে উঠছে।
    BMW ইন্টেলিজেন্ট পার্সোনাল অ্যাসিস্ট্যান্ট তার BMW 3 সিরিজে লঞ্চ করা রেগুলার ভয়েস অ্যাসিস্ট্যান্টদের থেকে অনেক বেশি স্মার্ট। এটি ড্রাইভারদের গাড়ি সম্পর্কিত তথ্য খুঁজে পেতে এবং ভয়েস কমান্ড ব্যবহার করে গাড়ি পরিচালনা করতে সক্ষম করতে পারে।
  • মিডিয়া এবং বিনোদন মিডিয়া এবং বিনোদন: মিডিয়া শিল্পও, তার অনেক প্রকল্পে ASR ব্যবহার করে। Youtube একটি AI-ভিত্তিক সহকারী চালু করেছে যা লাইভ অটো-ক্যাপশন তৈরি করে। আপনি যখন স্ক্রিনে কথা বলবেন, সহকারী ইউটিউব ব্যবহারকারীদের একটি বৃহত্তর গোষ্ঠীর কাছে ভিডিও অ্যাক্সেসযোগ্য করার জন্য সাবটাইটেল সরবরাহ করবে।

 

[এছাড়াও পড়ুন: স্পিচ-টু-টেক্সট প্রযুক্তি কী এবং এটি কীভাবে কাজ করে]

কিভাবে Shaip সাহায্য করতে পারেন?

শাইপ হল একটি নেতৃস্থানীয় AI প্রশিক্ষণ পরিষেবা যা AI এবং ML-এর একাধিক ক্ষেত্রে দক্ষতা ধারণ করে। তারা আপনাকে আপনার নিজস্ব ডেটা সেট তৈরি করতে সাহায্য করতে পারে যা বিভিন্ন অ্যাপ্লিকেশন এবং প্রকল্পের জন্য ব্যবহার করা যেতে পারে।

Shaip দ্বারা প্রদত্ত কিছু পরিষেবা হল:

  • অটোমেটেড স্পিচ রিকগনিশন (ASR)
  • স্ক্রিপ্টেড বক্তৃতা সংগ্রহ
  • স্থানান্তর
  • স্বতঃস্ফূর্ত বক্তৃতা সংগ্রহ
  • উচ্চারণ সংগ্রহ / জেগে ওঠা শব্দ,
  • টেক্সট-টু-স্পীচ (TTS)

আপনার AI-ভিত্তিক প্রকল্পগুলির জন্য সেরা ফলাফল পেতে আপনি এই পরিষেবাগুলি পেতে পারেন। আজ আমাদের বিশেষজ্ঞ দলের সাথে যোগাযোগ করে এই পরিষেবাগুলি সম্পর্কে আরও জানুন!

সামাজিক ভাগ