কেস স্টাডি: কথোপকথনমূলক এআই

3টি ভারতীয় ভাষায় ASR তৈরি করতে 8 হাজার ঘণ্টার বেশি ডেটা সংগ্রহ করা, সেগমেন্ট করা এবং প্রতিলিপি করা হয়েছে

উচ্চারণ সংগ্রহ
সরকার ভাসিনী প্রকল্পের মাধ্যমে তার নাগরিকদের তাদের নিজস্ব মাতৃভাষায় ইন্টারনেট ও ডিজিটাল সেবা সহজে অ্যাক্সেস করতে সক্ষম করার লক্ষ্য রাখে।

ভাশিনি, ভারতের এআই-চালিত ভাষা অনুবাদ প্ল্যাটফর্ম, ডিজিটাল ইন্ডিয়া উদ্যোগের একটি গুরুত্বপূর্ণ অংশ।

এমএসএমই, স্টার্টআপ এবং স্বাধীন উদ্ভাবকদের কৃত্রিম বুদ্ধিমত্তা (এআই) এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (এনএলপি) সরঞ্জাম সরবরাহ করার জন্য ডিজাইন করা হয়েছে, ভাশিনী প্ল্যাটফর্ম একটি পাবলিক রিসোর্স হিসাবে কাজ করে। এর লক্ষ্য হল ভারতীয় নাগরিকদের তাদের মাতৃভাষায় দেশের ডিজিটাল উদ্যোগের সাথে যোগাযোগ করতে সক্ষম করে ডিজিটাল অন্তর্ভুক্তি প্রচার করা।

উপরন্তু, এটি ভারতীয় ভাষায় ইন্টারনেট সামগ্রীর প্রাপ্যতা উল্লেখযোগ্যভাবে প্রসারিত করার লক্ষ্য রাখে। এটি বিশেষ করে জনস্বার্থের ক্ষেত্রগুলির দিকে লক্ষ্য করা হয়েছে যেমন শাসন এবং নীতি, বিজ্ঞান এবং প্রযুক্তি, ইত্যাদি। ফলস্বরূপ, এটি নাগরিকদের তাদের সক্রিয় অংশগ্রহণের প্রচার করে তাদের নিজস্ব ভাষায় ইন্টারনেট ব্যবহার করতে উত্সাহিত করবে।

ভাষাগত বাধা অতিক্রম করার উদ্দেশ্যে অবদানকারী, অংশীদারী সত্ত্বা এবং নাগরিকদের একটি বৈচিত্র্যময় ইকোসিস্টেম সক্ষম করতে NLP ব্যবহার করুন, যার ফলে ডিজিটাল অন্তর্ভুক্তি এবং ক্ষমতায়ন নিশ্চিত করা

বাস্তব বিশ্ব সমাধান

ডেটা দিয়ে স্থানীয়করণের শক্তি প্রকাশ করা

ভারতের একটি প্ল্যাটফর্মের প্রয়োজন ছিল যা ভারতীয় ভাষায় ডিজিটাল পরিষেবা প্রদানের জন্য বহুভাষিক ডেটাসেট এবং এআই-ভিত্তিক ভাষা প্রযুক্তি সমাধান তৈরিতে মনোনিবেশ করবে। এই উদ্যোগটি চালু করার জন্য, ইন্ডিয়ান ইনস্টিটিউট অফ টেকনোলজি, মাদ্রাজ (আইআইটি মাদ্রাজ) বহুভাষিক বক্তৃতা মডেল তৈরি করতে ভারতীয় ভাষার ডেটাসেট সংগ্রহ, সেগমেন্ট এবং প্রতিলিপি করার জন্য শাইপের সাথে অংশীদারিত্ব করেছে।

চ্যালেঞ্জ

ভারতীয় ভাষার জন্য ক্লায়েন্টকে তাদের স্পিচ টেকনোলজি স্পিচ রোডম্যাপে সহায়তা করার জন্য, টিমকে AI মডেল তৈরির জন্য প্রচুর পরিমাণে প্রশিক্ষণ ডেটা অর্জন, সেগমেন্ট এবং প্রতিলিপি করতে হবে। ক্লায়েন্টের গুরুত্বপূর্ণ প্রয়োজনীয়তা ছিল:

তথ্য সংগ্রহ

  • প্রতি ভাষা 3000টি উপভাষা সহ 8টি ভারতীয় ভাষায় 4 ঘন্টা প্রশিক্ষণের ডেটা অর্জন করুন।
  • প্রতিটি ভাষার জন্য, সরবরাহকারী Extempore Speech এবং সংগ্রহ করবে
    18-60 বছর বয়সীদের থেকে কথোপকথনমূলক বক্তৃতা
  • বয়স, লিঙ্গ, শিক্ষা এবং উপভাষা অনুসারে বক্তাদের একটি বৈচিত্র্যময় মিশ্রণ নিশ্চিত করুন
  • নির্দিষ্টকরণ অনুযায়ী রেকর্ডিং পরিবেশের একটি বৈচিত্র্যময় মিশ্রণ নিশ্চিত করুন।
  • প্রতিটি অডিও রেকর্ডিং ন্যূনতম 16kHz হতে হবে তবে 44kHz হতে হবে

ডেটা সেগমেন্টেশন

  • 15 সেকেন্ডের বক্তৃতা বিভাগ তৈরি করুন এবং প্রতিটি প্রদত্ত স্পিকারের জন্য অডিওটি মিলিসেকেন্ডে টাইমস্ট্যাম্প করুন, একটি কথোপকথনে শব্দের ধরন (বক্তৃতা, বক্তৃতা, সঙ্গীত, শব্দ), পালা, উচ্চারণ এবং বাক্যাংশ
  • শুরু এবং শেষে 200-400 মিলিসেকেন্ড প্যাডিং সহ এর লক্ষ্যযুক্ত শব্দ সংকেতের জন্য প্রতিটি সেগমেন্ট তৈরি করুন।
  • সমস্ত বিভাগের জন্য, নিম্নলিখিত অবজেক্টগুলি অবশ্যই পূরণ করতে হবে যেমন, শুরুর সময়, শেষ সময়, সেগমেন্ট আইডি, লাউডনেস লেভেল, সাউন্ড টাইপ, ভাষা কোড, স্পিকার আইডি ইত্যাদি।

ডেটা ট্রান্সক্রিপশন

  • অক্ষর এবং বিশেষ চিহ্ন, বানান এবং ব্যাকরণ, ক্যাপিটালাইজেশন, সংক্ষিপ্ত রূপ, সংকোচন, পৃথক কথ্য অক্ষর, সংখ্যা, যতিচিহ্ন, সংক্ষিপ্ত শব্দ, অপ্রত্যাশিত, বক্তৃতা, দুর্বোধ্য বক্তৃতা, অ-লক্ষ্য ভাষা, অ-লক্ষ্য ইত্যাদি সম্পর্কে বিস্তারিত প্রতিলিপি নির্দেশিকা অনুসরণ করুন।

গুণমান পরীক্ষা এবং প্রতিক্রিয়া

  • সমস্ত রেকর্ডিং গুণমান মূল্যায়ন এবং বৈধতা সহ্য করতে হবে, শুধুমাত্র বৈধ বক্তৃতা প্রদান করা হবে

সমাধান

কথোপকথনমূলক এআই সম্পর্কে আমাদের গভীর বোঝার সাথে, আমরা ক্লায়েন্টকে 8টি ভারতীয় ভাষায় অডিও ডেটাসেটের বিশাল কর্পাস তৈরি করতে বিশেষজ্ঞ সংগ্রাহক, ভাষাবিদ এবং টীকাকারদের একটি দলের সাথে ডেটা সংগ্রহ, সেগমেন্ট এবং প্রতিলিপি করতে সহায়তা করেছি।

Shaip-এর কাজের সুযোগ অন্তর্ভুক্ত ছিল কিন্তু অডিও প্রশিক্ষণ ডেটার বিশাল পরিমাণ অর্জন, একাধিক অডিও রেকর্ডিংকে ভাগ করা, ডেটা ট্রান্সক্রিব করা এবং মেটাডেটা [স্পিকারআইডি, বয়স, লিঙ্গ, ভাষা, উপভাষা, সহ সংশ্লিষ্ট JSON ফাইলগুলি সরবরাহ করার মধ্যে সীমাবদ্ধ ছিল না।
মাতৃভাষা, যোগ্যতা, পেশা, ডোমেন, ফাইল বিন্যাস, ফ্রিকোয়েন্সি, চ্যানেল, অডিওর ধরন, স্পিকারের সংখ্যা, বিদেশী ভাষার সংখ্যা, সেটআপ ব্যবহৃত, ন্যারোব্যান্ড বা ওয়াইডব্যান্ড অডিও, ইত্যাদি।] 

জটিল প্রকল্পগুলির জন্য বক্তৃতা প্রযুক্তির প্রশিক্ষণের জন্য প্রয়োজনীয় গুণমানের পছন্দসই স্তর বজায় রেখে শাইপ স্কেলে 3000 ঘন্টা অডিও ডেটা সংগ্রহ করেছে। প্রতিটি অংশগ্রহণকারীদের কাছ থেকে স্পষ্ট সম্মতি ফর্ম নেওয়া হয়েছিল।

1। তথ্য সংগ্রহ

2. ডেটা সেগমেন্টেশন

  • যে অডিও ডেটা সংগ্রহ করা হয়েছিল তা আরও 15 সেকেন্ডের স্পিচ সেগমেন্টে বিভক্ত করা হয়েছিল এবং প্রতিটি প্রদত্ত স্পিকারের জন্য মিলিসেকেন্ডে টাইমস্ট্যাম্প করা হয়েছিল, একটি কথোপকথনে শব্দের ধরন, বাঁক, উচ্চারণ এবং বাক্যাংশগুলি।
  • একটি সাউন্ড সিগন্যালের শুরুতে এবং শেষে 200-400 মিলিসেকেন্ড প্যাডিং সহ তার লক্ষ্যযুক্ত শব্দ সংকেতের জন্য প্রতিটি সেগমেন্ট তৈরি করেছে৷
  • সমস্ত বিভাগের জন্য, নিম্নলিখিত অবজেক্টগুলি উপস্থিত ছিল এবং পূর্ণ ছিল যেমন, শুরুর সময়, শেষ সময়, সেগমেন্ট আইডি, উচ্চতার স্তর (জোরে, স্বাভাবিক, শান্ত), প্রাথমিক শব্দের ধরন (বক্তৃতা, বাবল, সঙ্গীত, শব্দ, ওভারল্যাপ), ভাষা কোড স্পিকার আইডি, ট্রান্সক্রিপশন ইত্যাদি

3. গুণমান পরীক্ষা এবং প্রতিক্রিয়া

  • সমস্ত রেকর্ডিং গুণমানের জন্য মূল্যায়ন করা হয়েছিল এবং 90% এর WER এবং 90% এর TER সহ শুধুমাত্র বৈধ বক্তৃতা রেকর্ডিং বিতরণ করা হয়েছিল
  • মানের চেকলিস্ট অনুসরণ করা হয়েছে:
       » সেগমেন্ট দৈর্ঘ্যের সর্বোচ্চ 15 সেকেন্ড
       » নির্দিষ্ট ডোমেন থেকে ট্রান্সক্রিপশন, যথা: আবহাওয়া, বিভিন্ন ধরনের খবর, স্বাস্থ্য, কৃষি, শিক্ষা, চাকরি বা অর্থ
       » নিম্ন ব্যাকগ্রাউন্ড নয়েজ
       » কোন অডিও ক্লিপ বন্ধ - কোন বিকৃতি নেই
       » ট্রান্সক্রিপশনের জন্য সঠিক অডিও সেগমেন্টেশন

4. ডেটা ট্রান্সক্রিপশন
দ্বিধা, ফিলার শব্দ, মিথ্যা শুরু এবং অন্যান্য মৌখিক টিকগুলি সহ সমস্ত কথ্য শব্দ প্রতিলিপিতে সঠিকভাবে ধরা হয়েছিল। আমরা ক্যাপিটাল এবং ছোট হাতের অক্ষর, বানান, ক্যাপিটালাইজেশন, সংক্ষেপণ, সংকোচন, সংখ্যা,
বিরাম চিহ্ন, সংক্ষিপ্ত শব্দ, অপ্রত্যাশিত বক্তৃতা, নন-স্পিচ নয়েজ ইত্যাদি। তাছাড়া সংগ্রহ এবং প্রতিলিপির জন্য অনুসরণ করা কাজের প্রবাহ নিম্নরূপ:

ফলাফল

বিশেষজ্ঞ ভাষাবিদদের কাছ থেকে পাওয়া উচ্চ-মানের অডিও ডেটা ইন্ডিয়ান ইনস্টিটিউট অফ টেকনোলজি - মাদ্রাজকে নির্দিষ্ট সময়ে বিভিন্ন উপভাষা সহ 8টি ভারতীয় ভাষায় বহুভাষিক স্পিচ রিকগনিশন মডেলকে সঠিকভাবে প্রশিক্ষণ ও তৈরি করতে সক্ষম করবে। স্পিচ রিকগনিশন মডেলগুলি ব্যবহার করা যেতে পারে:

  • নাগরিকদের তাদের নিজস্ব মাতৃভাষায় উদ্যোগের সাথে সংযুক্ত করে ডিজিটাল অন্তর্ভুক্তির জন্য ভাষার বাধা অতিক্রম করুন।
  • ডিজিটাল গভর্নেন্স প্রচার করে
  • ভারতীয় ভাষায় পরিষেবা এবং পণ্যগুলির জন্য একটি বাস্তুতন্ত্র গঠনের জন্য অনুঘটক৷
  • জনস্বার্থের ডোমেনে, বিশেষ করে, শাসন ও নীতিতে আরও স্থানীয় ডিজিটাল সামগ্রী
গোল্ডেন-৫-স্টার

কথোপকথনমূলক এআই স্পেসে শাইপের দক্ষতায় আমরা মুগ্ধ হয়েছি। কঠোর সময়সীমা এবং নির্দেশিকাগুলির মধ্যে 8টি ভাষায় বিশেষজ্ঞ ভাষাবিদদের কাছ থেকে সোর্সিং, সেগমেন্টিং, ট্রান্সক্রিবিং এবং প্রয়োজনীয় প্রশিক্ষণ ডেটা সরবরাহ থেকে তাদের সামগ্রিক প্রকল্প সম্পাদনের দক্ষতা; এখনও মানসম্মত মান বজায় রেখে।"

আপনার কথোপকথনমূলক এআই ত্বরান্বিত করুন
100% দ্বারা অ্যাপ্লিকেশন উন্নয়ন

বৈশিষ্ট্যযুক্ত ক্লায়েন্ট

বিশ্ব-নেতৃস্থানীয় এআই পণ্য তৈরির জন্য দলগুলিকে ক্ষমতায়ন করা।