কেস স্টাডি: স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি

8k অডিও ঘন্টা সংগৃহীত, বহুভাষিক ভয়েস প্রযুক্তির জন্য 800 ঘন্টা প্রতিলিপি করা হয়েছে

কথোপকথন ai

ভূমিকা

ভারতের একটি প্ল্যাটফর্ম দরকার যেটি ভারতীয় ভাষায় ডিজিটাল পরিষেবা প্রদানের জন্য বহুভাষিক ডেটাসেট এবং এআই-ভিত্তিক ভাষা প্রযুক্তি সমাধান তৈরিতে মনোনিবেশ করবে। এই উদ্যোগটি চালু করার জন্য, ক্লায়েন্ট শাইপের সাথে অংশীদারিত্ব করেছে যাতে বহু-ভাষিক বক্তৃতা মডেল তৈরি করতে ভারতীয় ভাষা সংগ্রহ এবং প্রতিলিপি করা হয়।

আয়তন

তথ্য সংগ্রহ করা ঘন্টা
10
টীকা করা পৃষ্ঠার সংখ্যা
10 +
প্রকল্পের সময়কাল
< 1 মাসের

চ্যালেঞ্জ

ভারতীয় ভাষার জন্য ক্লায়েন্টকে তাদের স্পিচ টেকনোলজি স্পিচ রোডম্যাপে সহায়তা করার জন্য, টিমকে AI মডেল তৈরির জন্য প্রচুর পরিমাণে প্রশিক্ষণ ডেটা অর্জন, সেগমেন্ট এবং প্রতিলিপি করতে হবে। ক্লায়েন্টের গুরুত্বপূর্ণ প্রয়োজনীয়তা ছিল:

তথ্য সংগ্রহ

  • ভারতের দূরবর্তী অবস্থান থেকে 8000 ঘন্টার প্রশিক্ষণের ডেটা অর্জন করুন
  • সরবরাহকারী 20-70 বছর বয়সীদের থেকে স্বতঃস্ফূর্ত বক্তৃতা সংগ্রহ করে
  • বয়স, লিঙ্গ, শিক্ষা এবং উপভাষা অনুসারে বক্তাদের একটি বৈচিত্র্যময় মিশ্রণ নিশ্চিত করুন
  • প্রতিটি অডিও রেকর্ডিং 16 বিট/নমুনা সহ কমপক্ষে 16kHz হতে হবে।
তথ্য সংগ্রহ

ডেটা ট্রান্সক্রিপশন

অক্ষর এবং বিশেষ চিহ্ন, বানান এবং ব্যাকরণ, ক্যাপিটালাইজেশন, সংক্ষিপ্ত রূপ, সংকোচন, পৃথক কথ্য বর্ণ, সংখ্যা, যতিচিহ্ন, সংক্ষিপ্ত শব্দ এবং আদ্যক্ষর, অপ্রত্যাশিত বক্তৃতা, দুর্বোধ্য বক্তৃতা, অ-লক্ষ্য-ভাষা, অক্ষর-ল্যাংগুয়েজ এর চারপাশে বিস্তারিত প্রতিলিপি নির্দেশিকা অনুসরণ করুন।

ডেটা ট্রান্সক্রিপশন

গুণমান পরীক্ষা এবং প্রতিক্রিয়া

সমস্ত রেকর্ডিং গুণমান মূল্যায়ন এবং বৈধতা সহ্য করতে হবে, শুধুমাত্র বৈধ বক্তৃতা রেকর্ডিং প্রদান করা হবে

সমাধান

কথোপকথনমূলক এআই সম্পর্কে আমাদের গভীর উপলব্ধির সাথে, আমরা ক্লায়েন্টকে ভারতের প্রত্যন্ত অঞ্চল থেকে অডিও ডেটার বিশাল সংস্থা তৈরি করতে বিশেষজ্ঞ সংগ্রাহক, ভাষাবিদ এবং টীকাকারদের একটি দলের সাথে অডিও ডেটা সংগ্রহ, প্রতিলিপিতে সহায়তা করেছি।

Shaip-এর কাজের সুযোগ অন্তর্ভুক্ত ছিল কিন্তু অডিও প্রশিক্ষণ ডেটার বিশাল পরিমাণ অর্জন, ডেটা ট্রান্সক্রিব করা এবং মেটাডেটা [স্পিকার এবং ট্রান্সক্রাইবার উভয়ের জন্যই সংশ্লিষ্ট JSON ফাইল সরবরাহ করার মধ্যে সীমাবদ্ধ ছিল না। প্রতিটি স্পিকারের জন্য, মেটাডেটাতে একটি বেনামী স্পিকার আইডি, ডিভাইসের বিশদ বিবরণ, লিঙ্গ, বয়স এবং শিক্ষার মতো জনসংখ্যা সংক্রান্ত তথ্য, তাদের পিনকোড, আর্থ-সামাজিক অবস্থা, কথ্য ভাষা এবং তাদের জীবনের সময়কালের রেকর্ড অন্তর্ভুক্ত থাকে। প্রতিটি ট্রান্সক্রাইবারের জন্য, ডেটা একটি বেনামী ট্রান্সক্রাইবার আইডি, স্পিকারদের অনুরূপ জনসংখ্যার বিবরণ, তাদের ট্রান্সক্রিপশন অভিজ্ঞতার সময়কাল এবং তারা পড়তে, লিখতে এবং কথা বলতে পারে এমন ভাষার একটি পুঙ্খানুপুঙ্খ ভাঙ্গন অন্তর্ভুক্ত করে।

শইপ সংগৃহীত 8000 অডিও ডেটা / স্বতঃস্ফূর্ত বক্তৃতা স্কেলে এবং 800 ঘন্টা প্রতিলিপি করা হয়েছে এবং জটিল প্রকল্পগুলির জন্য বক্তৃতা প্রযুক্তির প্রশিক্ষণের জন্য প্রয়োজনীয় গুণমানের পছন্দসই স্তর বজায় রাখা হয়েছে। প্রতিটি অংশগ্রহণকারীদের কাছ থেকে স্পষ্ট সম্মতি ফর্ম নেওয়া হয়েছিল। সংগৃহীত স্বতঃস্ফূর্ত বক্তৃতাটি বিশ্ববিদ্যালয়-প্রদত্ত চিত্রের উপর ভিত্তি করে ছিল। এর 3500 ছবি 1000 জেনেরিক এবং 2500 জেলা-নির্দিষ্ট সংস্কৃতি, উত্সব, ইত্যাদির সাথে সম্পর্কিত৷ চিত্রগুলি বিভিন্ন ডোমেন যেমন ট্রেন স্টেশন, বাজার, আবহাওয়া এবং আরও অনেক কিছুকে চিত্রিত করে৷

তথ্য সংগ্রহ

রাষ্ট্র জেলা অডিও ঘন্টা ট্রান্সক্রিপশন (ঘণ্টা)
বিহার সরণ, পূর্ব চম্পারণ, গোপালগঞ্জ, সীতামারহি, সমষ্টিপুর, দরভাঙ্গা, মধ্যপুরা, ভাগলপুর, গয়া, কিষাণগঞ্জ, বৈশালী, লক্ষীসরাই, সহরসা, সুপল, আরারিয়া, বেগুসরাই, জাহানাবাদ, পূর্ণিয়া, মুজাফফরপুর, জামুই 2000 200
উত্তর প্রদেশ দেওরিয়া, বারাণসী, গোরখপুর, গাজিপুর, মুজাফফরনগর, ইটা, হামিরপুর, জ্যোতিবা ফুলে নগর, বুদাউন, জালাউন 1000 100
রাজস্থান নাগৌর, চুরু 200 20
উত্তরাখণ্ড তেহরি গাড়ওয়াল, উত্তরকাশী 200 20
ছত্তিশগড় বিলাসপুর, রায়গড়, কবিরধাম, সারগুজা, কোরবা, যশপুর, রাজনন্দগাঁও, বলরামপুর, বস্তার, সুকমা 1000 100
পশ্চিমবঙ্গ পশ্চিম মেদিনীপুর, মালদা, জলপাইগুড়ি, পুরুলিয়া, কলকাতা, ঝাড়গ্রাম, উত্তর 24 পরগনা, দক্ষিণ দিনাজপুর 800 80
ঝাড়খণ্ড সাহেবগঞ্জ, জামতারা 200 20
অন্ধ্র প্রদেশ গুন্টুর, চিত্তুর, বিশাখাপত্তনম, কৃষ্ণা, অনন্তপুর, শ্রীকাকুলাম 600 60
তেলেঙ্গানা করিমনগর, নালগোন্ডা 200 20
গোয়া উত্তর ও দক্ষিণ গোয়া 100 10
কর্ণাটক দক্ষিণ কন্নড়, গুলবার্গ, ধারওয়াড়, বেল্লারি, মহীশূর, শিমোগা, বিজাপুর, বেলগাঁও, রাইচুর, চামরাজনগর 1000 100
মহারাষ্ট্র সিন্ধুদুর্গ, ধুলে, নাগপুর, পুনে, ঔরঙ্গাবাদ, চন্দ্রপুর, সোলাপুর 700 70
মোট 8000 800

সাধারণ নির্দেশিকা

বিন্যাস

  • 16 kHz এ অডিও, 16 বিট/নমুনা।
  • একক চ্যানেল.
  • ট্রান্সকোডিং ছাড়াই কাঁচা অডিও।

শৈলী

  • স্বতঃস্ফূর্ত বক্তৃতা।
  • বিশ্ববিদ্যালয়-প্রদত্ত ছবির উপর ভিত্তি করে বাক্য। 3500টি ছবির মধ্যে, 1000টি সাধারণ এবং 2500টি জেলা-নির্দিষ্ট সংস্কৃতি, উত্সব ইত্যাদির সাথে সম্পর্কিত৷ চিত্রগুলি বিভিন্ন ডোমেন যেমন ট্রেন স্টেশন, বাজার, আবহাওয়া এবং আরও অনেক কিছুকে চিত্রিত করে৷

রেকর্ডিং ব্যাকগ্রাউন্ড

  • একটি শান্ত, প্রতিধ্বনি-মুক্ত পরিবেশে রেকর্ড করা হয়েছে।
  • রেকর্ডিংয়ের সময় স্মার্টফোনের কোনো ব্যাঘাত (কম্পন বা বিজ্ঞপ্তি) নেই।
  • ক্লিপিং বা দূর-ক্ষেত্রের প্রভাবের মতো কোনও বিকৃতি নেই।
  • ফোন থেকে কম্পন অগ্রহণযোগ্য; অডিও পরিষ্কার হলে বাহ্যিক কম্পন সহনীয়।

স্পিকার স্পেসিফিকেশন

  • প্রতি জেলায় সুষম লিঙ্গ বন্টন সহ বয়স 20-70 বছর।
  • প্রতিটি জেলায় ন্যূনতম 400 জন স্থানীয় ভাষাভাষী।
  • বক্তাদের উচিত তাদের বাড়ির ভাষা/উপভাষা ব্যবহার করা।
  • সমস্ত অংশগ্রহণকারীদের জন্য সম্মতি বাধ্যতামূলক।

কোয়ালিটি চেক এবং ক্রিটিক্যাল কোয়ালিটি অ্যাসুরেন্স

QA প্রক্রিয়াটি অডিও রেকর্ডিং এবং ট্রান্সক্রিপশনের জন্য গুণমানের নিশ্চয়তাকে অগ্রাধিকার দেয়। অডিও মান সুনির্দিষ্ট নীরবতা, সেগমেন্টের সময়কাল, একক-স্পীকার স্পষ্টতা, এবং বয়স এবং আর্থ-সামাজিক অবস্থা সহ বিস্তারিত মেটাডেটার উপর ফোকাস করে। ট্রান্সক্রিপশনের মানদণ্ড ট্যাগ নির্ভুলতা, শব্দের সত্যতা এবং সঠিক সেগমেন্ট বিশদকে জোর দেয়। গ্রহণযোগ্যতা বেঞ্চমার্ক নির্দেশ করে যে যদি একটি অডিও ব্যাচের 20% এর বেশি এই মানগুলি ব্যর্থ করে তবে এটি প্রত্যাখ্যান করা হবে। 20% এর কম অসঙ্গতির জন্য, অনুরূপ প্রোফাইলের সাথে প্রতিস্থাপন রেকর্ডিং প্রয়োজন।

ডেটা ট্রান্সক্রিপশন

ট্রান্সক্রিপশন নির্দেশিকাগুলি কেবলমাত্র শব্দগুলি স্পষ্ট এবং বোধগম্য হলেই সঠিকতা এবং শব্দার্থে প্রতিলিপির উপর জোর দেয়; সমস্যাটির উপর ভিত্তি করে অস্পষ্ট শব্দগুলিকে [অবোধগ্য] বা [শ্রবণাতীত] হিসাবে চিহ্নিত করা হয়েছে। দীর্ঘ অডিওতে বাক্যের সীমানা চিহ্নিত করা হয়েছে , এবং ব্যাকরণগত ত্রুটিগুলির কোন প্যারাফ্রেজিং বা সংশোধন অনুমোদিত নয়। ভারবাটিম ট্রান্সক্রিপশন ত্রুটি, অপবাদ এবং পুনরাবৃত্তি কভার করে কিন্তু মিথ্যা শুরু, ফিলার শব্দ এবং তোতলামি বাদ দেয়। ব্যাকগ্রাউন্ড এবং ফোরগ্রাউন্ড নয়েজগুলি বর্ণনামূলক ট্যাগের সাথে প্রতিলিপি করা হয়, যখন সঠিক নাম, শিরোনাম এবং সংখ্যাগুলি নির্দিষ্ট ট্রান্সক্রিপশন নিয়ম অনুসরণ করে। স্পিকার লেবেল প্রতিটি বাক্যের জন্য ব্যবহার করা হয়, এবং অসম্পূর্ণ বাক্য দ্বারা নির্দেশিত হয়.

প্রকল্পের কর্মপ্রবাহ

ওয়ার্কফ্লো অডিও ট্রান্সক্রিপশন প্রক্রিয়া বর্ণনা করে। এটি অনবোর্ডিং এবং প্রশিক্ষণ অংশগ্রহণকারীদের সাথে শুরু হয়। তারা একটি অ্যাপ ব্যবহার করে অডিও রেকর্ড করে, যা একটি QA প্ল্যাটফর্মে আপলোড করা হয়। এই অডিওর গুণমান পরীক্ষা এবং স্বয়ংক্রিয় বিভাজন হয়। প্রযুক্তি দল তারপর ট্রান্সক্রিপশনের জন্য বিভাগ প্রস্তুত করে। ম্যানুয়াল ট্রান্সক্রিপশনের পরে, একটি গুণমান নিশ্চিত করার পদক্ষেপ রয়েছে৷ ট্রান্সক্রিপশনগুলি ক্লায়েন্টের কাছে বিতরণ করা হয়, এবং যদি গ্রহণ করা হয়, বিতরণ সম্পূর্ণ বলে গণ্য করা হয়। যদি না হয়, ক্লায়েন্ট প্রতিক্রিয়ার উপর ভিত্তি করে সংশোধন করা হয়।

প্রকল্পের কর্মপ্রবাহ

ফলাফল

বিশেষজ্ঞ ভাষাবিদদের থেকে উচ্চ-মানের অডিও ডেটা আমাদের ক্লায়েন্টকে নির্দিষ্ট সময়ে বিভিন্ন ভারতীয় ভাষায় বিভিন্ন উপভাষা সহ বহুভাষিক স্পিচ রিকগনিশন মডেলকে সঠিকভাবে প্রশিক্ষণ দিতে এবং তৈরি করতে সক্ষম করবে। স্পিচ রিকগনিশন মডেলগুলি ব্যবহার করা যেতে পারে:

  • নাগরিকদের তাদের নিজস্ব মাতৃভাষায় উদ্যোগের সাথে সংযুক্ত করে ডিজিটাল অন্তর্ভুক্তির জন্য ভাষার বাধা অতিক্রম করুন।
  • ডিজিটাল গভর্নেন্স প্রচার করে
  • ভারতীয় ভাষায় পরিষেবা এবং পণ্যগুলির জন্য একটি বাস্তুতন্ত্র গঠনের জন্য অনুঘটক৷
  • জনস্বার্থের ডোমেনে, বিশেষ করে, শাসন ও নীতিতে আরও স্থানীয় ডিজিটাল সামগ্রী
উদ্ধৃতি আইকন

কনভারসেশনাল এআই ক্ষেত্রে শাইপের দক্ষতায় আমরা মুগ্ধ। ৮০টি ভিন্ন ভিন্ন জেলা জুড়ে ৮০০০ ঘণ্টার অডিও ডেটা এবং ৮০০ ঘণ্টার ট্রান্সক্রিপশন সামলানোর কাজটি ছিল এক কথায় বিশাল। এই ক্ষেত্রের জটিল খুঁটিনাটি ও সূক্ষ্ম বিষয়গুলো সম্পর্কে শাইপের গভীর উপলব্ধিই এমন একটি চ্যালেঞ্জিং প্রকল্পের সফল বাস্তবায়নকে সম্ভব করে তুলেছে। সর্বোচ্চ মানের নিশ্চয়তা দিয়ে এই বিপুল পরিমাণ ডেটার জটিলতা অনায়াসে পরিচালনা করার তাদের ক্ষমতা সত্যিই প্রশংসার যোগ্য।

★★★★★
উদ্ধৃতি আইকন

আপনার কথোপকথনমূলক এআই অ্যাপ্লিকেশন ডেভেলপমেন্ট ১০০% ত্বরান্বিত করুন