কেস স্টাডি: স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি
8k অডিও ঘন্টা সংগৃহীত, বহুভাষিক ভয়েস প্রযুক্তির জন্য 800 ঘন্টা প্রতিলিপি করা হয়েছে
ভূমিকা
ভারতের একটি প্ল্যাটফর্ম দরকার যেটি ভারতীয় ভাষায় ডিজিটাল পরিষেবা প্রদানের জন্য বহুভাষিক ডেটাসেট এবং এআই-ভিত্তিক ভাষা প্রযুক্তি সমাধান তৈরিতে মনোনিবেশ করবে। এই উদ্যোগটি চালু করার জন্য, ক্লায়েন্ট শাইপের সাথে অংশীদারিত্ব করেছে যাতে বহু-ভাষিক বক্তৃতা মডেল তৈরি করতে ভারতীয় ভাষা সংগ্রহ এবং প্রতিলিপি করা হয়।
আয়তন
চ্যালেঞ্জ
ভারতীয় ভাষার জন্য ক্লায়েন্টকে তাদের স্পিচ টেকনোলজি স্পিচ রোডম্যাপে সহায়তা করার জন্য, টিমকে AI মডেল তৈরির জন্য প্রচুর পরিমাণে প্রশিক্ষণ ডেটা অর্জন, সেগমেন্ট এবং প্রতিলিপি করতে হবে। ক্লায়েন্টের গুরুত্বপূর্ণ প্রয়োজনীয়তা ছিল:
তথ্য সংগ্রহ
- ভারতের দূরবর্তী অবস্থান থেকে 8000 ঘন্টার প্রশিক্ষণের ডেটা অর্জন করুন
- সরবরাহকারী 20-70 বছর বয়সীদের থেকে স্বতঃস্ফূর্ত বক্তৃতা সংগ্রহ করে
- বয়স, লিঙ্গ, শিক্ষা এবং উপভাষা অনুসারে বক্তাদের একটি বৈচিত্র্যময় মিশ্রণ নিশ্চিত করুন
- প্রতিটি অডিও রেকর্ডিং 16 বিট/নমুনা সহ কমপক্ষে 16kHz হতে হবে।
ডেটা ট্রান্সক্রিপশন
অক্ষর এবং বিশেষ চিহ্ন, বানান এবং ব্যাকরণ, ক্যাপিটালাইজেশন, সংক্ষিপ্ত রূপ, সংকোচন, পৃথক কথ্য বর্ণ, সংখ্যা, যতিচিহ্ন, সংক্ষিপ্ত শব্দ এবং আদ্যক্ষর, অপ্রত্যাশিত বক্তৃতা, দুর্বোধ্য বক্তৃতা, অ-লক্ষ্য-ভাষা, অক্ষর-ল্যাংগুয়েজ এর চারপাশে বিস্তারিত প্রতিলিপি নির্দেশিকা অনুসরণ করুন।
গুণমান পরীক্ষা এবং প্রতিক্রিয়া
সমস্ত রেকর্ডিং গুণমান মূল্যায়ন এবং বৈধতা সহ্য করতে হবে, শুধুমাত্র বৈধ বক্তৃতা রেকর্ডিং প্রদান করা হবে
সমাধান
কথোপকথনমূলক এআই সম্পর্কে আমাদের গভীর উপলব্ধির সাথে, আমরা ক্লায়েন্টকে ভারতের প্রত্যন্ত অঞ্চল থেকে অডিও ডেটার বিশাল সংস্থা তৈরি করতে বিশেষজ্ঞ সংগ্রাহক, ভাষাবিদ এবং টীকাকারদের একটি দলের সাথে অডিও ডেটা সংগ্রহ, প্রতিলিপিতে সহায়তা করেছি।
Shaip-এর কাজের সুযোগ অন্তর্ভুক্ত ছিল কিন্তু অডিও প্রশিক্ষণ ডেটার বিশাল পরিমাণ অর্জন, ডেটা ট্রান্সক্রিব করা এবং মেটাডেটা [স্পিকার এবং ট্রান্সক্রাইবার উভয়ের জন্যই সংশ্লিষ্ট JSON ফাইল সরবরাহ করার মধ্যে সীমাবদ্ধ ছিল না। প্রতিটি স্পিকারের জন্য, মেটাডেটাতে একটি বেনামী স্পিকার আইডি, ডিভাইসের বিশদ বিবরণ, লিঙ্গ, বয়স এবং শিক্ষার মতো জনসংখ্যা সংক্রান্ত তথ্য, তাদের পিনকোড, আর্থ-সামাজিক অবস্থা, কথ্য ভাষা এবং তাদের জীবনের সময়কালের রেকর্ড অন্তর্ভুক্ত থাকে। প্রতিটি ট্রান্সক্রাইবারের জন্য, ডেটা একটি বেনামী ট্রান্সক্রাইবার আইডি, স্পিকারদের অনুরূপ জনসংখ্যার বিবরণ, তাদের ট্রান্সক্রিপশন অভিজ্ঞতার সময়কাল এবং তারা পড়তে, লিখতে এবং কথা বলতে পারে এমন ভাষার একটি পুঙ্খানুপুঙ্খ ভাঙ্গন অন্তর্ভুক্ত করে।
শইপ সংগৃহীত 8000 অডিও ডেটা / স্বতঃস্ফূর্ত বক্তৃতা স্কেলে এবং 800 ঘন্টা প্রতিলিপি করা হয়েছে এবং জটিল প্রকল্পগুলির জন্য বক্তৃতা প্রযুক্তির প্রশিক্ষণের জন্য প্রয়োজনীয় গুণমানের পছন্দসই স্তর বজায় রাখা হয়েছে। প্রতিটি অংশগ্রহণকারীদের কাছ থেকে স্পষ্ট সম্মতি ফর্ম নেওয়া হয়েছিল। সংগৃহীত স্বতঃস্ফূর্ত বক্তৃতাটি বিশ্ববিদ্যালয়-প্রদত্ত চিত্রের উপর ভিত্তি করে ছিল। এর 3500 ছবি 1000 জেনেরিক এবং 2500 জেলা-নির্দিষ্ট সংস্কৃতি, উত্সব, ইত্যাদির সাথে সম্পর্কিত৷ চিত্রগুলি বিভিন্ন ডোমেন যেমন ট্রেন স্টেশন, বাজার, আবহাওয়া এবং আরও অনেক কিছুকে চিত্রিত করে৷
তথ্য সংগ্রহ
রাষ্ট্র | জেলা | অডিও ঘন্টা | প্রতিলিপির গ্রহণ (ঘণ্টা) |
বিহার | সরণ, পূর্ব চম্পারণ, গোপালগঞ্জ, সীতামারহি, সমষ্টিপুর, দরভাঙ্গা, মাধেপুরা, ভাগলপুর, গয়া, কিষাণগঞ্জ, বৈশালী, লক্ষীসরাই, সহরসা, সুপল, আরারিয়া, বেগুসরাই, জাহানাবাদ, পূর্ণিয়া, মুজাফ্ফরপুর, জামুই | 2000 | 200 |
উত্তর প্রদেশ | দেওরিয়া, বারাণসী, গোরখপুর, গাজীপুর, মুজ্জাফরনগর, ইটা, হামিরপুর, জ্যোতিবা ফুলে নগর, বুদাউন, জালাউন | 1000 | 100 |
রাজস্থান | নাগৌর, চুরু | 200 | 20 |
উত্তরাখণ্ড | তেহরি গাড়ওয়াল, উত্তরকাশী | 200 | 20 |
ছত্তিশগড় | বিলাসপুর, রায়গড়, কবিরধাম, সারগুজা, কোরবা, যশপুর, রাজনন্দগাঁও, বলরামপুর, বস্তার, সুকমা | 1000 | 100 |
পশ্চিমবঙ্গ | পশ্চিম মেদিনীপুর, মালদা, জলপাইগুড়ি, পুরুলিয়া, কলকাতা, ঝাড়গ্রাম, উত্তর 24 পরগনা, দক্ষিণ দিনাজপুর | 800 | 80 |
ঝাড়খণ্ড | সাহেবগঞ্জ, জামতারা | 200 | 20 |
AP | গুন্টুর, চিত্তুর, বিশাখাপত্তনম, কৃষ্ণা, অনন্তপুর, শ্রীকাকুলাম | 600 | 60 |
তেলেঙ্গানা | করিমনগর, নালগোন্ডা | 200 | 20 |
গোয়া | উত্তর+দক্ষিণ গোয়া | 100 | 10 |
কর্ণাটক | দক্ষিণ কন্নড়, গুলবার্গ, ধারওয়াড়, বেল্লারি, মহীশূর, শিমোগা, বিজাপুর, বেলগাঁও, রাইচুর, চামরাজনগর | 1000 | 100 |
মহারাষ্ট্র | সিন্ধুদুর্গ, ধুলে, নাগপুর, পুনে, ঔরঙ্গাবাদ, চন্দ্রপুর, সোলাপুর | 700 | 70 |
মোট | 8000 | 800 |
সাধারণ নির্দেশিকা
বিন্যাস
- 16 kHz এ অডিও, 16 বিট/নমুনা।
- একক চ্যানেল.
- ট্রান্সকোডিং ছাড়াই কাঁচা অডিও।
শৈলী
- স্বতঃস্ফূর্ত বক্তৃতা।
- বিশ্ববিদ্যালয়-প্রদত্ত ছবির উপর ভিত্তি করে বাক্য। 3500টি ছবির মধ্যে, 1000টি সাধারণ এবং 2500টি জেলা-নির্দিষ্ট সংস্কৃতি, উত্সব ইত্যাদির সাথে সম্পর্কিত৷ চিত্রগুলি বিভিন্ন ডোমেন যেমন ট্রেন স্টেশন, বাজার, আবহাওয়া এবং আরও অনেক কিছুকে চিত্রিত করে৷
রেকর্ডিং ব্যাকগ্রাউন্ড
- একটি শান্ত, প্রতিধ্বনি-মুক্ত পরিবেশে রেকর্ড করা হয়েছে।
- রেকর্ডিংয়ের সময় স্মার্টফোনের কোনো ব্যাঘাত (কম্পন বা বিজ্ঞপ্তি) নেই।
- ক্লিপিং বা দূর-ক্ষেত্রের প্রভাবের মতো কোনও বিকৃতি নেই।
- ফোন থেকে কম্পন অগ্রহণযোগ্য; অডিও পরিষ্কার হলে বাহ্যিক কম্পন সহনীয়।
স্পিকার স্পেসিফিকেশন
- প্রতি জেলায় সুষম লিঙ্গ বন্টন সহ বয়স 20-70 বছর।
- প্রতিটি জেলায় ন্যূনতম 400 জন স্থানীয় ভাষাভাষী।
- বক্তাদের উচিত তাদের বাড়ির ভাষা/উপভাষা ব্যবহার করা।
- সমস্ত অংশগ্রহণকারীদের জন্য সম্মতি বাধ্যতামূলক।
কোয়ালিটি চেক এবং ক্রিটিক্যাল কোয়ালিটি অ্যাসুরেন্স
QA প্রক্রিয়াটি অডিও রেকর্ডিং এবং ট্রান্সক্রিপশনের জন্য গুণমানের নিশ্চয়তাকে অগ্রাধিকার দেয়। অডিও মান সুনির্দিষ্ট নীরবতা, সেগমেন্টের সময়কাল, একক-স্পীকার স্পষ্টতা, এবং বয়স এবং আর্থ-সামাজিক অবস্থা সহ বিস্তারিত মেটাডেটার উপর ফোকাস করে। ট্রান্সক্রিপশনের মানদণ্ড ট্যাগ নির্ভুলতা, শব্দের সত্যতা এবং সঠিক সেগমেন্ট বিশদকে জোর দেয়। গ্রহণযোগ্যতা বেঞ্চমার্ক নির্দেশ করে যে যদি একটি অডিও ব্যাচের 20% এর বেশি এই মানগুলি ব্যর্থ করে তবে এটি প্রত্যাখ্যান করা হবে। 20% এর কম অসঙ্গতির জন্য, অনুরূপ প্রোফাইলের সাথে প্রতিস্থাপন রেকর্ডিং প্রয়োজন।
ডেটা ট্রান্সক্রিপশন
ট্রান্সক্রিপশন নির্দেশিকাগুলি কেবলমাত্র শব্দগুলি স্পষ্ট এবং বোধগম্য হলেই সঠিকতা এবং শব্দার্থে প্রতিলিপির উপর জোর দেয়; সমস্যাটির উপর ভিত্তি করে অস্পষ্ট শব্দগুলিকে [অবোধগ্য] বা [শ্রবণাতীত] হিসাবে চিহ্নিত করা হয়েছে। দীর্ঘ অডিওতে বাক্যের সীমানা চিহ্নিত করা হয়েছে , এবং ব্যাকরণগত ত্রুটিগুলির কোন প্যারাফ্রেজিং বা সংশোধন অনুমোদিত নয়। ভারবাটিম ট্রান্সক্রিপশন ত্রুটি, অপবাদ এবং পুনরাবৃত্তি কভার করে কিন্তু মিথ্যা শুরু, ফিলার শব্দ এবং তোতলামি বাদ দেয়। ব্যাকগ্রাউন্ড এবং ফোরগ্রাউন্ড নয়েজগুলি বর্ণনামূলক ট্যাগের সাথে প্রতিলিপি করা হয়, যখন সঠিক নাম, শিরোনাম এবং সংখ্যাগুলি নির্দিষ্ট ট্রান্সক্রিপশন নিয়ম অনুসরণ করে। স্পিকার লেবেল প্রতিটি বাক্যের জন্য ব্যবহার করা হয়, এবং অসম্পূর্ণ বাক্য দ্বারা নির্দেশিত হয়.
প্রকল্পের কর্মপ্রবাহ
ওয়ার্কফ্লো অডিও ট্রান্সক্রিপশন প্রক্রিয়া বর্ণনা করে। এটি অনবোর্ডিং এবং প্রশিক্ষণ অংশগ্রহণকারীদের সাথে শুরু হয়। তারা একটি অ্যাপ ব্যবহার করে অডিও রেকর্ড করে, যা একটি QA প্ল্যাটফর্মে আপলোড করা হয়। এই অডিওর গুণমান পরীক্ষা এবং স্বয়ংক্রিয় বিভাজন হয়। প্রযুক্তি দল তারপর ট্রান্সক্রিপশনের জন্য বিভাগ প্রস্তুত করে। ম্যানুয়াল ট্রান্সক্রিপশনের পরে, একটি গুণমান নিশ্চিত করার পদক্ষেপ রয়েছে৷ ট্রান্সক্রিপশনগুলি ক্লায়েন্টের কাছে বিতরণ করা হয়, এবং যদি গ্রহণ করা হয়, বিতরণ সম্পূর্ণ বলে গণ্য করা হয়। যদি না হয়, ক্লায়েন্ট প্রতিক্রিয়ার উপর ভিত্তি করে সংশোধন করা হয়।
ফলাফল
বিশেষজ্ঞ ভাষাবিদদের থেকে উচ্চ-মানের অডিও ডেটা আমাদের ক্লায়েন্টকে নির্দিষ্ট সময়ে বিভিন্ন ভারতীয় ভাষায় বিভিন্ন উপভাষা সহ বহুভাষিক স্পিচ রিকগনিশন মডেলকে সঠিকভাবে প্রশিক্ষণ দিতে এবং তৈরি করতে সক্ষম করবে। স্পিচ রিকগনিশন মডেলগুলি ব্যবহার করা যেতে পারে:
- নাগরিকদের তাদের নিজস্ব মাতৃভাষায় উদ্যোগের সাথে সংযুক্ত করে ডিজিটাল অন্তর্ভুক্তির জন্য ভাষার বাধা অতিক্রম করুন।
- ডিজিটাল গভর্নেন্স প্রচার করে
- ভারতীয় ভাষায় পরিষেবা এবং পণ্যগুলির জন্য একটি বাস্তুতন্ত্র গঠনের জন্য অনুঘটক৷
- জনস্বার্থের ডোমেনে, বিশেষ করে, শাসন ও নীতিতে আরও স্থানীয় ডিজিটাল সামগ্রী
কথোপকথনমূলক এআই রাজ্যে শাইপের দক্ষতা দেখে আমরা আতঙ্কিত। 8000টি বিভিন্ন জেলা জুড়ে 800 ঘন্টার ট্রান্সক্রিপশন সহ 80 ঘন্টার অডিও ডেটা পরিচালনা করার কাজটি স্মরণীয় ছিল, অন্তত বলতে। এই ডোমেনের জটিল বিবরণ এবং সূক্ষ্মতা সম্পর্কে শাইপের গভীর উপলব্ধি ছিল যা এইরকম একটি চ্যালেঞ্জিং প্রকল্পের সফল বাস্তবায়ন সম্ভব করে তুলেছিল। শীর্ষস্থানীয় গুণমান নিশ্চিত করার সাথে সাথে এই বিপুল পরিমাণ ডেটার জটিলতার মধ্য দিয়ে নির্বিঘ্নে পরিচালনা এবং নেভিগেট করার তাদের ক্ষমতা সত্যিই প্রশংসনীয়।