কেস স্টাডি: কথোপকথনমূলক এআই
3টি ভারতীয় ভাষায় ASR তৈরি করতে 8 হাজার ঘণ্টার বেশি ডেটা সংগ্রহ করা, সেগমেন্ট করা এবং প্রতিলিপি করা হয়েছে
ভাশিনি, ভারতের এআই-চালিত ভাষা অনুবাদ প্ল্যাটফর্ম, ডিজিটাল ইন্ডিয়া উদ্যোগের একটি গুরুত্বপূর্ণ অংশ।
এমএসএমই, স্টার্টআপ এবং স্বাধীন উদ্ভাবকদের কৃত্রিম বুদ্ধিমত্তা (এআই) এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (এনএলপি) সরঞ্জাম সরবরাহ করার জন্য ডিজাইন করা হয়েছে, ভাশিনী প্ল্যাটফর্ম একটি পাবলিক রিসোর্স হিসাবে কাজ করে। এর লক্ষ্য হল ভারতীয় নাগরিকদের তাদের মাতৃভাষায় দেশের ডিজিটাল উদ্যোগের সাথে যোগাযোগ করতে সক্ষম করে ডিজিটাল অন্তর্ভুক্তি প্রচার করা।
উপরন্তু, এটি ভারতীয় ভাষায় ইন্টারনেট সামগ্রীর প্রাপ্যতা উল্লেখযোগ্যভাবে প্রসারিত করার লক্ষ্য রাখে। এটি বিশেষ করে জনস্বার্থের ক্ষেত্রগুলির দিকে লক্ষ্য করা হয়েছে যেমন শাসন এবং নীতি, বিজ্ঞান এবং প্রযুক্তি, ইত্যাদি। ফলস্বরূপ, এটি নাগরিকদের তাদের সক্রিয় অংশগ্রহণের প্রচার করে তাদের নিজস্ব ভাষায় ইন্টারনেট ব্যবহার করতে উত্সাহিত করবে।
ভাষাগত বাধা অতিক্রম করার উদ্দেশ্যে অবদানকারী, অংশীদারী সত্ত্বা এবং নাগরিকদের একটি বৈচিত্র্যময় ইকোসিস্টেম সক্ষম করতে NLP ব্যবহার করুন, যার ফলে ডিজিটাল অন্তর্ভুক্তি এবং ক্ষমতায়ন নিশ্চিত করা
বাস্তব বিশ্ব সমাধান
ডেটা দিয়ে স্থানীয়করণের শক্তি প্রকাশ করা
ভারতের একটি প্ল্যাটফর্মের প্রয়োজন ছিল যা ভারতীয় ভাষায় ডিজিটাল পরিষেবা প্রদানের জন্য বহুভাষিক ডেটাসেট এবং এআই-ভিত্তিক ভাষা প্রযুক্তি সমাধান তৈরিতে মনোনিবেশ করবে। এই উদ্যোগটি চালু করার জন্য, ইন্ডিয়ান ইনস্টিটিউট অফ টেকনোলজি, মাদ্রাজ (আইআইটি মাদ্রাজ) বহুভাষিক বক্তৃতা মডেল তৈরি করতে ভারতীয় ভাষার ডেটাসেট সংগ্রহ, সেগমেন্ট এবং প্রতিলিপি করার জন্য শাইপের সাথে অংশীদারিত্ব করেছে।
চ্যালেঞ্জ
ভারতীয় ভাষার জন্য ক্লায়েন্টকে তাদের স্পিচ টেকনোলজি স্পিচ রোডম্যাপে সহায়তা করার জন্য, টিমকে AI মডেল তৈরির জন্য প্রচুর পরিমাণে প্রশিক্ষণ ডেটা অর্জন, সেগমেন্ট এবং প্রতিলিপি করতে হবে। ক্লায়েন্টের গুরুত্বপূর্ণ প্রয়োজনীয়তা ছিল:
তথ্য সংগ্রহ
- প্রতি ভাষা 3000টি উপভাষা সহ 8টি ভারতীয় ভাষায় 4 ঘন্টা প্রশিক্ষণের ডেটা অর্জন করুন।
- প্রতিটি ভাষার জন্য, সরবরাহকারী Extempore Speech এবং সংগ্রহ করবে
18-60 বছর বয়সীদের থেকে কথোপকথনমূলক বক্তৃতা - বয়স, লিঙ্গ, শিক্ষা এবং উপভাষা অনুসারে বক্তাদের একটি বৈচিত্র্যময় মিশ্রণ নিশ্চিত করুন
- নির্দিষ্টকরণ অনুযায়ী রেকর্ডিং পরিবেশের একটি বৈচিত্র্যময় মিশ্রণ নিশ্চিত করুন।
- প্রতিটি অডিও রেকর্ডিং ন্যূনতম 16kHz হতে হবে তবে 44kHz হতে হবে
ডেটা সেগমেন্টেশন
- 15 সেকেন্ডের বক্তৃতা বিভাগ তৈরি করুন এবং প্রতিটি প্রদত্ত স্পিকারের জন্য অডিওটি মিলিসেকেন্ডে টাইমস্ট্যাম্প করুন, একটি কথোপকথনে শব্দের ধরন (বক্তৃতা, বক্তৃতা, সঙ্গীত, শব্দ), পালা, উচ্চারণ এবং বাক্যাংশ
- শুরু এবং শেষে 200-400 মিলিসেকেন্ড প্যাডিং সহ এর লক্ষ্যযুক্ত শব্দ সংকেতের জন্য প্রতিটি সেগমেন্ট তৈরি করুন।
- সমস্ত বিভাগের জন্য, নিম্নলিখিত অবজেক্টগুলি অবশ্যই পূরণ করতে হবে যেমন, শুরুর সময়, শেষ সময়, সেগমেন্ট আইডি, লাউডনেস লেভেল, সাউন্ড টাইপ, ভাষা কোড, স্পিকার আইডি ইত্যাদি।
ডেটা ট্রান্সক্রিপশন
- অক্ষর এবং বিশেষ চিহ্ন, বানান এবং ব্যাকরণ, ক্যাপিটালাইজেশন, সংক্ষিপ্ত রূপ, সংকোচন, পৃথক কথ্য অক্ষর, সংখ্যা, যতিচিহ্ন, সংক্ষিপ্ত শব্দ, অপ্রত্যাশিত, বক্তৃতা, দুর্বোধ্য বক্তৃতা, অ-লক্ষ্য ভাষা, অ-লক্ষ্য ইত্যাদি সম্পর্কে বিস্তারিত প্রতিলিপি নির্দেশিকা অনুসরণ করুন।
গুণমান পরীক্ষা এবং প্রতিক্রিয়া
- সমস্ত রেকর্ডিং গুণমান মূল্যায়ন এবং বৈধতা সহ্য করতে হবে, শুধুমাত্র বৈধ বক্তৃতা প্রদান করা হবে
সমাধান
কথোপকথনমূলক এআই সম্পর্কে আমাদের গভীর বোঝার সাথে, আমরা ক্লায়েন্টকে 8টি ভারতীয় ভাষায় অডিও ডেটাসেটের বিশাল কর্পাস তৈরি করতে বিশেষজ্ঞ সংগ্রাহক, ভাষাবিদ এবং টীকাকারদের একটি দলের সাথে ডেটা সংগ্রহ, সেগমেন্ট এবং প্রতিলিপি করতে সহায়তা করেছি।
Shaip-এর কাজের সুযোগ অন্তর্ভুক্ত ছিল কিন্তু অডিও প্রশিক্ষণ ডেটার বিশাল পরিমাণ অর্জন, একাধিক অডিও রেকর্ডিংকে ভাগ করা, ডেটা ট্রান্সক্রিব করা এবং মেটাডেটা [স্পিকারআইডি, বয়স, লিঙ্গ, ভাষা, উপভাষা, সহ সংশ্লিষ্ট JSON ফাইলগুলি সরবরাহ করার মধ্যে সীমাবদ্ধ ছিল না।
মাতৃভাষা, যোগ্যতা, পেশা, ডোমেন, ফাইল বিন্যাস, ফ্রিকোয়েন্সি, চ্যানেল, অডিওর ধরন, স্পিকারের সংখ্যা, বিদেশী ভাষার সংখ্যা, সেটআপ ব্যবহৃত, ন্যারোব্যান্ড বা ওয়াইডব্যান্ড অডিও, ইত্যাদি।]
জটিল প্রকল্পগুলির জন্য বক্তৃতা প্রযুক্তির প্রশিক্ষণের জন্য প্রয়োজনীয় গুণমানের পছন্দসই স্তর বজায় রেখে শাইপ স্কেলে 3000 ঘন্টা অডিও ডেটা সংগ্রহ করেছে। প্রতিটি অংশগ্রহণকারীদের কাছ থেকে স্পষ্ট সম্মতি ফর্ম নেওয়া হয়েছিল।
1। তথ্য সংগ্রহ