কথোপকথনমূলক এআই: স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি

8k অডিও ঘন্টা সংগৃহীত, বহুভাষিক ভয়েস প্রযুক্তির জন্য 800 ঘন্টা প্রতিলিপি করা হয়েছে

ভূমিকা

ভারতের একটি প্ল্যাটফর্ম দরকার যেটি ভারতীয় ভাষায় ডিজিটাল পরিষেবা প্রদানের জন্য বহুভাষিক ডেটাসেট এবং এআই-ভিত্তিক ভাষা প্রযুক্তি সমাধান তৈরিতে মনোনিবেশ করবে। এই উদ্যোগটি চালু করার জন্য, ক্লায়েন্ট শাইপের সাথে অংশীদারিত্ব করেছে যাতে বহু-ভাষিক বক্তৃতা মডেল তৈরি করতে ভারতীয় ভাষা সংগ্রহ এবং প্রতিলিপি করা হয়।

আয়তন

তথ্য সংগ্রহ করা ঘন্টা

টীকা করা পৃষ্ঠার সংখ্যা

10 +

প্রকল্পের সময়কাল

< 1 মাসের

চ্যালেঞ্জ

ভারতীয় ভাষার জন্য ক্লায়েন্টকে তাদের স্পিচ টেকনোলজি স্পিচ রোডম্যাপে সহায়তা করার জন্য, টিমকে AI মডেল তৈরির জন্য প্রচুর পরিমাণে প্রশিক্ষণ ডেটা অর্জন, সেগমেন্ট এবং প্রতিলিপি করতে হবে। ক্লায়েন্টের গুরুত্বপূর্ণ প্রয়োজনীয়তা ছিল:

তথ্য সংগ্রহ

ভারতের দূরবর্তী অবস্থান থেকে 8000 ঘন্টার প্রশিক্ষণের ডেটা অর্জন করুন
সরবরাহকারী 20-70 বছর বয়সীদের থেকে স্বতঃস্ফূর্ত বক্তৃতা সংগ্রহ করে
বয়স, লিঙ্গ, শিক্ষা এবং উপভাষা অনুসারে বক্তাদের একটি বৈচিত্র্যময় মিশ্রণ নিশ্চিত করুন
প্রতিটি অডিও রেকর্ডিং 16 বিট/নমুনা সহ কমপক্ষে 16kHz হতে হবে।

ডেটা ট্রান্সক্রিপশন

অক্ষর এবং বিশেষ চিহ্ন, বানান এবং ব্যাকরণ, ক্যাপিটালাইজেশন, সংক্ষিপ্ত রূপ, সংকোচন, পৃথক কথ্য বর্ণ, সংখ্যা, যতিচিহ্ন, সংক্ষিপ্ত শব্দ এবং আদ্যক্ষর, অপ্রত্যাশিত বক্তৃতা, দুর্বোধ্য বক্তৃতা, অ-লক্ষ্য-ভাষা, অক্ষর-ল্যাংগুয়েজ এর চারপাশে বিস্তারিত প্রতিলিপি নির্দেশিকা অনুসরণ করুন।

গুণমান পরীক্ষা এবং প্রতিক্রিয়া

সমস্ত রেকর্ডিং গুণমান মূল্যায়ন এবং বৈধতা সহ্য করতে হবে, শুধুমাত্র বৈধ বক্তৃতা রেকর্ডিং প্রদান করা হবে

সমাধান

কথোপকথনমূলক এআই সম্পর্কে আমাদের গভীর উপলব্ধির সাথে, আমরা ক্লায়েন্টকে ভারতের প্রত্যন্ত অঞ্চল থেকে অডিও ডেটার বিশাল সংস্থা তৈরি করতে বিশেষজ্ঞ সংগ্রাহক, ভাষাবিদ এবং টীকাকারদের একটি দলের সাথে অডিও ডেটা সংগ্রহ, প্রতিলিপিতে সহায়তা করেছি।

Shaip-এর কাজের সুযোগ অন্তর্ভুক্ত ছিল কিন্তু অডিও প্রশিক্ষণ ডেটার বিশাল পরিমাণ অর্জন, ডেটা ট্রান্সক্রিব করা এবং মেটাডেটা [স্পিকার এবং ট্রান্সক্রাইবার উভয়ের জন্যই সংশ্লিষ্ট JSON ফাইল সরবরাহ করার মধ্যে সীমাবদ্ধ ছিল না। প্রতিটি স্পিকারের জন্য, মেটাডেটাতে একটি বেনামী স্পিকার আইডি, ডিভাইসের বিশদ বিবরণ, লিঙ্গ, বয়স এবং শিক্ষার মতো জনসংখ্যা সংক্রান্ত তথ্য, তাদের পিনকোড, আর্থ-সামাজিক অবস্থা, কথ্য ভাষা এবং তাদের জীবনের সময়কালের রেকর্ড অন্তর্ভুক্ত থাকে। প্রতিটি ট্রান্সক্রাইবারের জন্য, ডেটা একটি বেনামী ট্রান্সক্রাইবার আইডি, স্পিকারদের অনুরূপ জনসংখ্যার বিবরণ, তাদের ট্রান্সক্রিপশন অভিজ্ঞতার সময়কাল এবং তারা পড়তে, লিখতে এবং কথা বলতে পারে এমন ভাষার একটি পুঙ্খানুপুঙ্খ ভাঙ্গন অন্তর্ভুক্ত করে।

শইপ সংগৃহীত 8000 অডিও ডেটা / স্বতঃস্ফূর্ত বক্তৃতা স্কেলে এবং 800 ঘন্টা প্রতিলিপি করা হয়েছে এবং জটিল প্রকল্পগুলির জন্য বক্তৃতা প্রযুক্তির প্রশিক্ষণের জন্য প্রয়োজনীয় গুণমানের পছন্দসই স্তর বজায় রাখা হয়েছে। প্রতিটি অংশগ্রহণকারীদের কাছ থেকে স্পষ্ট সম্মতি ফর্ম নেওয়া হয়েছিল। সংগৃহীত স্বতঃস্ফূর্ত বক্তৃতাটি বিশ্ববিদ্যালয়-প্রদত্ত চিত্রের উপর ভিত্তি করে ছিল। এর 3500 ছবি 1000 জেনেরিক এবং 2500 জেলা-নির্দিষ্ট সংস্কৃতি, উত্সব, ইত্যাদির সাথে সম্পর্কিত৷ চিত্রগুলি বিভিন্ন ডোমেন যেমন ট্রেন স্টেশন, বাজার, আবহাওয়া এবং আরও অনেক কিছুকে চিত্রিত করে৷

তথ্য সংগ্রহ

রাষ্ট্র	জেলা	অডিও ঘন্টা	প্রতিলিপির গ্রহণ (ঘণ্টা)
বিহার	সরণ, পূর্ব চম্পারণ, গোপালগঞ্জ, সীতামারহি, সমষ্টিপুর, দরভাঙ্গা, মাধেপুরা, ভাগলপুর, গয়া, কিষাণগঞ্জ, বৈশালী, লক্ষীসরাই, সহরসা, সুপল, আরারিয়া, বেগুসরাই, জাহানাবাদ, পূর্ণিয়া, মুজাফ্ফরপুর, জামুই	2000	200
উত্তর প্রদেশ	দেওরিয়া, বারাণসী, গোরখপুর, গাজীপুর, মুজ্জাফরনগর, ইটা, হামিরপুর, জ্যোতিবা ফুলে নগর, বুদাউন, জালাউন	1000	100
রাজস্থান	নাগৌর, চুরু	200	20
উত্তরাখণ্ড	তেহরি গাড়ওয়াল, উত্তরকাশী	200	20
ছত্তিশগড়	বিলাসপুর, রায়গড়, কবিরধাম, সারগুজা, কোরবা, যশপুর, রাজনন্দগাঁও, বলরামপুর, বস্তার, সুকমা	1000	100
পশ্চিমবঙ্গ	পশ্চিম মেদিনীপুর, মালদা, জলপাইগুড়ি, পুরুলিয়া, কলকাতা, ঝাড়গ্রাম, উত্তর 24 পরগনা, দক্ষিণ দিনাজপুর	800	80
ঝাড়খণ্ড	সাহেবগঞ্জ, জামতারা	200	20
AP	গুন্টুর, চিত্তুর, বিশাখাপত্তনম, কৃষ্ণা, অনন্তপুর, শ্রীকাকুলাম	600	60
তেলেঙ্গানা	করিমনগর, নালগোন্ডা	200	20
গোয়া	উত্তর+দক্ষিণ গোয়া	100	10
কর্ণাটক	দক্ষিণ কন্নড়, গুলবার্গ, ধারওয়াড়, বেল্লারি, মহীশূর, শিমোগা, বিজাপুর, বেলগাঁও, রাইচুর, চামরাজনগর	1000	100
মহারাষ্ট্র	সিন্ধুদুর্গ, ধুলে, নাগপুর, পুনে, ঔরঙ্গাবাদ, চন্দ্রপুর, সোলাপুর	700	70
মোট		8000	800

সাধারণ নির্দেশিকা

বিন্যাস

- 16 kHz এ অডিও, 16 বিট/নমুনা।
- একক চ্যানেল.
- ট্রান্সকোডিং ছাড়াই কাঁচা অডিও।

শৈলী

- স্বতঃস্ফূর্ত বক্তৃতা।
- বিশ্ববিদ্যালয়-প্রদত্ত ছবির উপর ভিত্তি করে বাক্য। 3500টি ছবির মধ্যে, 1000টি সাধারণ এবং 2500টি জেলা-নির্দিষ্ট সংস্কৃতি, উত্সব ইত্যাদির সাথে সম্পর্কিত৷ চিত্রগুলি বিভিন্ন ডোমেন যেমন ট্রেন স্টেশন, বাজার, আবহাওয়া এবং আরও অনেক কিছুকে চিত্রিত করে৷

রেকর্ডিং ব্যাকগ্রাউন্ড

- একটি শান্ত, প্রতিধ্বনি-মুক্ত পরিবেশে রেকর্ড করা হয়েছে।
- রেকর্ডিংয়ের সময় স্মার্টফোনের কোনো ব্যাঘাত (কম্পন বা বিজ্ঞপ্তি) নেই।
- ক্লিপিং বা দূর-ক্ষেত্রের প্রভাবের মতো কোনও বিকৃতি নেই।
- ফোন থেকে কম্পন অগ্রহণযোগ্য; অডিও পরিষ্কার হলে বাহ্যিক কম্পন সহনীয়।

স্পিকার স্পেসিফিকেশন

- প্রতি জেলায় সুষম লিঙ্গ বন্টন সহ বয়স 20-70 বছর।
- প্রতিটি জেলায় ন্যূনতম 400 জন স্থানীয় ভাষাভাষী।
- বক্তাদের উচিত তাদের বাড়ির ভাষা/উপভাষা ব্যবহার করা।
- সমস্ত অংশগ্রহণকারীদের জন্য সম্মতি বাধ্যতামূলক।

কোয়ালিটি চেক এবং ক্রিটিক্যাল কোয়ালিটি অ্যাসুরেন্স

QA প্রক্রিয়াটি অডিও রেকর্ডিং এবং ট্রান্সক্রিপশনের জন্য গুণমানের নিশ্চয়তাকে অগ্রাধিকার দেয়। অডিও মান সুনির্দিষ্ট নীরবতা, সেগমেন্টের সময়কাল, একক-স্পীকার স্পষ্টতা, এবং বয়স এবং আর্থ-সামাজিক অবস্থা সহ বিস্তারিত মেটাডেটার উপর ফোকাস করে। ট্রান্সক্রিপশনের মানদণ্ড ট্যাগ নির্ভুলতা, শব্দের সত্যতা এবং সঠিক সেগমেন্ট বিশদকে জোর দেয়। গ্রহণযোগ্যতা বেঞ্চমার্ক নির্দেশ করে যে যদি একটি অডিও ব্যাচের 20% এর বেশি এই মানগুলি ব্যর্থ করে তবে এটি প্রত্যাখ্যান করা হবে। 20% এর কম অসঙ্গতির জন্য, অনুরূপ প্রোফাইলের সাথে প্রতিস্থাপন রেকর্ডিং প্রয়োজন।

ডেটা ট্রান্সক্রিপশন

ট্রান্সক্রিপশন নির্দেশিকাগুলি কেবলমাত্র শব্দগুলি স্পষ্ট এবং বোধগম্য হলেই সঠিকতা এবং শব্দার্থে প্রতিলিপির উপর জোর দেয়; সমস্যাটির উপর ভিত্তি করে অস্পষ্ট শব্দগুলিকে [অবোধগ্য] বা [শ্রবণাতীত] হিসাবে চিহ্নিত করা হয়েছে। দীর্ঘ অডিওতে বাক্যের সীমানা চিহ্নিত করা হয়েছে , এবং ব্যাকরণগত ত্রুটিগুলির কোন প্যারাফ্রেজিং বা সংশোধন অনুমোদিত নয়। ভারবাটিম ট্রান্সক্রিপশন ত্রুটি, অপবাদ এবং পুনরাবৃত্তি কভার করে কিন্তু মিথ্যা শুরু, ফিলার শব্দ এবং তোতলামি বাদ দেয়। ব্যাকগ্রাউন্ড এবং ফোরগ্রাউন্ড নয়েজগুলি বর্ণনামূলক ট্যাগের সাথে প্রতিলিপি করা হয়, যখন সঠিক নাম, শিরোনাম এবং সংখ্যাগুলি নির্দিষ্ট ট্রান্সক্রিপশন নিয়ম অনুসরণ করে। স্পিকার লেবেল প্রতিটি বাক্যের জন্য ব্যবহার করা হয়, এবং অসম্পূর্ণ বাক্য দ্বারা নির্দেশিত হয়.

প্রকল্পের কর্মপ্রবাহ

ওয়ার্কফ্লো অডিও ট্রান্সক্রিপশন প্রক্রিয়া বর্ণনা করে। এটি অনবোর্ডিং এবং প্রশিক্ষণ অংশগ্রহণকারীদের সাথে শুরু হয়। তারা একটি অ্যাপ ব্যবহার করে অডিও রেকর্ড করে, যা একটি QA প্ল্যাটফর্মে আপলোড করা হয়। এই অডিওর গুণমান পরীক্ষা এবং স্বয়ংক্রিয় বিভাজন হয়। প্রযুক্তি দল তারপর ট্রান্সক্রিপশনের জন্য বিভাগ প্রস্তুত করে। ম্যানুয়াল ট্রান্সক্রিপশনের পরে, একটি গুণমান নিশ্চিত করার পদক্ষেপ রয়েছে৷ ট্রান্সক্রিপশনগুলি ক্লায়েন্টের কাছে বিতরণ করা হয়, এবং যদি গ্রহণ করা হয়, বিতরণ সম্পূর্ণ বলে গণ্য করা হয়। যদি না হয়, ক্লায়েন্ট প্রতিক্রিয়ার উপর ভিত্তি করে সংশোধন করা হয়।

ফলাফল

বিশেষজ্ঞ ভাষাবিদদের থেকে উচ্চ-মানের অডিও ডেটা আমাদের ক্লায়েন্টকে নির্দিষ্ট সময়ে বিভিন্ন ভারতীয় ভাষায় বিভিন্ন উপভাষা সহ বহুভাষিক স্পিচ রিকগনিশন মডেলকে সঠিকভাবে প্রশিক্ষণ দিতে এবং তৈরি করতে সক্ষম করবে। স্পিচ রিকগনিশন মডেলগুলি ব্যবহার করা যেতে পারে:

নাগরিকদের তাদের নিজস্ব মাতৃভাষায় উদ্যোগের সাথে সংযুক্ত করে ডিজিটাল অন্তর্ভুক্তির জন্য ভাষার বাধা অতিক্রম করুন।
ডিজিটাল গভর্নেন্স প্রচার করে
ভারতীয় ভাষায় পরিষেবা এবং পণ্যগুলির জন্য একটি বাস্তুতন্ত্র গঠনের জন্য অনুঘটক৷
জনস্বার্থের ডোমেনে, বিশেষ করে, শাসন ও নীতিতে আরও স্থানীয় ডিজিটাল সামগ্রী

কথোপকথনমূলক এআই রাজ্যে শাইপের দক্ষতা দেখে আমরা আতঙ্কিত। 8000টি বিভিন্ন জেলা জুড়ে 800 ঘন্টার ট্রান্সক্রিপশন সহ 80 ঘন্টার অডিও ডেটা পরিচালনা করার কাজটি স্মরণীয় ছিল, অন্তত বলতে। এই ডোমেনের জটিল বিবরণ এবং সূক্ষ্মতা সম্পর্কে শাইপের গভীর উপলব্ধি ছিল যা এইরকম একটি চ্যালেঞ্জিং প্রকল্পের সফল বাস্তবায়ন সম্ভব করে তুলেছিল। শীর্ষস্থানীয় গুণমান নিশ্চিত করার সাথে সাথে এই বিপুল পরিমাণ ডেটার জটিলতার মধ্য দিয়ে নির্বিঘ্নে পরিচালনা এবং নেভিগেট করার তাদের ক্ষমতা সত্যিই প্রশংসনীয়।

আপনার কথোপকথনমূলক এআই ত্বরান্বিত করুন
100% দ্বারা অ্যাপ্লিকেশন উন্নয়ন

কথোপকথনমূলক এআই: স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি

8k অডিও ঘন্টা সংগৃহীত, বহুভাষিক ভয়েস প্রযুক্তির জন্য 800 ঘন্টা প্রতিলিপি করা হয়েছে

ভূমিকা

আয়তন

চ্যালেঞ্জ

তথ্য সংগ্রহ

ডেটা ট্রান্সক্রিপশন

গুণমান পরীক্ষা এবং প্রতিক্রিয়া

সমাধান

সাধারণ নির্দেশিকা

কোয়ালিটি চেক এবং ক্রিটিক্যাল কোয়ালিটি অ্যাসুরেন্স

ডেটা ট্রান্সক্রিপশন

প্রকল্পের কর্মপ্রবাহ

ফলাফল

এআই ডেটা সার্ভিস

বিশিষ্টতা

শিল্প

পণ্য

কোম্পানির

Resources

যোগাযোগ করুন

আমাদের আপনার সম্পর্কে আরও জানতে দিন!