কেস স্টাডি: স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি

8k অডিও ঘন্টা সংগৃহীত, বহুভাষিক ভয়েস প্রযুক্তির জন্য 800 ঘন্টা প্রতিলিপি করা হয়েছে

কথোপকথন ai

ভূমিকা

ভারতের একটি প্ল্যাটফর্ম দরকার যেটি ভারতীয় ভাষায় ডিজিটাল পরিষেবা প্রদানের জন্য বহুভাষিক ডেটাসেট এবং এআই-ভিত্তিক ভাষা প্রযুক্তি সমাধান তৈরিতে মনোনিবেশ করবে। এই উদ্যোগটি চালু করার জন্য, ক্লায়েন্ট শাইপের সাথে অংশীদারিত্ব করেছে যাতে বহু-ভাষিক বক্তৃতা মডেল তৈরি করতে ভারতীয় ভাষা সংগ্রহ এবং প্রতিলিপি করা হয়।

আয়তন

তথ্য সংগ্রহ করা ঘন্টা
10
টীকা করা পৃষ্ঠার সংখ্যা
10 +
প্রকল্পের সময়কাল
< 1 মাসের

চ্যালেঞ্জ

ভারতীয় ভাষার জন্য ক্লায়েন্টকে তাদের স্পিচ টেকনোলজি স্পিচ রোডম্যাপে সহায়তা করার জন্য, টিমকে AI মডেল তৈরির জন্য প্রচুর পরিমাণে প্রশিক্ষণ ডেটা অর্জন, সেগমেন্ট এবং প্রতিলিপি করতে হবে। ক্লায়েন্টের গুরুত্বপূর্ণ প্রয়োজনীয়তা ছিল:

তথ্য সংগ্রহ

  • ভারতের দূরবর্তী অবস্থান থেকে 8000 ঘন্টার প্রশিক্ষণের ডেটা অর্জন করুন
  • সরবরাহকারী 20-70 বছর বয়সীদের থেকে স্বতঃস্ফূর্ত বক্তৃতা সংগ্রহ করে
  • বয়স, লিঙ্গ, শিক্ষা এবং উপভাষা অনুসারে বক্তাদের একটি বৈচিত্র্যময় মিশ্রণ নিশ্চিত করুন
  • প্রতিটি অডিও রেকর্ডিং 16 বিট/নমুনা সহ কমপক্ষে 16kHz হতে হবে।
তথ্য সংগ্রহ

ডেটা ট্রান্সক্রিপশন

অক্ষর এবং বিশেষ চিহ্ন, বানান এবং ব্যাকরণ, ক্যাপিটালাইজেশন, সংক্ষিপ্ত রূপ, সংকোচন, পৃথক কথ্য বর্ণ, সংখ্যা, যতিচিহ্ন, সংক্ষিপ্ত শব্দ এবং আদ্যক্ষর, অপ্রত্যাশিত বক্তৃতা, দুর্বোধ্য বক্তৃতা, অ-লক্ষ্য-ভাষা, অক্ষর-ল্যাংগুয়েজ এর চারপাশে বিস্তারিত প্রতিলিপি নির্দেশিকা অনুসরণ করুন।

ডেটা ট্রান্সক্রিপশন

গুণমান পরীক্ষা এবং প্রতিক্রিয়া

সমস্ত রেকর্ডিং গুণমান মূল্যায়ন এবং বৈধতা সহ্য করতে হবে, শুধুমাত্র বৈধ বক্তৃতা রেকর্ডিং প্রদান করা হবে

সমাধান

কথোপকথনমূলক এআই সম্পর্কে আমাদের গভীর উপলব্ধির সাথে, আমরা ক্লায়েন্টকে ভারতের প্রত্যন্ত অঞ্চল থেকে অডিও ডেটার বিশাল সংস্থা তৈরি করতে বিশেষজ্ঞ সংগ্রাহক, ভাষাবিদ এবং টীকাকারদের একটি দলের সাথে অডিও ডেটা সংগ্রহ, প্রতিলিপিতে সহায়তা করেছি।

Shaip-এর কাজের সুযোগ অন্তর্ভুক্ত ছিল কিন্তু অডিও প্রশিক্ষণ ডেটার বিশাল পরিমাণ অর্জন, ডেটা ট্রান্সক্রিব করা এবং মেটাডেটা [স্পিকার এবং ট্রান্সক্রাইবার উভয়ের জন্যই সংশ্লিষ্ট JSON ফাইল সরবরাহ করার মধ্যে সীমাবদ্ধ ছিল না। প্রতিটি স্পিকারের জন্য, মেটাডেটাতে একটি বেনামী স্পিকার আইডি, ডিভাইসের বিশদ বিবরণ, লিঙ্গ, বয়স এবং শিক্ষার মতো জনসংখ্যা সংক্রান্ত তথ্য, তাদের পিনকোড, আর্থ-সামাজিক অবস্থা, কথ্য ভাষা এবং তাদের জীবনের সময়কালের রেকর্ড অন্তর্ভুক্ত থাকে। প্রতিটি ট্রান্সক্রাইবারের জন্য, ডেটা একটি বেনামী ট্রান্সক্রাইবার আইডি, স্পিকারদের অনুরূপ জনসংখ্যার বিবরণ, তাদের ট্রান্সক্রিপশন অভিজ্ঞতার সময়কাল এবং তারা পড়তে, লিখতে এবং কথা বলতে পারে এমন ভাষার একটি পুঙ্খানুপুঙ্খ ভাঙ্গন অন্তর্ভুক্ত করে।

শইপ সংগৃহীত 8000 অডিও ডেটা / স্বতঃস্ফূর্ত বক্তৃতা স্কেলে এবং 800 ঘন্টা প্রতিলিপি করা হয়েছে এবং জটিল প্রকল্পগুলির জন্য বক্তৃতা প্রযুক্তির প্রশিক্ষণের জন্য প্রয়োজনীয় গুণমানের পছন্দসই স্তর বজায় রাখা হয়েছে। প্রতিটি অংশগ্রহণকারীদের কাছ থেকে স্পষ্ট সম্মতি ফর্ম নেওয়া হয়েছিল। সংগৃহীত স্বতঃস্ফূর্ত বক্তৃতাটি বিশ্ববিদ্যালয়-প্রদত্ত চিত্রের উপর ভিত্তি করে ছিল। এর 3500 ছবি 1000 জেনেরিক এবং 2500 জেলা-নির্দিষ্ট সংস্কৃতি, উত্সব, ইত্যাদির সাথে সম্পর্কিত৷ চিত্রগুলি বিভিন্ন ডোমেন যেমন ট্রেন স্টেশন, বাজার, আবহাওয়া এবং আরও অনেক কিছুকে চিত্রিত করে৷

তথ্য সংগ্রহ

রাষ্ট্রজেলাঅডিও ঘন্টাপ্রতিলিপির গ্রহণ
(ঘণ্টা)
বিহারসরণ, পূর্ব চম্পারণ, গোপালগঞ্জ, সীতামারহি, সমষ্টিপুর, দরভাঙ্গা, মাধেপুরা, ভাগলপুর, গয়া, কিষাণগঞ্জ, বৈশালী, লক্ষীসরাই, সহরসা, সুপল, আরারিয়া, বেগুসরাই, জাহানাবাদ, পূর্ণিয়া, মুজাফ্ফরপুর, জামুই2000200
উত্তর প্রদেশদেওরিয়া, বারাণসী, গোরখপুর, গাজীপুর, মুজ্জাফরনগর, ইটা, হামিরপুর, জ্যোতিবা ফুলে নগর, বুদাউন, জালাউন1000100
রাজস্থাননাগৌর, চুরু20020
উত্তরাখণ্ডতেহরি গাড়ওয়াল, উত্তরকাশী20020
ছত্তিশগড়বিলাসপুর, রায়গড়, কবিরধাম, সারগুজা, কোরবা, যশপুর, রাজনন্দগাঁও, বলরামপুর, বস্তার, সুকমা1000100
পশ্চিমবঙ্গপশ্চিম মেদিনীপুর, মালদা, জলপাইগুড়ি, পুরুলিয়া, কলকাতা, ঝাড়গ্রাম, উত্তর 24 পরগনা, দক্ষিণ দিনাজপুর80080
ঝাড়খণ্ডসাহেবগঞ্জ, জামতারা20020
APগুন্টুর, চিত্তুর, বিশাখাপত্তনম, কৃষ্ণা, অনন্তপুর, শ্রীকাকুলাম60060
তেলেঙ্গানাকরিমনগর, নালগোন্ডা20020
গোয়াউত্তর+দক্ষিণ গোয়া10010
কর্ণাটকদক্ষিণ কন্নড়, গুলবার্গ, ধারওয়াড়, বেল্লারি, মহীশূর, শিমোগা, বিজাপুর, বেলগাঁও, রাইচুর, চামরাজনগর1000100
মহারাষ্ট্রসিন্ধুদুর্গ, ধুলে, নাগপুর, পুনে, ঔরঙ্গাবাদ, চন্দ্রপুর, সোলাপুর70070
মোট8000800

সাধারণ নির্দেশিকা

বিন্যাস

    • 16 kHz এ অডিও, 16 বিট/নমুনা।
    • একক চ্যানেল.
    • ট্রান্সকোডিং ছাড়াই কাঁচা অডিও।

শৈলী

    • স্বতঃস্ফূর্ত বক্তৃতা।
    • বিশ্ববিদ্যালয়-প্রদত্ত ছবির উপর ভিত্তি করে বাক্য। 3500টি ছবির মধ্যে, 1000টি সাধারণ এবং 2500টি জেলা-নির্দিষ্ট সংস্কৃতি, উত্সব ইত্যাদির সাথে সম্পর্কিত৷ চিত্রগুলি বিভিন্ন ডোমেন যেমন ট্রেন স্টেশন, বাজার, আবহাওয়া এবং আরও অনেক কিছুকে চিত্রিত করে৷

রেকর্ডিং ব্যাকগ্রাউন্ড

    • একটি শান্ত, প্রতিধ্বনি-মুক্ত পরিবেশে রেকর্ড করা হয়েছে।
    • রেকর্ডিংয়ের সময় স্মার্টফোনের কোনো ব্যাঘাত (কম্পন বা বিজ্ঞপ্তি) নেই।
    • ক্লিপিং বা দূর-ক্ষেত্রের প্রভাবের মতো কোনও বিকৃতি নেই।
    • ফোন থেকে কম্পন অগ্রহণযোগ্য; অডিও পরিষ্কার হলে বাহ্যিক কম্পন সহনীয়।

স্পিকার স্পেসিফিকেশন

    • প্রতি জেলায় সুষম লিঙ্গ বন্টন সহ বয়স 20-70 বছর।
    • প্রতিটি জেলায় ন্যূনতম 400 জন স্থানীয় ভাষাভাষী।
    • বক্তাদের উচিত তাদের বাড়ির ভাষা/উপভাষা ব্যবহার করা।
    • সমস্ত অংশগ্রহণকারীদের জন্য সম্মতি বাধ্যতামূলক।


কোয়ালিটি চেক এবং ক্রিটিক্যাল কোয়ালিটি অ্যাসুরেন্স

QA প্রক্রিয়াটি অডিও রেকর্ডিং এবং ট্রান্সক্রিপশনের জন্য গুণমানের নিশ্চয়তাকে অগ্রাধিকার দেয়। অডিও মান সুনির্দিষ্ট নীরবতা, সেগমেন্টের সময়কাল, একক-স্পীকার স্পষ্টতা, এবং বয়স এবং আর্থ-সামাজিক অবস্থা সহ বিস্তারিত মেটাডেটার উপর ফোকাস করে। ট্রান্সক্রিপশনের মানদণ্ড ট্যাগ নির্ভুলতা, শব্দের সত্যতা এবং সঠিক সেগমেন্ট বিশদকে জোর দেয়। গ্রহণযোগ্যতা বেঞ্চমার্ক নির্দেশ করে যে যদি একটি অডিও ব্যাচের 20% এর বেশি এই মানগুলি ব্যর্থ করে তবে এটি প্রত্যাখ্যান করা হবে। 20% এর কম অসঙ্গতির জন্য, অনুরূপ প্রোফাইলের সাথে প্রতিস্থাপন রেকর্ডিং প্রয়োজন।

ডেটা ট্রান্সক্রিপশন

ট্রান্সক্রিপশন নির্দেশিকাগুলি কেবলমাত্র শব্দগুলি স্পষ্ট এবং বোধগম্য হলেই সঠিকতা এবং শব্দার্থে প্রতিলিপির উপর জোর দেয়; সমস্যাটির উপর ভিত্তি করে অস্পষ্ট শব্দগুলিকে [অবোধগ্য] বা [শ্রবণাতীত] হিসাবে চিহ্নিত করা হয়েছে। দীর্ঘ অডিওতে বাক্যের সীমানা চিহ্নিত করা হয়েছে , এবং ব্যাকরণগত ত্রুটিগুলির কোন প্যারাফ্রেজিং বা সংশোধন অনুমোদিত নয়। ভারবাটিম ট্রান্সক্রিপশন ত্রুটি, অপবাদ এবং পুনরাবৃত্তি কভার করে কিন্তু মিথ্যা শুরু, ফিলার শব্দ এবং তোতলামি বাদ দেয়। ব্যাকগ্রাউন্ড এবং ফোরগ্রাউন্ড নয়েজগুলি বর্ণনামূলক ট্যাগের সাথে প্রতিলিপি করা হয়, যখন সঠিক নাম, শিরোনাম এবং সংখ্যাগুলি নির্দিষ্ট ট্রান্সক্রিপশন নিয়ম অনুসরণ করে। স্পিকার লেবেল প্রতিটি বাক্যের জন্য ব্যবহার করা হয়, এবং অসম্পূর্ণ বাক্য দ্বারা নির্দেশিত হয়.

প্রকল্পের কর্মপ্রবাহ

ওয়ার্কফ্লো অডিও ট্রান্সক্রিপশন প্রক্রিয়া বর্ণনা করে। এটি অনবোর্ডিং এবং প্রশিক্ষণ অংশগ্রহণকারীদের সাথে শুরু হয়। তারা একটি অ্যাপ ব্যবহার করে অডিও রেকর্ড করে, যা একটি QA প্ল্যাটফর্মে আপলোড করা হয়। এই অডিওর গুণমান পরীক্ষা এবং স্বয়ংক্রিয় বিভাজন হয়। প্রযুক্তি দল তারপর ট্রান্সক্রিপশনের জন্য বিভাগ প্রস্তুত করে। ম্যানুয়াল ট্রান্সক্রিপশনের পরে, একটি গুণমান নিশ্চিত করার পদক্ষেপ রয়েছে৷ ট্রান্সক্রিপশনগুলি ক্লায়েন্টের কাছে বিতরণ করা হয়, এবং যদি গ্রহণ করা হয়, বিতরণ সম্পূর্ণ বলে গণ্য করা হয়। যদি না হয়, ক্লায়েন্ট প্রতিক্রিয়ার উপর ভিত্তি করে সংশোধন করা হয়।

ফলাফল

বিশেষজ্ঞ ভাষাবিদদের থেকে উচ্চ-মানের অডিও ডেটা আমাদের ক্লায়েন্টকে নির্দিষ্ট সময়ে বিভিন্ন ভারতীয় ভাষায় বিভিন্ন উপভাষা সহ বহুভাষিক স্পিচ রিকগনিশন মডেলকে সঠিকভাবে প্রশিক্ষণ দিতে এবং তৈরি করতে সক্ষম করবে। স্পিচ রিকগনিশন মডেলগুলি ব্যবহার করা যেতে পারে:

  • নাগরিকদের তাদের নিজস্ব মাতৃভাষায় উদ্যোগের সাথে সংযুক্ত করে ডিজিটাল অন্তর্ভুক্তির জন্য ভাষার বাধা অতিক্রম করুন।
  • ডিজিটাল গভর্নেন্স প্রচার করে
  • ভারতীয় ভাষায় পরিষেবা এবং পণ্যগুলির জন্য একটি বাস্তুতন্ত্র গঠনের জন্য অনুঘটক৷
  • জনস্বার্থের ডোমেনে, বিশেষ করে, শাসন ও নীতিতে আরও স্থানীয় ডিজিটাল সামগ্রী

কথোপকথনমূলক এআই রাজ্যে শাইপের দক্ষতা দেখে আমরা আতঙ্কিত। 8000টি বিভিন্ন জেলা জুড়ে 800 ঘন্টার ট্রান্সক্রিপশন সহ 80 ঘন্টার অডিও ডেটা পরিচালনা করার কাজটি স্মরণীয় ছিল, অন্তত বলতে। এই ডোমেনের জটিল বিবরণ এবং সূক্ষ্মতা সম্পর্কে শাইপের গভীর উপলব্ধি ছিল যা এইরকম একটি চ্যালেঞ্জিং প্রকল্পের সফল বাস্তবায়ন সম্ভব করে তুলেছিল। শীর্ষস্থানীয় গুণমান নিশ্চিত করার সাথে সাথে এই বিপুল পরিমাণ ডেটার জটিলতার মধ্য দিয়ে নির্বিঘ্নে পরিচালনা এবং নেভিগেট করার তাদের ক্ষমতা সত্যিই প্রশংসনীয়।

গোল্ডেন-৫-স্টার

আপনার কথোপকথনমূলক এআই ত্বরান্বিত করুন
100% দ্বারা অ্যাপ্লিকেশন উন্নয়ন