স্পিচ রিকগনিশন ডেটাসেট

আপনার এআই মডেলের জন্য সঠিক স্পিচ রিকগনিশন ডেটাসেট নির্বাচন করা

কল্পনা করুন একজন ভয়েস সহকারীকে একটি দীর্ঘ মিটিং সারসংক্ষেপ করতে, স্প্যানিশ ভাষায় অনুবাদ করতে এবং আপনার CRM-এ অ্যাকশন আইটেমগুলি ঢোকাতে বলুন—সবই একটি একক ভয়েস নোট থেকে.

সেই "জাদুর" পিছনে কেবল হুইস্পারের মতো শক্তিশালী মডেল বা জেমিনি বা চ্যাটজিপিটির মতো এলএলএম নয়। এটি স্পিচ রিকগনিশন ডেটাসেট মডেলগুলিকে প্রশিক্ষণ এবং সূক্ষ্ম-সুরকরণের জন্য ব্যবহৃত হত।

২০২৫ সালে, বক্তৃতা এবং কণ্ঠস্বর স্বীকৃতি একটি বহু-বিলিয়ন ডলারের বাজার, যা ছাড়িয়ে যাওয়ার সম্ভাবনা রয়েছে 80 সালের মধ্যে $2032B.

যদি আপনার AI পণ্যটি কথ্য ইনপুটের উপর নির্ভর করে—সেটি যোগাযোগ কেন্দ্রের কল, ডিকটেশন, অথবা ভয়েস অনুসন্ধান যাই হোক না কেন— গুণমান, বৈচিত্র্য এবং বৈধতা আপনার স্পিচ ডেটাসেটের পরিমাণ নির্ধারণ করবে যে আপনার এআই কতটা ভালোভাবে "শোনে"।

এই নিবন্ধে, আমরা বিভিন্ন স্পিচ রিকগনিশন ডেটাসেট সম্পর্কে কথা বলব। আপনার AI মডেলের জন্য সেরা ডেটাসেটগুলি বেছে নিতে আপনাকে সাহায্য করার জন্য আমরা তাদের প্রকারগুলি অন্বেষণ করব৷

কিন্তু প্রথমে, আসুন কিছু বেসিক মধ্যে পেতে.

একটি বক্তৃতা স্বীকৃতি ডেটাসেট কি?

স্পিচ রিকগনিশন ডেটাসেটএকটি স্পিচ রিকগনিশন ডেটাসেট হল অডিও ফাইল এবং তাদের সঠিক ট্রান্সক্রিপশনের একটি সংগ্রহ। এটি মানুষের বক্তৃতা বুঝতে এবং তৈরি করতে AI মডেলগুলিকে প্রশিক্ষণ দেয়। এই ডেটাসেটে বিভিন্ন শব্দ, উচ্চারণ, উপভাষা এবং স্বর অন্তর্ভুক্ত রয়েছে। এটি প্রতিফলিত করে যে বিভিন্ন অঞ্চলের লোকেরা কীভাবে আলাদাভাবে কথা বলে।

উদাহরণস্বরূপ, টেক্সাসের একজন ব্যক্তি লন্ডনের কারও থেকে আলাদা শোনাচ্ছে, এমনকি তারা একই বাক্যাংশ বললেও। একটি ভাল ডেটাসেট এই বৈচিত্র্যকে ক্যাপচার করে। এটি AI কে মানুষের বক্তৃতার সূক্ষ্মতা শুনতে এবং বুঝতে সাহায্য করে।

এই ডেটাসেটটি এআই মডেল তৈরিতে গুরুত্বপূর্ণ ভূমিকা পালন করে। এটি ভাষা বোধগম্যতা এবং উত্পাদন শিখতে AI-এর জন্য প্রয়োজনীয় ডেটা সরবরাহ করে। একটি সমৃদ্ধ এবং বৈচিত্র্যময় ডেটাসেটের সাথে, একটি AI মডেল মানুষের ভাষা বুঝতে এবং তার সাথে মিথস্ক্রিয়া করতে আরও সক্ষম হয়ে ওঠে। অতএব, একটি স্পিচ রিকগনিশন ডেটাসেট আপনাকে বুদ্ধিমান, প্রতিক্রিয়াশীল এবং সঠিক ভয়েস এআই মডেল তৈরি করতে সাহায্য করতে পারে।

কেন আপনি গুণমান বক্তৃতা স্বীকৃতি ডেটাসেট প্রয়োজন?

সঠিক বক্তৃতা স্বীকৃতি

উচ্চ-মানের ডেটাসেট সঠিক বক্তৃতা শনাক্তকরণের জন্য অত্যন্ত গুরুত্বপূর্ণ। তারা স্পষ্ট এবং বিভিন্ন বক্তৃতা নমুনা আছে. এটি এআই মডেলগুলিকে বিভিন্ন শব্দ, উচ্চারণ এবং বক্তৃতার ধরণগুলি সঠিকভাবে চিনতে শিখতে সাহায্য করে।

এআই মডেল পারফরমেন্স উন্নত করে

গুণমানের ডেটাসেটগুলি আরও ভাল AI কার্যক্ষমতার দিকে নিয়ে যায়। তারা বিভিন্ন এবং বাস্তবসম্মত বক্তৃতা পরিস্থিতি প্রদান করে। এটি এআইকে বিভিন্ন পরিবেশ এবং প্রসঙ্গে বক্তৃতা বোঝার জন্য প্রস্তুত করে।

ত্রুটি এবং ভুল ব্যাখ্যা হ্রাস

একটি গুণমান ডেটাসেট ত্রুটির সম্ভাবনা কমিয়ে দেয়। এটি নিশ্চিত করে যে AI দুর্বল অডিও গুণমান বা সীমিত ডেটা বৈচিত্রের কারণে শব্দের ভুল ব্যাখ্যা করে না।

ব্যবহারকারীর অভিজ্ঞতা বাড়ায়

ভাল ডেটাসেটগুলি সামগ্রিক ব্যবহারকারীর অভিজ্ঞতা উন্নত করে। তারা AI মডেলগুলিকে ব্যবহারকারীদের সাথে আরও স্বাভাবিকভাবে এবং কার্যকরভাবে যোগাযোগ করতে সক্ষম করে, যা আরও বেশি সন্তুষ্টি এবং বিশ্বাসের দিকে নিয়ে যায়।

ভাষা এবং উপভাষা অন্তর্ভুক্তি সহজতর

মানসম্পন্ন ডেটাসেটে বিস্তৃত ভাষা এবং উপভাষা অন্তর্ভুক্ত থাকে। এটি অন্তর্ভুক্তি প্রচার করে এবং AI মডেলগুলিকে একটি বিস্তৃত ব্যবহারকারী বেস পরিবেশন করার অনুমতি দেয়।

[এছাড়াও পড়ুন: স্পিচ রিকগনিশন ট্রেনিং ডেটা - প্রকার, ডেটা সংগ্রহ এবং অ্যাপ্লিকেশন]

স্পিচ রিকগনিশন ডেটাসেটের প্রকারভেদ (এবং কখন প্রতিটি ব্যবহার করতে হবে)

বক্তৃতা তথ্য এক আকারে সকলের জন্য প্রযোজ্য নয়। এখানে প্রধান প্রকারগুলি দেওয়া হল, যার মধ্যে শাইপ প্রায়শই যেগুলি সরবরাহ করে তাও অন্তর্ভুক্ত।

স্ক্রিপ্টেড স্পিচ ডেটাসেট

বক্তারা প্রস্তুত প্রম্পট থেকে পাঠ করেন।

  • স্ক্রিপ্টেড মনোলোগ ডেটাসেট
    • দীর্ঘ, সুস্পষ্ট বক্তৃতা (যেমন, বর্ণনা, IVR প্রম্পট, ভয়েস সহকারী)।
    • স্পষ্ট, পরিষ্কার বক্তৃতা এবং ধ্বনি, সংখ্যা এবং সত্তার সম্পূর্ণ কভারেজ সহ বুটস্ট্র্যাপিং মডেলগুলির জন্য দুর্দান্ত।
  • দৃশ্যকল্প-ভিত্তিক স্ক্রিপ্টেড ডেটাসেট
    • সংলাপ যা নির্দিষ্ট পরিস্থিতির অনুকরণ করে (হোটেল বুকিং, প্রযুক্তিগত সহায়তা, বীমা দাবি)।
    • উল্লম্ব সহকারীদের জন্য আদর্শ যাদের অবশ্যই পূর্বাভাসযোগ্য কার্যপ্রবাহ অনুসরণ করতে হবে (ব্যাংকিং বট, ট্রাভেল এজেন্ট, ইত্যাদি)।

ব্যবহার করুন যখন: নিয়ন্ত্রিত পরিস্থিতিতে আপনার পরিষ্কার উচ্চারণ এবং ডোমেন-নির্দিষ্ট শব্দভান্ডারের কভারেজ প্রয়োজন।

স্বতঃস্ফূর্ত কথোপকথন ডেটাসেট

অলিখিত, মুক্ত আলোচনা।

  • সাধারণ কথোপকথনের ডেটাসেট
    • বন্ধু, সহকর্মী, অথবা অপরিচিতদের মধ্যে প্রতিদিনের আলোচনা।
    • দ্বিধা, ওভারল্যাপ, কোড-সুইচিং এবং কথ্য অভিব্যক্তি ধারণ করুন।
  • কল সেন্টার এবং যোগাযোগ কেন্দ্রের ডেটাসেট
    • ডোমেন-নির্দিষ্ট শব্দভাণ্ডার, উচ্চারণ এবং চাপের ধরণগুলির সাথে প্রকৃত গ্রাহক-এজেন্ট মিথস্ক্রিয়া।
    • যোগাযোগ কেন্দ্র বিশ্লেষণ, QA, এজেন্ট সহায়তা এবং স্বয়ংক্রিয় কল সারসংক্ষেপের জন্য অত্যন্ত গুরুত্বপূর্ণ।

ব্যবহার করুন যখন: তুমি কথোপকথনমূলক AI, চ্যাটবট, সাপোর্ট অটোমেশন, অথবা LLM-ভিত্তিক কল সারসংক্ষেপ এবং কোচিং তৈরি করছো।

ডোমেন-নির্দিষ্ট এবং নিশ ডেটাসেট

অত্যন্ত বিশেষায়িত ব্যবহারের ক্ষেত্রে ডিজাইন করা হয়েছে:

  • চিকিৎসা, আইনি, অথবা আর্থিক নির্দেশনা
    • ভারী ডোমেন পরিভাষা, উচ্চ নির্ভুলতার প্রয়োজনীয়তা, কঠোর গোপনীয়তার প্রয়োজনীয়তা।
  • প্রযুক্তিগত পরিবেশ (যেমন, বিমান চলাচল নিয়ন্ত্রণ, ককপিট, উৎপাদন কারখানা)
    • সংক্ষিপ্ত রূপ, কোড এবং অস্বাভাবিক শাব্দিক অবস্থা (ককপিটের শব্দ, অ্যালার্ম)।
  • শিশুদের বক্তৃতা
    • বিভিন্ন উচ্চারণ ধরণ; শিক্ষামূলক অ্যাপ এবং স্পিচ থেরাপি সরঞ্জামের জন্য গুরুত্বপূর্ণ।

ব্যবহার করুন যখন: তোমার AI অবশ্যই না উচ্চ-ঝুঁকিপূর্ণ বা উচ্চ-মূল্যের ডোমেনে ব্যর্থ।

বহুভাষিক এবং স্বল্প-সম্পদযুক্ত ভাষার ডেটাসেট

  • কমন ভয়েস, ফ্লুরস এবং আনসুপারভাইজড পিপলস স্পিচের মতো বিশ্বব্যাপী বহুভাষিক ডেটাসেটগুলি কয়েক ডজন থেকে ১০০+ ভাষা কভার করে।
  • আঞ্চলিক/স্বল্প-সম্পদ ডেটাসেট (যেমন, AI4Bharat থেকে ভারতীয় ভাষার কর্পোরা, ভারতীয় বক্তৃতা সংগ্রহ) এমন বাজারে পরিবেশন করে যেখানে অপ্রচলিত ইংরেজি-কেন্দ্রিক ডেটা কাজ করবে না।

ব্যবহার করুন যখন: তুমি সত্যিকার অর্থে বিশ্বব্যাপী বা ভারত-প্রথম অভিজ্ঞতা তৈরি করছো এবং উচ্চারণ এবং কোড-মিশ্র বক্তৃতা জুড়ে উচ্চ-কভারেজের প্রয়োজন।

সিন্থেটিক, এক্সপ্রেসিভ এবং মাল্টিমোডাল ডেটাসেট

স্পিচ-নেটিভ এলএলএম-এর উত্থানের সাথে সাথে, নতুন ডেটাসেট প্রকারের উদ্ভব হচ্ছে:

  • প্রাকৃতিক ভাষা বর্ণনা সহ অভিব্যক্তিপূর্ণ বক্তৃতা (যেমন, স্পিচক্রাফ্ট) - শৈলী, আবেগ এবং ছন্দ বোঝে এমন প্রশিক্ষণ মডেলগুলিকে সমর্থন করে।
  • TTS + LLM-উত্পাদিত টেক্সট (যেমন, Magpie Speech) দিয়ে তৈরি কৃত্রিম স্পিচ কর্পোরা, প্রকৃত তথ্য বৃদ্ধির জন্য।
  • ভয়েস নিরাপত্তা এবং জালিয়াতি সনাক্তকরণের জন্য জাল বক্তৃতা / স্পুফ সনাক্তকরণ ডেটাসেট (যেমন, LlamaPartialSpoof)।

ব্যবহার করুন যখন: তুমি স্পিচ-ভাষা মডেল, এক্সপ্রেসিভ টিটিএস, অথবা এআই সুরক্ষা/জালিয়াতি সনাক্তকরণ নিয়ে কাজ করছো।

মিলি জন্য বক্তৃতা তথ্য

সঠিক স্পিচ রিকগনিশন ডেটাসেট কীভাবে নির্বাচন করবেন (ধাপে ধাপে)

এটিকে একটি ব্যবহারিক সিদ্ধান্ত কাঠামো হিসেবে ব্যবহার করুন।

সঠিক স্পিচ রিকগনিশন ডেটাসেট কীভাবে নির্বাচন করবেন

ধাপ ১ – আপনার মডেলকে যে কাজটি করতে হবে তা নির্ধারণ করুন

  • টাস্ক: ডিকটেশন, ভয়েস সার্চ, কন্টাক্ট সেন্টার অ্যানালিটিক্স, রিয়েল-টাইম ক্যাপশন, কমপ্লায়েন্স মনিটরিং ইত্যাদি।
  • চ্যানেল: টেলিফোনি (৮ kHz), মোবাইল অ্যাপ, দূর-ক্ষেত্রের স্মার্ট স্পিকার, গাড়ির ভেতরে মাইক্রোফোন।
  • কোয়ালিটি বার: লক্ষ্য WER, বিলম্বিতা, প্রতিক্রিয়া সময়, নিয়ন্ত্রক প্রয়োজনীয়তা।

ধাপ ২ – ভাষা, স্থানীয় ভাষা এবং উপভাষার তালিকা তৈরি করুন

  • কোন ভাষা এবং রূপগুলি (যেমন, মার্কিন ইংরেজি বনাম ভারতীয় ইংরেজি বনাম সিঙ্গাপুর ইংরেজি)?
  • তোমার দরকার আছে কোড-মিশ্রিত বক্তৃতা (হিন্দি-ইংরেজি, স্প্যানিশ-ইংরেজি, ইত্যাদি)?
  • আপনি কি কম-রিসোর্স ভাষাগুলিকে লক্ষ্য করছেন যেখানে খোলা ডেটা খুব কম?

ধাপ ৩ – অ্যাকোস্টিক কন্ডিশন মেলান

  • টেলিফোনি বনাম ওয়াইডব্যান্ড বনাম মাল্টি-মাইক অ্যারে।
  • নীরব অফিস বনাম কোলাহলপূর্ণ রাস্তা বনাম চলন্ত গাড়ি।
  • কাছাকাছি-ক্ষেত্র বনাম দূর-ক্ষেত্রের মাইক্রোফোন।

আপনার ডেটাসেটটি প্রতিফলিত হওয়া উচিত আপনার ব্যবহারকারীরা আসলে কোন পরিবেশে থাকবেন.

ধাপ ৪ – ডেটাসেটের আকার এবং গঠন নির্ধারণ করুন

গুরুত্বপূর্ণ নিয়ম (কঠোর নয়):

  • একটি প্রাক-প্রশিক্ষিত মডেলকে উন্নত করা (ফিসফিসিয়ে, wav2vec2, ইত্যাদি)
    • কয়েক ডজন থেকে কয়েকশ ঘন্টার উচ্চমানের, ডোমেন-মিলিত ডেটা কাজটিকে অনেক বেশি গতিশীল করতে পারে।
  • শুরু থেকেই একজন মডেলকে প্রশিক্ষণ দেওয়া
    • সাধারণত হাজার হাজার থেকে দশ হাজার ঘন্টা সময় লাগে, যে কারণে অনেক দল প্রাক-প্রশিক্ষিত সিস্টেম থেকে শুরু করে এবং ডেটা সূক্ষ্ম-টিউনিংয়ের উপর বাজেট ফোকাস করে।

মিক্স:

  • কিছু পরিষ্কার স্ক্রিপ্টেড ডেটা (মূল ধ্বনিবিজ্ঞান, সংখ্যার জন্য)।
  • বাস্তবানুগ কথোপকথন তথ্য (স্থায়িত্বের জন্য)।
  • ডোমেন-নির্দিষ্ট প্রান্তের কেস (বিরল সত্তা, দীর্ঘ সংখ্যা, শব্দার্থ)।

ধাপ ৫ – লেবেল এবং মেটাডেটা পরীক্ষা করুন

ক্লাসিক ASR এর জন্য, আপনার কমপক্ষে প্রয়োজন:

  • সঠিক প্রতিলিপি
  • বেসিক স্পিকার ট্যাগ
  • সামঞ্জস্যপূর্ণ বিরামচিহ্ন এবং কেসিং নিয়ম

LLM + ASR পাইপলাইনের জন্য, আপনি আরও চাইবেন:

  • স্পিকার টার্ন সেগমেন্টেশন (কে কী বলেছে, কখন)
  • কল/কথোপকথন ফলাফল (সমাধান করা হয়েছে, বর্ধিত, অভিযোগের ধরণ)
  • সত্তার টীকা (নাম, অ্যাকাউন্ট নম্বর, পণ্যের নাম)
  • অনুভূতি বা আবেগের ট্যাগ, যেখানে প্রাসঙ্গিক।

এই লেবেলগুলি আপনাকে তৈরি করতে দেয় সারসংক্ষেপ, QA, কোচিং, রাউটিং, এবং RAG পাইপলাইন ট্রান্সক্রিপ্টের উপরে—যেখানে এখন প্রচুর ব্যবসায়িক মূল্য বাস করে।

ধাপ ৬ – লাইসেন্সিং, সম্মতি এবং সম্মতি যাচাই করুন

প্রশিক্ষণের আগে:

  • ডেটাসেটটি কি এর জন্য লাইসেন্সপ্রাপ্ত? বাণিজ্যিক ব্যবহার (শুধু গবেষণা নয়)?
  • এই ব্যবহারের জন্য বক্তাদের কি অবহিত করা হয়েছিল এবং সম্মতি দেওয়া হয়েছিল?
  • PII এবং সংবেদনশীল বৈশিষ্ট্যগুলি কি GDPR / HIPAA / স্থানীয় নিয়ম অনুসারে পরিচালিত হয়?

অনেক খোলা ডেটাসেট লাইসেন্স ব্যবহার করে যেমন সিসি-বাই or CC0, প্রতিটির আলাদা আলাদা বাধ্যবাধকতা রয়েছে। সন্দেহ হলে, আইনি পর্যালোচনাকে একটি অ-আলোচনাযোগ্য পদক্ষেপ হিসাবে বিবেচনা করুন।

ধাপ ৭ – ক্রমাগত ডেটাসেট উন্নতির পরিকল্পনা করুন

ভাষা বিকশিত হয়, আপনার পণ্য বিকশিত হয়, এবং আপনার ডেটাসেটও বিকশিত হওয়া উচিত:

  • বাস্তব-বিশ্বের ত্রুটিগুলি পর্যবেক্ষণ করুন এবং ভুল শনাক্তকরণগুলি আপনার প্রশিক্ষণ সেটে ফিরিয়ে আনুন।
  • আপনার ডোমেন পরিবর্তনের সাথে সাথে নতুন সত্তা (ব্র্যান্ড, SKU, নিয়ন্ত্রক পদ) যোগ করুন।
  • পক্ষপাত কমাতে পর্যায়ক্রমে উচ্চারণ এবং জনসংখ্যার ভারসাম্য বজায় রাখুন।

এই বন্ধ লুপটি প্রায়শই বৃহত্তম পার্থক্যকারী "যথেষ্ট ভালো" এবং "বাজার-নেতৃস্থানীয়" বক্তৃতা পণ্যের মধ্যে।

[এছাড়াও পড়ুন: আমাদের মানসম্পন্ন ভারতীয় ভাষার অডিও ডেটাসেটগুলির সাথে AI মডেলগুলিকে উন্নত করুন৷.]

কিভাবে Shaip সাহায্য করতে পারেন

যদি তুমি এমন পর্যায়ে থাকো যে "আমি জানি আমার আরও ভালো স্পিচ ডেটা দরকার, কিন্তু কোথা থেকে শুরু করব তা আমি নিশ্চিত নই", শাইপ আপনাকে সাহায্য করতে পারে:

  • আপনার বিদ্যমান ডেটাসেটগুলি নিরীক্ষণ করুন এবং সনাক্ত করুন কভারেজ ফাঁক
  • প্রদান করুন অপ্রচলিত স্পিচ রিকগনিশন ডেটাসেট ৬৫+ ভাষা এবং কয়েক ডজন ডোমেন জুড়ে (স্ক্রিপ্টেড, কল সেন্টার, ওয়েক ওয়ার্ডস, টিটিএস, ইত্যাদি)
  • নকশা এবং সম্পাদন কাস্টম ডেটা সংগ্রহ প্রোগ্রাম (দূরবর্তী, দেশে, মাল্টি-ডিভাইস)
  • হাতল টীকা, প্রতিলিপি, মান নিয়ন্ত্রণ, এবং শনাক্তকরণ বাতিলকরণ সর্বশেষ সীমা

যাতে আপনার দল মনোযোগ দিতে পারে মডেল এবং পণ্য, আমরা নিশ্চিত করি যে আপনার AI-তে উচ্চ-মানের, সঙ্গতিপূর্ণ বক্তৃতা ডেটা রয়েছে যা এটি শুনতে এবং বুঝতে প্রয়োজন।

প্রয়োজনীয় ডেটার পরিমাণ সম্পূর্ণরূপে প্রকল্পের জটিলতা, ডোমেন এবং নির্ভুলতার প্রয়োজনীয়তার উপর নির্ভর করে। Shaip সঠিক ডেটাসেটের আকার নির্ধারণে সহায়তা করে এবং আপনার ব্যবহারের ক্ষেত্রে তৈরি প্রয়োজনীয় অডিও এবং ট্রান্সক্রিপ্ট সরবরাহ করে।

আপনার ভাষা, উচ্চারণ, শব্দের মাত্রা, ডিভাইসের ধরণ এবং শিল্পের শব্দভাণ্ডারের সাথে ডেটাসেটটি মেলান। Shaip ডেটাসেট নির্বাচন এবং কাস্টম ডেটা তৈরির মাধ্যমে দলগুলিকে গাইড করে।

ওপেন ডেটাসেটগুলি পরীক্ষার জন্য দুর্দান্ত, তবে বাস্তব-বিশ্বের নির্ভুলতার জন্য ডোমেন-নির্দিষ্ট, বাস্তব-গ্রাহক ডেটা প্রয়োজন। শাইপ আপনার পণ্যের সাথে মানানসই কাস্টম ডেটাসেট তৈরি করে।

শুধুমাত্র যদি আইনত সংগ্রহ করা হয় এবং বেনামে রাখা হয়। শাইপ PII অপসারণ, সম্মতি-চালিত সংগ্রহ এবং সম্মতিমূলক প্রশিক্ষণের জন্য নিরাপদ ডেটা কর্মপ্রবাহ প্রদান করে।

হ্যাঁ। শাইপ ৬৫+ ভাষা এবং উপভাষায় বক্তৃতা তথ্য সরবরাহ করে, যার মধ্যে রয়েছে কম-সম্পদ, উচ্চারণযুক্ত এবং কোড-মিশ্র বক্তৃতা প্রকার।

সিন্থেটিক অডিও কভারেজ প্রসারিত করতে সাহায্য করতে পারে, কিন্তু নির্ভুলতার জন্য প্রকৃত মানুষের কথা অপরিহার্য। প্রকল্পের চাহিদার উপর ভিত্তি করে শাইপ বাস্তব এবং বর্ধিত উভয় ডেটাসেট সরবরাহ করে।

বেশিরভাগ ASR মডেল ১৬ kHz, মনো, ১৬-বিট WAV অডিও পছন্দ করে। Shaip ধারাবাহিক, মডেল-প্রস্তুত ফর্ম্যাটে ডেটাসেট সরবরাহ করে।

এই নিবন্ধটি কি আপনার ভালো লেগেছে? আরও আপডেটের জন্য লিঙ্কডইনে শাইপকে অনুসরণ করুন।

সামাজিক ভাগ