কেস স্টাডি: উচ্চারণ সংগ্রহ
7টি ভাষায় বহুভাষিক ডিজিটাল সহকারী তৈরি করতে 13M+ উচ্চারণ প্রদান করা হয়েছে
বাস্তব বিশ্ব সমাধান
ডেটা যা বিশ্বব্যাপী কথোপকথনকে শক্তি দেয়
উচ্চারণ প্রশিক্ষণের প্রয়োজনীয়তা দেখা দেয় কারণ সমস্ত গ্রাহক তাদের ভয়েস সহকারীকে একটি স্ক্রিপ্টেড বিন্যাসে ইন্টারঅ্যাক্ট করার সময় বা প্রশ্ন করার সময় সঠিক শব্দ বা বাক্যাংশ ব্যবহার করেন না। এজন্য নির্দিষ্ট ভয়েস অ্যাপ্লিকেশনগুলিকে স্বতঃস্ফূর্ত বক্তৃতা ডেটার উপর প্রশিক্ষণ দিতে হবে। যেমন, "সবচেয়ে কাছের হাসপাতালটি কোথায় অবস্থিত?" "আমার কাছাকাছি একটি হাসপাতাল খুঁজুন" বা "আশেপাশে কি কোনো হাসপাতাল আছে?" সব একই অনুসন্ধান অভিপ্রায় নির্দেশ করে কিন্তু শব্দগুচ্ছ ভিন্নভাবে।
সমস্যা
বিশ্বব্যাপী ভাষার জন্য ক্লায়েন্টদের ডিজিটাল সহকারীর স্পিচ রোডম্যাপ কার্যকর করার জন্য, টিমকে স্পিচ রিকগনিশন এআই মডেলের জন্য প্রচুর পরিমাণে প্রশিক্ষণ ডেটা অর্জন করতে হবে। ক্লায়েন্টের গুরুত্বপূর্ণ প্রয়োজনীয়তা ছিল:
- 3টি বৈশ্বিক ভাষায় বক্তৃতা শনাক্তকরণ পরিষেবার জন্য প্রচুর পরিমাণে প্রশিক্ষণ ডেটা (একক স্পীকার উচ্চারণ 30-13 সেকেন্ডের বেশি নয়) অর্জন করুন
- প্রতিটি ভাষার জন্য, সরবরাহকারী বক্তাদের রেকর্ড করার জন্য পাঠ্য প্রম্পট তৈরি করবে (যদি না
ক্লায়েন্ট সরবরাহ) এবং ফলাফল অডিও প্রতিলিপি. - সংশ্লিষ্ট JSON ফাইলগুলির সাথে রেকর্ড করা উচ্চারণগুলির অডিও ডেটা এবং প্রতিলিপি প্রদান করুন
সমস্ত রেকর্ডিংয়ের জন্য মেটাডেটা রয়েছে। - বয়স, লিঙ্গ, শিক্ষা এবং উপভাষা অনুসারে বক্তাদের একটি বৈচিত্র্যময় মিশ্রণ নিশ্চিত করুন
- নির্দিষ্টকরণ অনুযায়ী রেকর্ডিং পরিবেশের একটি বৈচিত্র্যময় মিশ্রণ নিশ্চিত করুন।
- প্রতিটি অডিও রেকর্ডিং ন্যূনতম 16kHz হতে হবে তবে 44kHz হতে হবে
“অনেক বিক্রেতাদের মূল্যায়ন করার পরে, ক্লায়েন্ট কথোপকথনমূলক এআই প্রকল্পে তাদের দক্ষতার কারণে শাইপকে বেছে নিয়েছিল। আমরা শাইপের প্রজেক্ট এক্সিকিউশনের দক্ষতা, উৎসে তাদের দক্ষতা, 13টি ভাষায় বিশেষজ্ঞ ভাষাবিদদের কাছ থেকে প্রয়োজনীয় উচ্চারণগুলিকে কঠোর সময়সীমার মধ্যে এবং প্রয়োজনীয় মানের সাথে ট্রান্সক্রিপশন এবং প্রদানে মুগ্ধ হয়েছি”
সমাধান
কথোপকথনমূলক AI সম্পর্কে আমাদের গভীর বোঝার সাথে, আমরা ক্লায়েন্টকে তাদের AI-চালিত স্পিচ প্রসেসিং বহুভাষিক ভয়েস স্যুট প্রশিক্ষণের জন্য বিশেষজ্ঞ ভাষাবিদ এবং টীকাকারদের একটি দলের সাথে ডেটা সংগ্রহ, প্রতিলিপি এবং টীকা করতে সাহায্য করেছি।
শাইপের কাজের সুযোগ অন্তর্ভুক্ত ছিল কিন্তু বক্তৃতা শনাক্তকরণের জন্য প্রচুর পরিমাণে অডিও প্রশিক্ষণ ডেটা অর্জন, আমাদের টিয়ার 1 এবং টিয়ার 2 ভাষার রোডম্যাপে সমস্ত ভাষার জন্য একাধিক ভাষায় অডিও রেকর্ডিং ট্রান্সক্রিপ করা এবং সংশ্লিষ্ট সরবরাহ করার মধ্যে সীমাবদ্ধ ছিল না তাদেরকে JSON মেটাডেটা ধারণকারী ফাইল। জটিল প্রকল্পগুলির জন্য এমএল মডেলগুলিকে প্রশিক্ষণের জন্য প্রয়োজনীয় মানের পছন্দসই স্তর বজায় রাখার সময় শাইপ স্কেলে 3-30 সেকেন্ডের উচ্চারণ সংগ্রহ করেছিলেন।
- অডিও সংগৃহীত, প্রতিলিপি এবং টীকা করা: 22,250 ঘণ্টা
- সমর্থিত ভাষা: 13 (ড্যানিশ, কোরিয়ান, সৌদি আরব আরবি, ডাচ, মেইনল্যান্ড এবং তাইওয়ান চাইনিজ, ফ্রেঞ্চ কানাডিয়ান, মেক্সিকান স্প্যানিশ, তুর্কি, হিন্দি, পোলিশ, জাপানিজ, রাশিয়ান)
- উচ্চারণের সংখ্যা: 7M + +
- সময়রেখা: 7-8 মাস
16 kHz এ অডিও উচ্চারণ সংগ্রহ করার সময়, আমরা বিভিন্ন রেকর্ডিং পরিবেশে বয়স, লিঙ্গ, শিক্ষা এবং উপভাষা অনুসারে স্পিকারের একটি সুস্থ মিশ্রণ নিশ্চিত করেছি।
ফল
বিশেষজ্ঞ ভাষাবিদদের উচ্চ-মানের উচ্চারণ অডিও ডেটা ক্লায়েন্টকে 13টি গ্লোবাল টায়ার 1 এবং 2 ভাষায় তাদের বহুভাষিক স্পিচ রিকগনিশন মডেলকে সঠিকভাবে প্রশিক্ষণ দেওয়ার ক্ষমতা দিয়েছে। গোল্ড-স্ট্যান্ডার্ড ট্রেনিং ডেটাসেটের সাথে, ক্লায়েন্ট ভবিষ্যতের বাস্তব-বিশ্বের সমস্যা সমাধানের জন্য বুদ্ধিমান এবং শক্তিশালী ডিজিটাল সহায়তা দিতে পারে।
আমাদের দক্ষতাঃ
প্রস্তাবিত সংস্থানসমূহ
ক্রেতা এর গাইড
ক্রেতার নির্দেশিকা: কথোপকথনমূলক এআই
আপনি যে চ্যাটবটটির সাথে কথোপকথন করেছেন তা একটি উন্নত কথোপকথনমূলক AI সিস্টেমে চলে যা প্রশিক্ষিত, পরীক্ষিত এবং প্রচুর স্পিচ রিকগনিশন ডেটাসেট ব্যবহার করে তৈরি করা হয়।
ব্লগ
কথোপকথনের অবস্থা AI 2021
কথোপকথনমূলক এআই 2021 ইনফোগ্রাফিক্স কথোপকথনমূলক এআই কী, এর বিবর্তন, প্রকার, অঞ্চল অনুসারে কথোপকথনমূলক এআই বাজার, ব্যবহারের ক্ষেত্রে, চ্যালেঞ্জ ইত্যাদি সম্পর্কে কথা বলে।
ব্লগ
3 কথোপকথন বিবর্তনের বিঘ
Shaip 50+ ভাষায় প্রয়োজনীয় টীকাযুক্ত অডিও ডেটা অফার করার মাধ্যমে গ্রাহকদের ব্যস্ততার সরঞ্জাম হিসাবে কথোপকথনমূলক AI এর বিবর্তন শুরু করছে।
আমাদের বলুন কিভাবে আমরা আপনার পরবর্তী AI উদ্যোগে সাহায্য করতে পারি।