বক্তৃতা আবেগ এবং অনুভূতি বিশ্লেষণ
এআই-চালিত অন্তর্দৃষ্টি সহ আরও স্মার্ট কল সেন্টার সক্ষম করা
উন্নত গ্রাহক পরিষেবার জন্য রিয়েল-টাইম আবেগ এবং অনুভূতি সনাক্তকরণ উন্নত করতে অডিও ডেটা সংগ্রহ এবং টীকাতে Shaip-এর দক্ষতার ব্যবহার।
স্বয়ংক্রিয় বক্তৃতা আবেগ এবং
অনুভূতির বিশ্লেষণ
ক্লায়েন্ট কল সেন্টারের জন্য একটি স্বয়ংক্রিয় বক্তৃতা আবেগ এবং অনুভূতি বিশ্লেষণ মডেল তৈরি করতে Shaip এর সাথে অংশীদারিত্ব করেছে। এই প্রকল্পে চারটি ইংরেজি উপভাষা - মার্কিন যুক্তরাষ্ট্র, যুক্তরাজ্য, অস্ট্রেলিয়ান এবং ভারতীয় জুড়ে 250 ঘন্টার কল সেন্টার অডিও ডেটা সংগ্রহ এবং টীকা করা জড়িত। এটি ক্লায়েন্টকে খুশি, নিরপেক্ষ, এবং রাগান্বিত এবং রিয়েল-টাইম গ্রাহক মিথস্ক্রিয়ায় অসন্তুষ্ট এবং সন্তুষ্টের মতো আবেগ সনাক্ত করার জন্য তাদের AI মডেলগুলিকে উন্নত করতে সক্ষম করে।
প্রকল্পটি ব্যঙ্গাত্মক সনাক্তকরণ, বিভিন্ন অডিও দৈর্ঘ্য এবং অসন্তুষ্টির সূক্ষ্ম মৌখিক সংকেত, সুনির্দিষ্ট এবং পরিমাপযোগ্য ফলাফল প্রদানের মতো চ্যালেঞ্জগুলিকে অতিক্রম করেছে।

মূল পরিসংখ্যান
কল সেন্টার অডিও ডেটা সংগ্রহ করা হয়েছে এবং 4টি ইংরেজি উপভাষা জুড়ে টীকা করা হয়েছে
250 ঘন্টা
ভাষার সংখ্যা
মার্কিন ইংরেজি, যুক্তরাজ্যের ইংরেজি, অস্ট্রেলিয়ান ইংরেজি এবং ভারতীয় ইংরেজি
ব্যবহারের ক্ষেত্রে
স্বয়ংক্রিয় বক্তৃতা আবেগ এবং অনুভূতি বিশ্লেষণ
প্রকল্পের সুযোগ
ইংরেজির চারটি উপভাষায় কল সেন্টারের অডিও ডেটার 250 ঘন্টা সংগ্রহ করুন এবং টীকা করুন:
- মার্কিন ইংরেজি (30%)
- ইউকে ইংরেজি (30%)
- অস্ট্রেলিয়ান ইংরেজি (20%)
- ভারতীয় ইংরেজি (20%)
পরিধিতে
প্রকল্পটি তিনটি অংশ নিয়ে গঠিত:
- মেটাডেটা সহ নির্দিষ্ট সত্তা সহ অডিও ডেটা।
- বিভাগ এবং সময়-স্ট্যাম্পিং বিশদ সহ অনুলিপি করা ফাইলগুলি।
- আবেগ এবং অনুভূতি টীকা:
- অডিও আবেগ: সুখী, নিরপেক্ষ, রাগান্বিত
- ট্রান্সক্রিপশন সেন্টিমেন্ট: অত্যন্ত অসন্তুষ্ট, অসন্তুষ্ট, নিরপেক্ষ, সন্তুষ্ট, অত্যন্ত সন্তুষ্ট
চ্যালেঞ্জ
অডিও ডেটা সঠিকভাবে নির্দিষ্ট উপভাষাগুলির প্রতিনিধিত্ব করে তা নিশ্চিত করা (মার্কিন, যুক্তরাজ্য, অস্ট্রেলিয়ান এবং ভারতীয়) চ্যালেঞ্জিং হতে পারে। এই বিভাগের মধ্যে বিভিন্ন অঞ্চল বিভিন্ন শব্দভান্ডার, উচ্চারণ এবং উচ্চারণ ব্যবহার করতে পারে।
আবেগ এবং অনুভূতির জন্য অডিও এবং প্রতিলিপি টীকা করার জন্য প্রতিটি উপভাষার সাংস্কৃতিক সূক্ষ্মতা এবং ভাষাগত সূক্ষ্মতার সাথে পরিচিত প্রশিক্ষিত টীকাকারদের প্রয়োজন।
অডিও আবেগ এবং প্রতিলিপি অনুভূতি সবসময় সারিবদ্ধ হয় না. উদাহরণস্বরূপ, একজন ব্যক্তি রাগান্বিত শোনালেও প্রকৃতপক্ষে সন্তুষ্টি প্রকাশ করে। যেমন, ব্যঙ্গাত্মক বাক্যাংশে ব্যঙ্গাত্মক কথোপকথন পরিচালনা করা যেমন "ওহ, বিস্ময়কর, অন্য একজন ব্যক্তি যে আমার সমস্যার সমাধান করতে পারে না" আবেগ এবং অনুভূতির জন্য সঠিকভাবে টীকা করা দরকার।
অডিও রেকর্ডিংয়ের গুণমান পরিবর্তিত হতে পারে, যা ট্রান্সক্রিপশনের সঠিকতা এবং আবেগ সনাক্তকরণকে প্রভাবিত করে। পটভূমির শব্দ, ওভারল্যাপিং কথোপকথন, এবং বিভিন্ন রেকর্ডিং সরঞ্জাম উল্লেখযোগ্য চ্যালেঞ্জ তৈরি করতে পারে।
ভারী নিঃশ্বাস বা হতাশার অন্যান্য লক্ষণের মতো মৌখিক সংকেতের মাধ্যমে অসন্তুষ্টি।
সমাধান
উন্নত ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (এনএলপি) কৌশলগুলি ব্যবহার করে, নিম্নলিখিত সমাধানগুলি প্রয়োগ করা হয়েছিল:
তথ্য সংগ্রহ
- 250 ঘন্টার অডিও ডেটা উপভাষা-নির্দিষ্ট কোটায় বিভক্ত।
- মার্কিন ইংরেজি (30% বা 75 ঘন্টা)
- ইউকে ইংরেজি (30% বা 75 ঘন্টা)
- অস্ট্রেলিয়ান ইংরেজি (20% বা 50 ঘন্টা)
- ভারতীয় ইংরেজি (20% বা 50 ঘন্টা)
- মার্কিন যুক্তরাষ্ট্র, যুক্তরাজ্য, অস্ট্রেলিয়া এবং ভারত থেকে স্থানীয় উচ্চারণ ব্যবহারকারী।
- বিভিন্ন টোন সম্বলিত বক্তৃতা নমুনা, যেখানে ভয়েস ইমোশন রাগান্বিত এবং টেক্সট সেন্টিমেন্ট অসন্তুষ্ট বা চরমভাবে অসন্তুষ্ট সেসব ক্ষেত্রে বিশেষ ফোকাস সহ।
পাঠ্য শ্রেণীবিভাগ/টীকা
- নির্দিষ্ট বিভাগের উপর ভিত্তি করে আবেগ এবং অনুভূতির টীকা:
- অডিও আবেগ: সুখী, নিরপেক্ষ, রাগান্বিত।
- ট্রান্সক্রিপশন সেন্টিমেন্ট: অত্যন্ত অসন্তুষ্ট, অসন্তুষ্ট, নিরপেক্ষ, সন্তুষ্ট, অত্যন্ত সন্তুষ্ট।
- প্রতিটি অডিও সেগমেন্টে শুধুমাত্র একটি প্রাথমিক আবেগ রয়েছে।
- কথোপকথনের মধ্যে বিভিন্ন বিলম্ব সেগমেন্ট (2 থেকে 30 সেকেন্ড পর্যন্ত) প্রয়োগ করা হয়।
- ট্রান্সক্রিপশন ফরম্যাট JSON আউটপুট অনুসরণ করে, বাম এবং ডান স্পিকার তথ্য, সেন্টিমেন্ট ট্যাগ এবং চূড়ান্ত সেগমেন্ট সেন্টিমেন্ট সহ।
গুণগত মান
প্রতিলিপি নির্ভুলতা:
- ন্যূনতম এর সাথে 250 ঘন্টার অডিও সরবরাহ করা হয়েছে তা নিশ্চিত করুন:
- 90% ট্রান্সক্রিপশন ত্রুটি হার (TER) নির্ভুলতা।
- 95% শব্দ স্বীকৃতি হার (WER) নির্ভুলতা।
QA প্রক্রিয়া:
- ডেটাসেট থেকে এলোমেলোভাবে নির্বাচিত নমুনার নিয়মিত অডিট পরিচালিত হয়েছিল।
- ডেটাসেট জুড়ে TER এবং WER পরিমাপ করতে স্বয়ংক্রিয় সরঞ্জাম ব্যবহার করা হয়েছে।
- পতাকাঙ্কিত বিভাগগুলির ম্যানুয়াল পর্যালোচনা নিশ্চিত করে যে নির্ভুলতা থ্রেশহোল্ড পূরণ করা হয়েছে।
ফলাফল
প্রশিক্ষণের ডেটা একটি স্বয়ংক্রিয় আবেগ এবং অনুভূতি সনাক্তকরণ মডেলের বিকাশকে সমর্থন করবে, প্রদান করবে:
- কল সেন্টার ইন্টারঅ্যাকশনে রিয়েল-টাইম আবেগ সনাক্তকরণ।
- ব্যঙ্গ বা অসন্তোষের মতো জটিল ক্ষেত্রে আরও কার্যকরী পরিচালনা।
- ভবিষ্যতের প্রকল্পগুলির জন্য মাপযোগ্যতা, সহজেই বর্ধিত ডেটা ভলিউম এবং আরও ভাষার সাথে খাপ খাইয়ে নেওয়া।
deliverables
- 250 ঘন্টা অডিও ফাইল (8 kHz PCM WAV ফর্ম্যাটে, মনো)
- ট্রান্সক্রিপশন ফাইল (সেগমেন্টেশন, সেন্টিমেন্ট ট্যাগ এবং স্পিকার আইডেন্টিফায়ার সহ)
- মেটাডেটা (অডিও সময়কাল, স্পিকারের বিবরণ, ইত্যাদি)
আমাদের কল সেন্টার ডেটা প্রকল্পের জন্য Shaip-এর সাথে অংশীদারিত্ব আমাদের AI সমাধানগুলিকে এগিয়ে নেওয়ার ক্ষেত্রে একটি গুরুত্বপূর্ণ মুহূর্ত। তাদের দল দক্ষতার সাথে চারটি ইংরেজি উপভাষা - US, UK, অস্ট্রেলিয়ান এবং ভারতীয় - সর্বোচ্চ গুণমান এবং নির্ভুলতা নিশ্চিত করে 250 ঘন্টার অডিও ডেটা সংগ্রহ করেছে এবং টীকা করেছে৷ এই অঞ্চল জুড়ে ভাষাগত সূক্ষ্মতার প্রতি মনোযোগ আমাদের বক্তৃতা শনাক্তকরণ মডেলগুলির যথার্থতাকে উল্লেখযোগ্যভাবে উন্নত করেছে। উপরন্তু, জটিল ডেটা টীকা প্রকল্পগুলি পরিচালনা করার ক্ষেত্রে Shaip-এর দক্ষতা, স্কেলে নির্ভরযোগ্য, কমপ্লায়েন্ট মডেল তৈরি করতে আমাদের সাহায্য করার জন্য সহায়ক হয়েছে।