বক্তৃতা আবেগ এবং অনুভূতি বিশ্লেষণ

এআই-চালিত অন্তর্দৃষ্টি সহ আরও স্মার্ট কল সেন্টার সক্ষম করা

উন্নত গ্রাহক পরিষেবার জন্য রিয়েল-টাইম আবেগ এবং অনুভূতি সনাক্তকরণ উন্নত করতে অডিও ডেটা সংগ্রহ এবং টীকাতে Shaip-এর দক্ষতার ব্যবহার।

বক্তৃতা আবেগ এবং অনুভূতি বিশ্লেষণ

স্বয়ংক্রিয় বক্তৃতা আবেগ এবং
অনুভূতির বিশ্লেষণ

ক্লায়েন্ট কল সেন্টারের জন্য একটি স্বয়ংক্রিয় বক্তৃতা আবেগ এবং অনুভূতি বিশ্লেষণ মডেল তৈরি করতে Shaip এর সাথে অংশীদারিত্ব করেছে। এই প্রকল্পে চারটি ইংরেজি উপভাষা - মার্কিন যুক্তরাষ্ট্র, যুক্তরাজ্য, অস্ট্রেলিয়ান এবং ভারতীয় জুড়ে 250 ঘন্টার কল সেন্টার অডিও ডেটা সংগ্রহ এবং টীকা করা জড়িত। এটি ক্লায়েন্টকে খুশি, নিরপেক্ষ, এবং রাগান্বিত এবং রিয়েল-টাইম গ্রাহক মিথস্ক্রিয়ায় অসন্তুষ্ট এবং সন্তুষ্টের মতো আবেগ সনাক্ত করার জন্য তাদের AI মডেলগুলিকে উন্নত করতে সক্ষম করে।

প্রকল্পটি ব্যঙ্গাত্মক সনাক্তকরণ, বিভিন্ন অডিও দৈর্ঘ্য এবং অসন্তুষ্টির সূক্ষ্ম মৌখিক সংকেত, সুনির্দিষ্ট এবং পরিমাপযোগ্য ফলাফল প্রদানের মতো চ্যালেঞ্জগুলিকে অতিক্রম করেছে।

স্বয়ংক্রিয় বক্তৃতা আবেগ এবং অনুভূতি বিশ্লেষণ

মূল পরিসংখ্যান

কল সেন্টার অডিও ডেটা সংগ্রহ করা হয়েছে এবং 4টি ইংরেজি উপভাষা জুড়ে টীকা করা হয়েছে

250 ঘন্টা

ভাষার সংখ্যা

মার্কিন ইংরেজি, যুক্তরাজ্যের ইংরেজি, অস্ট্রেলিয়ান ইংরেজি এবং ভারতীয় ইংরেজি

ব্যবহারের ক্ষেত্রে

স্বয়ংক্রিয় বক্তৃতা আবেগ এবং অনুভূতি বিশ্লেষণ

প্রকল্পের সুযোগ

ইংরেজির চারটি উপভাষায় কল সেন্টারের অডিও ডেটার 250 ঘন্টা সংগ্রহ করুন এবং টীকা করুন:

  • মার্কিন ইংরেজি (30%)
  • ইউকে ইংরেজি (30%)
  • অস্ট্রেলিয়ান ইংরেজি (20%)
  • ভারতীয় ইংরেজি (20%)

পরিধিতে

প্রকল্পটি তিনটি অংশ নিয়ে গঠিত:

  • মেটাডেটা সহ নির্দিষ্ট সত্তা সহ অডিও ডেটা।
  • বিভাগ এবং সময়-স্ট্যাম্পিং বিশদ সহ অনুলিপি করা ফাইলগুলি।
  • আবেগ এবং অনুভূতি টীকা:
    • অডিও আবেগ: সুখী, নিরপেক্ষ, রাগান্বিত
    • ট্রান্সক্রিপশন সেন্টিমেন্ট: অত্যন্ত অসন্তুষ্ট, অসন্তুষ্ট, নিরপেক্ষ, সন্তুষ্ট, অত্যন্ত সন্তুষ্ট

চ্যালেঞ্জ

উপভাষার বৈচিত্র্য

অডিও ডেটা সঠিকভাবে নির্দিষ্ট উপভাষাগুলির প্রতিনিধিত্ব করে তা নিশ্চিত করা (মার্কিন, যুক্তরাজ্য, অস্ট্রেলিয়ান এবং ভারতীয়) চ্যালেঞ্জিং হতে পারে। এই বিভাগের মধ্যে বিভিন্ন অঞ্চল বিভিন্ন শব্দভান্ডার, উচ্চারণ এবং উচ্চারণ ব্যবহার করতে পারে।

দক্ষতার প্রয়োজন

আবেগ এবং অনুভূতির জন্য অডিও এবং প্রতিলিপি টীকা করার জন্য প্রতিটি উপভাষার সাংস্কৃতিক সূক্ষ্মতা এবং ভাষাগত সূক্ষ্মতার সাথে পরিচিত প্রশিক্ষিত টীকাকারদের প্রয়োজন।

আবেগ ও অনুভূতির জটিলতা

অডিও আবেগ এবং প্রতিলিপি অনুভূতি সবসময় সারিবদ্ধ হয় না. উদাহরণস্বরূপ, একজন ব্যক্তি রাগান্বিত শোনালেও প্রকৃতপক্ষে সন্তুষ্টি প্রকাশ করে। যেমন, ব্যঙ্গাত্মক বাক্যাংশে ব্যঙ্গাত্মক কথোপকথন পরিচালনা করা যেমন "ওহ, বিস্ময়কর, অন্য একজন ব্যক্তি যে আমার সমস্যার সমাধান করতে পারে না" আবেগ এবং অনুভূতির জন্য সঠিকভাবে টীকা করা দরকার।

অডিও মানের

অডিও রেকর্ডিংয়ের গুণমান পরিবর্তিত হতে পারে, যা ট্রান্সক্রিপশনের সঠিকতা এবং আবেগ সনাক্তকরণকে প্রভাবিত করে। পটভূমির শব্দ, ওভারল্যাপিং কথোপকথন, এবং বিভিন্ন রেকর্ডিং সরঞ্জাম উল্লেখযোগ্য চ্যালেঞ্জ তৈরি করতে পারে।

সঠিকভাবে ক্যাপচারিং

ভারী নিঃশ্বাস বা হতাশার অন্যান্য লক্ষণের মতো মৌখিক সংকেতের মাধ্যমে অসন্তুষ্টি।

সমাধান

উন্নত ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (এনএলপি) কৌশলগুলি ব্যবহার করে, নিম্নলিখিত সমাধানগুলি প্রয়োগ করা হয়েছিল:

তথ্য সংগ্রহ

  • 250 ঘন্টার অডিও ডেটা উপভাষা-নির্দিষ্ট কোটায় বিভক্ত।
    • মার্কিন ইংরেজি (30% বা 75 ঘন্টা)
    • ইউকে ইংরেজি (30% বা 75 ঘন্টা)
    • অস্ট্রেলিয়ান ইংরেজি (20% বা 50 ঘন্টা)
    • ভারতীয় ইংরেজি (20% বা 50 ঘন্টা)
  • মার্কিন যুক্তরাষ্ট্র, যুক্তরাজ্য, অস্ট্রেলিয়া এবং ভারত থেকে স্থানীয় উচ্চারণ ব্যবহারকারী।
  • বিভিন্ন টোন সম্বলিত বক্তৃতা নমুনা, যেখানে ভয়েস ইমোশন রাগান্বিত এবং টেক্সট সেন্টিমেন্ট অসন্তুষ্ট বা চরমভাবে অসন্তুষ্ট সেসব ক্ষেত্রে বিশেষ ফোকাস সহ।

পাঠ্য শ্রেণীবিভাগ/টীকা

পাঠ্য শ্রেণিবিন্যাস

  • নির্দিষ্ট বিভাগের উপর ভিত্তি করে আবেগ এবং অনুভূতির টীকা:
    • অডিও আবেগ: সুখী, নিরপেক্ষ, রাগান্বিত।
    • ট্রান্সক্রিপশন সেন্টিমেন্ট: অত্যন্ত অসন্তুষ্ট, অসন্তুষ্ট, নিরপেক্ষ, সন্তুষ্ট, অত্যন্ত সন্তুষ্ট।
  • প্রতিটি অডিও সেগমেন্টে শুধুমাত্র একটি প্রাথমিক আবেগ রয়েছে।
  • কথোপকথনের মধ্যে বিভিন্ন বিলম্ব সেগমেন্ট (2 থেকে 30 সেকেন্ড পর্যন্ত) প্রয়োগ করা হয়।
  • ট্রান্সক্রিপশন ফরম্যাট JSON আউটপুট অনুসরণ করে, বাম এবং ডান স্পিকার তথ্য, সেন্টিমেন্ট ট্যাগ এবং চূড়ান্ত সেগমেন্ট সেন্টিমেন্ট সহ।

 

গুণগত মান

গুণ নিশ্চিত করা
প্রতিলিপি নির্ভুলতা:

  • ন্যূনতম এর সাথে 250 ঘন্টার অডিও সরবরাহ করা হয়েছে তা নিশ্চিত করুন:
    • 90% ট্রান্সক্রিপশন ত্রুটি হার (TER) নির্ভুলতা।
    • 95% শব্দ স্বীকৃতি হার (WER) নির্ভুলতা।

QA প্রক্রিয়া:

  • ডেটাসেট থেকে এলোমেলোভাবে নির্বাচিত নমুনার নিয়মিত অডিট পরিচালিত হয়েছিল।
    • ডেটাসেট জুড়ে TER এবং WER পরিমাপ করতে স্বয়ংক্রিয় সরঞ্জাম ব্যবহার করা হয়েছে।
    • পতাকাঙ্কিত বিভাগগুলির ম্যানুয়াল পর্যালোচনা নিশ্চিত করে যে নির্ভুলতা থ্রেশহোল্ড পূরণ করা হয়েছে।

ফলাফল

প্রশিক্ষণের ডেটা একটি স্বয়ংক্রিয় আবেগ এবং অনুভূতি সনাক্তকরণ মডেলের বিকাশকে সমর্থন করবে, প্রদান করবে:

  • কল সেন্টার ইন্টারঅ্যাকশনে রিয়েল-টাইম আবেগ সনাক্তকরণ।
  • ব্যঙ্গ বা অসন্তোষের মতো জটিল ক্ষেত্রে আরও কার্যকরী পরিচালনা।
  • ভবিষ্যতের প্রকল্পগুলির জন্য মাপযোগ্যতা, সহজেই বর্ধিত ডেটা ভলিউম এবং আরও ভাষার সাথে খাপ খাইয়ে নেওয়া।

deliverables

  • 250 ঘন্টা অডিও ফাইল (8 kHz PCM WAV ফর্ম্যাটে, মনো)
  • ট্রান্সক্রিপশন ফাইল (সেগমেন্টেশন, সেন্টিমেন্ট ট্যাগ এবং স্পিকার আইডেন্টিফায়ার সহ)
  • মেটাডেটা (অডিও সময়কাল, স্পিকারের বিবরণ, ইত্যাদি)

আমাদের কল সেন্টার ডেটা প্রকল্পের জন্য Shaip-এর সাথে অংশীদারিত্ব আমাদের AI সমাধানগুলিকে এগিয়ে নেওয়ার ক্ষেত্রে একটি গুরুত্বপূর্ণ মুহূর্ত। তাদের দল দক্ষতার সাথে চারটি ইংরেজি উপভাষা - US, UK, অস্ট্রেলিয়ান এবং ভারতীয় - সর্বোচ্চ গুণমান এবং নির্ভুলতা নিশ্চিত করে 250 ঘন্টার অডিও ডেটা সংগ্রহ করেছে এবং টীকা করেছে৷ এই অঞ্চল জুড়ে ভাষাগত সূক্ষ্মতার প্রতি মনোযোগ আমাদের বক্তৃতা শনাক্তকরণ মডেলগুলির যথার্থতাকে উল্লেখযোগ্যভাবে উন্নত করেছে। উপরন্তু, জটিল ডেটা টীকা প্রকল্পগুলি পরিচালনা করার ক্ষেত্রে Shaip-এর দক্ষতা, স্কেলে নির্ভরযোগ্য, কমপ্লায়েন্ট মডেল তৈরি করতে আমাদের সাহায্য করার জন্য সহায়ক হয়েছে।

গোল্ডেন-৫-স্টার