প্রজেক্ট ভানি

ভারতের জন্য অন্তর্ভুক্তিমূলক কৃত্রিম বুদ্ধিমত্তা তৈরি: প্রকল্প বাণীতে শাইপের ভূমিকা

ভারতের মতো সাংস্কৃতিকভাবে বৈচিত্র্যময় এবং ভাষাগতভাবে সমৃদ্ধ দেশে, অন্তর্ভুক্তিমূলক কৃত্রিম বুদ্ধিমত্তা তৈরির কাজ শুরু হয় প্রতিনিধিত্বমূলক, উচ্চমানের ডেটাসেট সংগ্রহের মাধ্যমে। এটাই হলো এর পেছনের দৃষ্টিভঙ্গি। প্রজেক্ট ভানি—একটি বৃহৎ পরিসরের, ওপেন-সোর্স উদ্যোগ যার নেতৃত্বে ARTPARK সম্পর্কে, আইআইএসসি বেঙ্গালুরু, এবং গুগল, প্রতিটি ভারতীয় ভাষা এবং উপভাষাকে কণ্ঠস্বর দেওয়ার লক্ষ্যে।

উচ্চাভিলাষী লক্ষ্য? সংগ্রহ করা ১৫০,০০০+ ঘন্টার বক্তৃতা এবং ১৫,০০০+ ঘন্টার ট্রান্সক্রিপশন থেকে 1 মিলিয়ন মানুষ দিয়ে 773 জেলা ভারতের

এই জাতীয় মিশনের অন্যতম প্রধান বিক্রেতা হিসেবে, শিপ স্বতঃস্ফূর্ত বক্তৃতা তথ্য, প্রতিলিপি এবং মেটাডেটা সংগ্রহের ক্ষেত্রে গুরুত্বপূর্ণ ভূমিকা পালন করেছে - প্রকৃত ভারতের প্রতিনিধিত্বকারী ন্যায়সঙ্গত ভয়েস প্রযুক্তির ভিত্তি স্থাপন করেছে।

দ্য ভিশন বিহাইন্ড প্রজেক্ট বাণী

প্রজেক্ট ভানি তৈরি করে AI অন্তর্ভুক্তির ব্যবধান পূরণ করার জন্য ডিজাইন করা হয়েছে বৃহত্তম মাল্টিমোডাল, বহুভাষিক, ওপেন-সোর্স ডেটাসেট ভারতে। এই তথ্য স্থানীয় ভারতীয় ভাষাগুলিতে সঠিক বক্তৃতা স্বীকৃতি, অনুবাদ এবং জেনারেটিভ এআই সিস্টেম বিকাশের জন্য ভিত্তিস্বরূপ—যার অনেকগুলি বিশ্বব্যাপী প্রযুক্তিগত বাস্তুতন্ত্রে কম প্রতিনিধিত্ব করে।

দীর্ঘমেয়াদী দৃষ্টিভঙ্গি হল নিম্নলিখিত ক্ষেত্রে প্রভাবশালী প্রয়োগগুলিকে শক্তিশালী করা:

প্রজেক্ট ভানিতে সাইপের ভূমিকা

শাইপকে সংগ্রহের দায়িত্ব দেওয়া হয়েছিল ৮,০০০ ঘন্টার স্বতঃস্ফূর্ত বক্তৃতা এবং ৮০০ ঘন্টা ম্যানুয়ালি যাচাইকৃত ট্রান্সক্রিপশনআমাদের দায়িত্ব ছিল স্পিকার অনবোর্ডিং, অডিও ক্যাপচার, মেটাডেটা ট্যাগিং, ট্রান্সক্রিপশন সমন্বয় এবং মান নিয়ন্ত্রণ।

8,000 ঘণ্টা স্বতঃস্ফূর্ত অডিও ডেটার

800 ঘণ্টা উচ্চমানের ম্যানুয়াল ট্রান্সক্রিপশনের

রেকর্ডিং থেকে প্রতি জেলায় ৪০০+ স্থানীয় ভাষাভাষী, বিভিন্ন বয়সের গোষ্ঠী, লিঙ্গ এবং উপভাষার প্রতিনিধিত্ব করে

৮০টি জেলা, আবৃত

নিশ্চিত করার জন্য চিত্র-ভিত্তিক প্রম্পটিং স্বাভাবিক, প্রাসঙ্গিক বক্তৃতা

আমাদের পদ্ধতিকে অনন্য করে তুলেছে এখানে:

জেলা-স্তরের বৈচিত্র্য

জেলা-স্তরের বৈচিত্র্য

আমরা বিহার, উত্তরপ্রদেশ, কর্ণাটক, পশ্চিমবঙ্গ এবং মহারাষ্ট্রের মতো রাজ্যের ৮০টি জেলা থেকে রেকর্ডিং সংগ্রহ করেছি। প্রতিটি জেলা ১০০ ঘন্টা অডিও ডেটা প্রদান করেছে, যা আঞ্চলিক ভারসাম্য নিশ্চিত করেছে। আমরা স্থানীয় ভাষাভাষীদের সাথে কাজ করেছি, মূলধারার AI ডেটাসেটে প্রায়শই উপেক্ষিত আঞ্চলিক উচ্চারণ এবং উপভাষাগুলির প্রতিনিধিত্ব নিশ্চিত করেছি।

ভাষাগত ও জনসংখ্যাতাত্ত্বিক প্রতিনিধিত্ব

ভাষাগত ও জনসংখ্যাতাত্ত্বিক প্রতিনিধিত্ব

আমরা বিহার, উত্তরপ্রদেশ, কর্ণাটক, পশ্চিমবঙ্গ এবং মহারাষ্ট্রের মতো রাজ্যের ৮০টি জেলা থেকে রেকর্ডিং সংগ্রহ করেছি। প্রতিটি জেলা ১০০ ঘন্টা অডিও ডেটা প্রদান করেছে, যা আঞ্চলিক ভারসাম্য নিশ্চিত করেছে। আমরা স্থানীয় ভাষাভাষীদের সাথে কাজ করেছি, মূলধারার AI ডেটাসেটে প্রায়শই উপেক্ষিত আঞ্চলিক উচ্চারণ এবং উপভাষাগুলির প্রতিনিধিত্ব নিশ্চিত করেছি।

চিত্র-প্রম্পটেড স্পিচ

স্বতঃস্ফূর্ত এবং প্রাকৃতিক শব্দভাণ্ডারকে উদ্দীপিত করার জন্য, অংশগ্রহণকারীদের প্রতি সেশনে ৪৫-৯০টি ছবি দেখানো হয়েছিল এবং সেগুলি বর্ণনা করতে বলা হয়েছিল। অংশগ্রহণকারীদের তাদের মাতৃভাষায় প্রাকৃতিক, স্বতঃস্ফূর্ত প্রতিক্রিয়া প্রকাশের জন্য সাংস্কৃতিক প্রতীক থেকে শুরু করে দৈনন্দিন জিনিসপত্র পর্যন্ত বিভিন্ন ছবি ব্যবহার করতে বলা হয়েছিল। এর ফলে রেকর্ডিংগুলিতে বাস্তব-বিশ্বের, প্রাসঙ্গিক বক্তৃতা প্রতিফলিত হয় - যা উন্নত NLP সিস্টেম প্রশিক্ষণের জন্য অপরিহার্য।

উচ্চমানের ট্রান্সক্রিপশন মান

উচ্চমানের ট্রান্সক্রিপশন মানদণ্ড

মাত্র ১০% বক্তৃতা তথ্য প্রতিলিপি করা হয়েছিল—যার পরিমাণ ছিল ৮০০ ঘন্টা। স্থানীয় ভাষাবিদরা বক্তার ২০-৫০ কিলোমিটার ব্যাসার্ধের মধ্যে প্রতিলিপি সম্পাদন করেছিলেন, যা উপভাষা এবং সূক্ষ্মতার সাথে পরিচিতি নিশ্চিত করেছিল। একটি দ্বিতীয় স্তরের পরীক্ষা <10% শব্দ ত্রুটির হার (WER) নিশ্চিত করেছিল।

কঠোর মানের নিশ্চয়তা

অডিও ডেটাকে উচ্চ মাত্রায় পৌঁছাতে হয়েছিল: কোনও ব্যাকগ্রাউন্ডের শব্দ, প্রতিধ্বনি, ফোনের কম্পন বা বিকৃতি ছিল না। অডিও রেকর্ড করা হয়েছিল শান্ত, প্রতিধ্বনিমুক্ত পরিবেশে। বক্তৃতা স্পষ্টতা, শব্দের মাত্রা, মেটাডেটা নির্ভুলতা এবং স্পিকার যাচাইকরণের নির্দেশিকা পূরণের জন্য ফাইলগুলি কঠোর পর্যালোচনা করা হয়েছিল। সমস্ত ফাইলে মেটাডেটা ট্যাগিং নির্ভুল হতে হয়েছিল এবং স্পিকার এবং অবস্থানের সারিবদ্ধতার জন্য সমস্ত রেকর্ডিং পরীক্ষা করা হয়েছিল।

আমরা যে চ্যালেঞ্জগুলি সমাধান করেছি

আমাদের সাফল্য এসেছে সূক্ষ্ম পরিকল্পনা, প্রযুক্তি-চালিত বৈধতা এবং প্রতিটি অঞ্চলের সাংস্কৃতিক সূক্ষ্মতা বোঝে এমন স্থানীয় দলগুলির সাথে অংশীদারিত্বের উপর।

প্রভাব এবং অ্যাপ্লিকেশন

শাইপের অবদান কেবল প্রজেক্ট ভানির অগ্রগতি ত্বরান্বিত করেনি বরং ভারতে অন্তর্ভুক্তিমূলক এআই-এর ভিত্তিও স্থাপন করেছে। কিউরেটেড স্পিচ ডেটাসেট ইতিমধ্যেই নিম্নলিখিতগুলির জন্য এআই মডেল তৈরি এবং সূক্ষ্ম-টিউন করার জন্য ব্যবহৃত হচ্ছে:

  • মাতৃভাষায় ব্যবহৃত ভয়েস অ্যাসিস্ট্যান্ট
  • আঞ্চলিক অনুবাদ ইঞ্জিন
  • দৃষ্টি প্রতিবন্ধীদের জন্য সহজলভ্য যোগাযোগের সরঞ্জাম
  • গ্রামীণ শিক্ষার্থীদের জন্য কৃত্রিম বুদ্ধিমত্তা-চালিত এডটেক প্ল্যাটফর্ম
  • গ্রামীণ টেলিমেডিসিন
  • কণ্ঠস্বর-ভিত্তিক নাগরিক পরিষেবা
  • রিয়েল-টাইম অনুবাদ এবং প্রতিলিপি

উপসংহার

প্রজেক্ট ভানি অন্তর্ভুক্তিমূলক, অ্যাক্সেসযোগ্য কৃত্রিম বুদ্ধিমত্তার দিকে একটি সাহসী পদক্ষেপ—এবং শাইপ একটি মৌলিক ভূমিকা পালন করার জন্য সম্মানিত। প্রজেক্ট ভানিতে শাইপের কাজ বৈচিত্র্য এবং প্রতিনিধিত্বের উপর ভিত্তি করে নীতিগত, অন্তর্ভুক্তিমূলক AI সিস্টেম গড়ে তোলার প্রতি আমাদের প্রতিশ্রুতি পুনর্ব্যক্ত করে। ৮,০০০ ঘন্টারও বেশি বক্তৃতা সংগ্রহ এবং ৮০০ ঘন্টা প্রতিলিপি সহ, আমরা ভারতের সবচেয়ে দূরদর্শী ডিজিটাল অন্তর্ভুক্তি প্রকল্পগুলির মধ্যে একটিতে ভূমিকা পালন করতে পেরে গর্বিত।

প্রজেক্ট বাণী ১,৫০,০০০+ ঘন্টারও বেশি ডেটা ব্যবহারের বৃহত্তর লক্ষ্য অর্জনের লক্ষ্যে এগিয়ে চলেছে, তাই আমরা কৃত্রিম বুদ্ধিমত্তা উদ্ভাবনের পরবর্তী সীমানাকে সমর্থন করার জন্য প্রস্তুত যা প্রতিটি ভারতীয়ের জন্য এবং তাদের জন্য কথা বলে।

বাস্তব জগৎ বোঝে এমন AI তৈরিতে আমাদের সাথে অংশীদার হতে চান? www.shaip.com

সামাজিক ভাগ