আরবি এবং থাই এবং ভিয়েতনামী এবং হিন্দি এবং ইংরেজি এবং চীনা ভাষার ডেটাসেট

ব্যবহারের ক্ষেত্রে: OCR করুন
বিন্যাস: ভাবমূর্তি
গণনা: 150k
টীকা: হাঁ
বর্ণনা: আরবি এবং থাই এবং ভিয়েতনামী এবং হিন্দি এবং ইংরেজি এবং চীনা ভাষার ডেটাসেট
আরবি পাঠ্য ডেটাসেট

ব্যবহারের ক্ষেত্রে: OCR করুন
বিন্যাস: ভাবমূর্তি
গণনা: 1k
টীকা: হাঁ
বর্ণনা: আরবি টেক্সট ডেটাসেটে আরবি ভাষায় লেখা টেক্সট নমুনার সংগ্রহ রয়েছে। এতে বিভিন্ন ধরনের বিষয়বস্তু রয়েছে, যেমন সংবাদ নিবন্ধ, সোশ্যাল মিডিয়া পোস্ট, সাহিত্য এবং সংলাপ, বিভিন্ন বিষয় এবং লেখার শৈলী বিস্তৃত। এই ডেটাসেটটি ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP), টেক্সট ক্লাসিফিকেশন, সেন্টিমেন্ট অ্যানালাইসিস এবং আরবি ভাষার অ্যাপ্লিকেশনে মেশিন অনুবাদের মতো কাজে ব্যবহার করা হয়।
চীনা এবং ইংরেজি এবং তিব্বতি এবং উইঘুর ভাষার ডেটাসেট

ব্যবহারের ক্ষেত্রে: OCR করুন
বিন্যাস: ভাবমূর্তি
গণনা: 38k
টীকা: হাঁ
বর্ণনা: চীনা এবং ইংরেজি এবং তিব্বতি এবং উইঘুর ভাষার ডেটাসেট
চীনা এবং ইংরেজি মেনু ডেটাসেট

ব্যবহারের ক্ষেত্রে: OCR করুন
বিন্যাস: ভাবমূর্তি
গণনা: 60k
টীকা: হাঁ
বর্ণনা: চীনা এবং ইংরেজি মেনু ডেটাসেটে রেস্তোরাঁর মেনুগুলির চিত্র বা পাঠ্য নমুনা রয়েছে যা চীনা এবং ইংরেজি উভয় ভাষাই বৈশিষ্ট্যযুক্ত। এটিতে বিভিন্ন ফন্ট, লেআউট এবং মেনু স্ট্রাকচার রয়েছে, দ্বিভাষিক খাবারের নাম, বর্ণনা এবং দাম উপস্থাপন করে। এই ডেটাসেটটি বহুভাষিক সেটিংসে অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR), মেশিন অনুবাদ এবং মেনু ডিজিটাইজেশনের মতো কাজের জন্য উপযোগী।
চীনা হাতে লেখা রচনা ডেটাসেট

ব্যবহারের ক্ষেত্রে: OCR করুন
বিন্যাস: ভাবমূর্তি
গণনা: 3k
টীকা: হাঁ
বর্ণনা: চীনা হস্তলিখিত রচনা ডেটাসেটে রচনা, প্রবন্ধ এবং অন্যান্য দীর্ঘ-ফর্মের পাঠ্য সহ হাতে লেখা চীনা পাঠ্যের নমুনা রয়েছে। এটিতে বিভিন্ন হস্তাক্ষর শৈলী এবং জটিলতার স্তর রয়েছে এবং এটি হস্তাক্ষর স্বীকৃতি, পাঠ্য বিশ্লেষণ এবং মেশিন লার্নিং মডেল প্রশিক্ষণের মতো কাজের জন্য ব্যবহৃত হয়।
চাইনিজ ওয়াইফাই প্রম্পট ডেটাসেট

ব্যবহারের ক্ষেত্রে: OCR করুন
বিন্যাস: ভাবমূর্তি
গণনা: 1k
টীকা: হাঁ
বর্ণনা: চাইনিজ ওয়াইফাই প্রম্পট ডেটাসেটে WIFI প্রম্পটে পাওয়া টেক্সট নমুনা এবং চীনা ভাষায় লেখা লগইন স্ক্রীন রয়েছে। এতে সাধারণত বিভিন্ন প্রম্পট, নির্দেশাবলী এবং WIFI নেটওয়ার্কের সাথে সংযোগ বা পরিচালনা সংক্রান্ত ত্রুটির বার্তা অন্তর্ভুক্ত থাকে। এই ডেটাসেটটি টেক্সট শনাক্তকরণ, প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং নেটওয়ার্ক সংযোগের জন্য ব্যবহারকারী ইন্টারফেস উন্নত করার মতো কাজের জন্য ব্যবহৃত হয়।
ইংরেজি এবং চীনা হস্তাক্ষর ডেটাসেট

ব্যবহারের ক্ষেত্রে: OCR করুন
বিন্যাস: ভাবমূর্তি
গণনা: 12k
টীকা: হাঁ
বর্ণনা: ইংরেজি এবং চাইনিজ হস্তাক্ষর ডেটাসেটে ইংরেজি এবং চীনা উভয় ভাষায় হস্তলিখিত নমুনা রয়েছে, বিভিন্ন লেখার শৈলী এবং চরিত্রের জটিলতা দেখায়। এটি সাধারণত প্রশিক্ষণ এবং হস্তাক্ষর স্বীকৃতি মডেলের মূল্যায়ন, বহুভাষিক পাঠ্য বিশ্লেষণ সমর্থন করে এবং অন্যান্য সম্পর্কিত গবেষণার জন্য ব্যবহৃত হয়। ডেটাসেটে উভয় ভাষায় অক্ষর, অঙ্ক, শব্দ এবং বাক্যগুলির একটি বিচিত্র পরিসর রয়েছে।
ইংরেজি এবং চীনা শপসাইন ডেটাসেট

ব্যবহারের ক্ষেত্রে: OCR করুন
বিন্যাস: ভাবমূর্তি
গণনা: 30k
টীকা: হাঁ
বর্ণনা: ইংরেজি এবং চাইনিজ শপসাইন ডেটাসেটে দোকানের চিহ্নগুলির ছবি অন্তর্ভুক্ত রয়েছে যেগুলিতে ইংরেজি এবং চীনা উভয় পাঠ্য রয়েছে৷ এটি বিভিন্ন হরফ, শৈলী এবং বিন্যাসে প্রদর্শিত দোকানের নাম, বিজ্ঞাপন, প্রচার এবং দিকনির্দেশের মতো বিভিন্ন সাইনেজ উপাদান ক্যাপচার করে। এই ডেটাসেটটি পাঠ্য সনাক্তকরণ এবং স্বীকৃতি, বহুভাষিক দৃশ্য বোঝার এবং দ্বিভাষিক সংকেত ব্যাখ্যা করার জন্য কম্পিউটার দৃষ্টি মডেল উন্নত করার মতো কাজের জন্য ব্যবহৃত হয়।
ইংরেজি এবং চীনা বিশেষ কোণ পাঠ্য ডেটাসেট

ব্যবহারের ক্ষেত্রে: OCR করুন
বিন্যাস: ভাবমূর্তি
গণনা: 50k
টীকা: হাঁ
বর্ণনা: ইংরেজি এবং চীনা বিশেষ কোণ পাঠ্য ডেটাসেটে ইংরেজি এবং চীনা উভয় ভাষায় বিভিন্ন কোণ এবং অভিযোজনে প্রদর্শিত পাঠ্যের চিত্র রয়েছে। এতে চিহ্ন, বিজ্ঞাপন এবং নথির মতো উৎস থেকে পাঠ্য অন্তর্ভুক্ত থাকে যা মানক অনুভূমিক বিন্যাসে উপস্থাপিত হয় না। এই ডেটাসেটটি পাঠ্য সনাক্তকরণ এবং স্বীকৃতি মডেলের প্রশিক্ষণ এবং মূল্যায়নের জন্য ব্যবহার করা হয়, বিশেষ করে যারা অপ্রচলিত অভিযোজন এবং দৃষ্টিভঙ্গিতে পাঠ্য পরিচালনা করতে সক্ষম।
ইংরেজি মেনু ডেটাসেট

ব্যবহারের ক্ষেত্রে: OCR করুন
বিন্যাস: ভাবমূর্তি
গণনা: 20k
টীকা: হাঁ
বর্ণনা: ইংরেজি মেনু ডেটাসেটে ইংরেজিতে লেখা রেস্তোরাঁর মেনুগুলির ছবি বা পাঠ্য নমুনা অন্তর্ভুক্ত রয়েছে। এটিতে বিভিন্ন ধরনের ফন্ট, লেআউট এবং বিন্যাস শৈলী রয়েছে, যার মধ্যে খাবারের নাম থেকে বর্ণনা এবং দামের বিষয়বস্তু রয়েছে। এই ডেটাসেটটি প্রায়শই খাদ্য-সম্পর্কিত অ্যাপ্লিকেশনগুলিতে অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR), পাঠ্য নিষ্কাশন এবং মেনু ডিজিটাইজেশনের মতো কাজের জন্য ব্যবহৃত হয়।
ইংরেজি দৃশ্য পাঠ্য ডেটাসেট

ব্যবহারের ক্ষেত্রে: OCR করুন
বিন্যাস: ভাবমূর্তি
গণনা: 33k
টীকা: হাঁ
বর্ণনা: ইংলিশ সিনেস টেক্সট ডেটাসেটে এমবেডেড ইংরেজি টেক্সট সহ প্রাকৃতিক দৃশ্যের ছবি রয়েছে। পাঠ্যটি বিভিন্ন আকারে প্রদর্শিত হয়, যেমন চিহ্ন, বিলবোর্ড এবং পোস্টার, প্রায়শই বিভিন্ন ফন্ট, আকার এবং অভিযোজনে। এই ডেটাসেটটি সাধারণত পাঠ্য সনাক্তকরণ, স্বীকৃতি এবং দৃশ্য বোঝার কাজগুলিতে প্রশিক্ষণ এবং পরীক্ষার মডেলগুলির জন্য ব্যবহৃত হয়।
হাতে লেখা পাঠ্য ডেটাসেট

ব্যবহারের ক্ষেত্রে: নথি এআই
বিন্যাস: HEIC (ছবি) এবং .mov (ভিডিও)
গণনা: 94053
টীকা: না
বর্ণনা: জাপানি, কোরিয়ান এবং রাশিয়ানদের জন্য হাতে লেখা পাঠ্য সহ লাইভ ফটো
রেকর্ড করার যন্ত্র: আইফোন এবং আইপ্যাড ক্যামেরা
রেকর্ডিং শর্ত: - আক্রমনাত্মক আলো/একদৃষ্টি - ক্যামেরা ফ্ল্যাশ অন - রঙিন আলো - কম আলো, কোনও ক্যামেরা ফ্ল্যাশ নেই - সাধারণ
জাপানি এবং কোরিয়ান ভাষার ডেটাসেট

ব্যবহারের ক্ষেত্রে: OCR করুন
বিন্যাস: ভাবমূর্তি
গণনা: 40k
টীকা: হাঁ
বর্ণনা: জাপানি এবং কোরিয়ান ভাষার ডেটাসেটে জাপানি এবং কোরিয়ান উভয় ভাষায় পাঠ্য নমুনা অন্তর্ভুক্ত রয়েছে। এতে বাক্য, বাক্যাংশ এবং শব্দের মতো বিষয়বস্তুর একটি পরিসর রয়েছে, যা বিভিন্ন প্রসঙ্গ এবং শৈলীকে অন্তর্ভুক্ত করে। এই ডেটাসেটটি ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP), মেশিন ট্রান্সলেশন এবং বহুভাষিক অ্যাপ্লিকেশনে টেক্সট বিশ্লেষণের মতো কাজে ব্যবহার করা হয়।
প্রিন্টেড রেগুলার/ কার্সিভ টেক্সট ডেটাসেট (ডকুমেন্ট এআই)

ব্যবহারের ক্ষেত্রে: নথি এআই
বিন্যাস: HEIC (ছবি) এবং .mov (ভিডিও)
গণনা: 23930
টীকা: না
বর্ণনা: জাপানি, কোরিয়ান এবং রাশিয়ানদের জন্য হাতে লেখা পাঠ্য সহ লাইভ ফটো
রেকর্ড করার যন্ত্র: আইফোন এবং আইপ্যাড ক্যামেরা
রেকর্ডিং শর্ত: - আক্রমনাত্মক আলো/একদৃষ্টি - ক্যামেরা ফ্ল্যাশ অন - রঙিন আলো - কম আলো, কোনও ক্যামেরা ফ্ল্যাশ নেই - সাধারণ
টেক্সট + অডিও-ভিজ্যুয়াল (বহুভাষিক/ওসিআর/এনএলপি) – বই, জার্নাল, অডিও+টেক্সট

ব্যবহারের ক্ষেত্রে: টেক্সট + অডিও-ভিজ্যুয়াল (বহুভাষিক / ওসিআর / এনএলপি)
বিন্যাস: Videos
গণনা: ১ লক্ষ+ লেকচার ভিডিও + পিপিটি লং ফরম্যাট ভিডিও
টীকা: না
বর্ণনা: চীনা বই, ইংরেজি বই, জার্নাল, পাবলিক পলিসি, উপন্যাস, শিশু, ক্যান্টোনিজ অডিও+টেক্সট, লেকচার ভিডিও+পিপিটি, দীর্ঘ-ফরম্যাট ভিডিও অর্ধ বিলিয়ন বই, প্রশ্নের উত্তর জোড়া, নিবন্ধ