হাতের লেখা ডেটাসেট

আপনার ML মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য 15টি সেরা ওপেন-সোর্স হস্তাক্ষর ডেটাসেট৷

ব্যবসায়িক বিশ্ব একটি অভূতপূর্ব গতিতে রূপান্তরিত হচ্ছে, তবুও এই ডিজিটাল রূপান্তরটি প্রায় ততটা বিস্তৃত নয় যতটা আমরা চাই। বড় কর্পোরেশন থেকে শুরু করে ছোট-বড় ব্যবসার জন্য লোকেরা এখনও তাদের দৈনন্দিন ক্রিয়াকলাপে শারীরিক নথিগুলি পরিচালনা করছে। যদিও ব্যবহারের ফ্রিকোয়েন্সি উল্লেখযোগ্যভাবে হ্রাস পেয়েছে, এটি সম্পূর্ণরূপে দূর করা হয়নি। ডিজিটাল ব্যবহারের জন্য নথি স্ক্যান করার সময়সাপেক্ষ প্রক্রিয়ার পরিবর্তে সর্বশেষ ব্যবহার করে OCR করুন সময় সাশ্রয়ী এবং কার্যকর।

অপটিক্যাল অক্ষর স্বীকৃতি ব্যবহারের বৃদ্ধি প্রাথমিকভাবে স্বয়ংক্রিয় স্বীকৃতি সিস্টেমের উত্পাদন বৃদ্ধির জন্য দায়ী করা যেতে পারে। ফলস্বরূপ, ওসিআর প্রযুক্তির বৈশ্বিক বাজার মূল্য, এ পেগ করা হয়েছে 8.93 বিলিয়ন $ 2021 সালে, 15.4 এবং 2022 এর মধ্যে 2030% CAGR-এ বৃদ্ধির পূর্বাভাস দেওয়া হয়েছে।

কিন্তু ওসিআর প্রযুক্তি আসলে কী? এবং কেন এটি দক্ষ এআই মডেলগুলি বিকাশকারী ব্যবসাগুলির জন্য একটি গেম পরিবর্তনকারী? খুঁজে বের কর.

OCR কি?

বিকল্পভাবে পাঠ্য স্বীকৃতি হিসাবে উল্লেখ করা হয়, OCR বা অপটিক্যাল ক্যারেক্টার রিকগনিশন একটি প্রোগ্রাম যা স্ক্যান করা নথি, শুধুমাত্র চিত্র-পিডিএফ, এবং হাতে লেখা নোটগুলি থেকে একটি মেশিন-পাঠযোগ্য বিন্যাসে মুদ্রিত বা লিখিত ডেটা বের করে। সফ্টওয়্যারটি চিত্র থেকে প্রতিটি অক্ষর বের করে এবং সেগুলিকে শব্দ এবং বাক্যে একত্রিত করে, এইভাবে ডকুমেন্টগুলিকে ডিজিটালভাবে অ্যাক্সেস এবং সম্পাদনা করা সহজ করে তোলে।

ওপেন সোর্স ডেটাসেট কি?

এমন বেশ কিছু জায়গা আছে যেখানে ওসিআর প্রযুক্তির ব্যাপক সম্ভাবনা রয়েছে। কিছু জায়গায় বিমানবন্দর, ইবুক প্রকাশনা, বিজ্ঞাপন, ব্যাঙ্ক এবং সাপ্লাই চেইন সিস্টেম অন্তর্ভুক্ত। যাইহোক, অ্যাপ্লিকেশনগুলিকে তাদের উদ্দেশ্য পূরণ করার জন্য, তাদের প্রকল্প-নির্দিষ্ট বিষয়ে প্রশিক্ষণ দেওয়া দরকার অপটিক্যাল ক্যারেক্টার রিকগনিশন ডেটাসেট.

অ্যাপ্লিকেশনটির কার্যকারিতা মূলত ডেটাসেটের গুণমান এবং জড়িত প্রশিক্ষণ পদ্ধতির উপর নির্ভর করে। যাইহোক, গুণমান ডিজিটাল এবং খুঁজে হাতের লেখা ডেটাসেট আবেদনের জন্য কঠিন। তাই, অনেক কোম্পানি মালিকানার পরিবর্তে ওপেন সোর্স বা ফ্রি-টু-ইউজ ডেটাসেট ব্যবহার করে।

ওপেন-সোর্স ডেটাসেটের সুবিধা এবং চ্যালেঞ্জ

ব্যবসায়িকদের তাদের এমএল অ্যাপ্লিকেশানগুলির জন্য বিনামূল্যে-টু-ব্যবহারের ডেটা বেছে নিতে হবে কিনা তা বোঝার জন্য একে অপরের বিরুদ্ধে বেনিফিট এবং চ্যালেঞ্জগুলিকে পিট করতে হবে।

উপকারিতা

  • ডেটা সহজেই অ্যাক্সেস করা যায়। ডেটা উপলব্ধতার কারণে, অ্যাপ্লিকেশনটি বিকাশের খরচ উল্লেখযোগ্যভাবে হ্রাস পেয়েছে।
  • ডেটাসেট সহজে উপলব্ধ হওয়ায় অ্যাপ্লিকেশনের জন্য ডেটা সংগ্রহ করার সময় এবং প্রচেষ্টা উল্লেখযোগ্যভাবে হ্রাস পেয়েছে।
  • প্রচুর কমিউনিটি ফোরাম বা সহায়তা গোষ্ঠী রয়েছে যা ডেটাসেট শিখতে, মানিয়ে নিতে এবং অপ্টিমাইজ করতে সাহায্য করে।
  • ওপেন-সোর্স ডেটাসেটের একটি প্রধান সুবিধা হল এটি কাস্টমাইজেশনের উপর কোন সীমাবদ্ধতা রাখে না।
  •   ওপেন-সোর্স ডেটা জনসংখ্যার একটি বড় অংশের কাছে অ্যাক্সেসযোগ্য, আর্থিক বাধা ছাড়াই বিশ্লেষণ এবং উদ্ভাবন সম্ভব করে তোলে।

চ্যালেঞ্জ

  • প্রকল্পের নির্দিষ্ট ডেটা অর্জন করা কঠিন। উপরন্তু, তথ্য অনুপস্থিত এবং উপলব্ধ ডেটার ভুল ব্যবহারের সম্ভাবনা রয়েছে।
  • মালিকানা তথ্য অর্জন করতে সময় লাগে, এবং প্রচেষ্টা এবং ব্যয়বহুল
  • যদিও ডেটা অর্জন করা সহজ হতে পারে, জ্ঞান এবং বিশ্লেষণের খরচ প্রাথমিক সুবিধার চেয়ে বেশি হতে পারে।
  • অন্যান্য বিকাশকারীরাও অ্যাপ্লিকেশনগুলি বিকাশ করতে একই ডেটা ব্যবহার করে।
  • এই ডেটাসেটগুলি নিরাপত্তা লঙ্ঘন, গোপনীয়তা এবং সম্মতির জন্য অত্যন্ত ঝুঁকিপূর্ণ।

মেশিন লার্নিংয়ের জন্য 15 সেরা হস্তাক্ষর এবং OCR ডেটাসেট

Open-source ocr datasets

অনেক ওপেন সোর্স ডেটাসেট টেক্সট রিকগনিশন অ্যাপ্লিকেশন ডেভেলপমেন্টের জন্য উপলব্ধ। সেরা 15 এর মধ্যে কিছু আছে

  1. ICDAR ডেটাসেট

    ডকুমেন্ট বিশ্লেষণ এবং স্বীকৃতির জন্য আন্তর্জাতিক সম্মেলনে 229টি প্রশিক্ষণ এবং 233টি পরীক্ষার চিত্রের ভান্ডার রয়েছে, সাথে টীকাও রয়েছে৷ এটি পাঠ্য সনাক্তকরণ মূল্যায়নের জন্য একটি বেঞ্চমার্ক হিসাবে কাজ করে।

  2. IIIT 5K-ওয়ার্ড ডেটাসেট

    Google ইমেজ অনুসন্ধান থেকে নেওয়া, IIIT 5K-শব্দ হল সাইনবোর্ড, বিলবোর্ড, নম্বর প্লেট এবং পোস্টার থেকে শব্দের একটি সংগ্রহ। এটিতে 5K ক্রপ করা শব্দ চিত্র রয়েছে যা এটিকে উপলব্ধ পাঠ্য শনাক্তকরণ ডেটাসেটের সবচেয়ে বিস্তৃত সংগ্রহগুলির মধ্যে একটি করে তোলে।

  3. NIST ডাটাবেস

    এনআইএসটি বা ন্যাশনাল ইনস্টিটিউট অফ সায়েন্স 3600 টিরও বেশি অক্ষর চিত্র সহ 810,000 টিরও বেশি হস্তাক্ষর নমুনার একটি বিনামূল্যে-ব্যবহারের সংগ্রহ অফার করে

  4. MNIST ডাটাবেস

    NSIT-এর বিশেষ ডেটাবেস 1 এবং 3 থেকে প্রাপ্ত, MNIST ডাটাবেস হল প্রশিক্ষণ সেটের জন্য 60,000 হাতে লেখা নম্বর এবং পরীক্ষার সেটের জন্য 10,000 উদাহরণের একটি সংকলিত সংগ্রহ। এই ওপেন-সোর্স ডাটাবেস প্রি-প্রসেসিংয়ে কম সময় ব্যয় করার সময় মডেলগুলিকে প্যাটার্ন চিনতে প্রশিক্ষণ দেয়।

  5. পাঠ্য সনাক্তকরণ

    একটি ওপেন সোর্স ডাটাবেস, টেক্সট ডিটেকশন ডেটাসেটে সাইনবোর্ড, দরজার প্লেট, সতর্কতা প্লেট এবং আরও অনেক কিছুর প্রায় 500টি অভ্যন্তরীণ এবং বহিরঙ্গন চিত্র রয়েছে।

  6. স্ট্যানফোর্ড ওসিআর

    স্ট্যানফোর্ড দ্বারা প্রকাশিত, এই বিনামূল্যে ব্যবহারযোগ্য ডেটাসেটটি এমআইটি স্পোকেন ল্যাঙ্গুয়েজ সিস্টেম গ্রুপের হাতে লেখা একটি শব্দ সংগ্রহ।

  7. DDI-100

    অন্যথায় বিকৃত ডকুমেন্ট ইমেজ ডেটাসেট বলা হয়, DDI-100 হল 6658 পৃষ্ঠার বেশি নথির একটি সংগ্রহ যেখানে বিভিন্ন জ্যামিতিক প্যাটার্ন এবং বিকৃতি প্রয়োগ করা হয়েছে। এছাড়াও, DDI-100-এ 99870টিরও বেশি ছবি, স্ট্যাম্প মাস্ক, টেক্সট মাস্ক এবং বাউন্ডিং বক্স রয়েছে।

  8. RoadText-1K

    ভিডিওতে টেক্সট শনাক্ত করতে ট্রেন মডেলদের সাহায্য করে এমন বৃহত্তম ডেটাসেটগুলির মধ্যে একটি, RoadText-1K-এ 1000টি ভিডিও ক্লিপ রয়েছে যা বাউন্ডিং বক্স টেক্সট টীকা এবং প্রতিটি ভিডিও ফ্রেমে পাঠ্যের প্রতিলিপি সহ সম্পূর্ণ।

  9. MSRA-TD500

    300টি প্রশিক্ষণ এবং 200টি পাঠ্য চিত্র রয়েছে; MSRA-TD500-এ চীনা এবং ইংরেজি ভাষার অক্ষর রয়েছে এবং বাক্য স্তরে টীকা করা হয়েছে।

  10. MJSynth ডেটাসেট

    অক্সফোর্ড ইউনিভার্সিটি দ্বারা প্রদত্ত, এই শব্দ ডেটাসেটে প্রায় 9 মিলিয়ন কৃত্রিমভাবে তৈরি করা ছবি রয়েছে যা 90 হাজারেরও বেশি ইংরেজি ভাষার শব্দ কভার করে।

  11. রাস্তার দৃশ্য পাঠ্য

    Google রাস্তার দৃশ্যের ছবি থেকে সংগ্রহ করা, এই ডেটাসেটে প্রধানত বোর্ড এবং রাস্তার স্তরের চিহ্নগুলির পাঠ্য সনাক্তকরণ চিত্র রয়েছে৷

  12. ডকুমেন্ট ডাটাবেস

    ডকুমেন্ট ডাটাবেস হল 941 জন লেখকের সারণী, সূত্র, অঙ্কন, ডায়াগ্রাম, তালিকা এবং আরও অনেক কিছু সহ 189টি হাতে লেখা নথির একটি সংগ্রহ।

  13. গণিত এক্সপ্রেশন

    ম্যাথমেটিক্স এক্সপ্রেশন একটি ডাটাবেস যাতে 101টি গাণিতিক চিহ্ন এবং 10,000টি এক্সপ্রেশন থাকে।

  14. রাস্তার দৃশ্য বাড়ির নম্বর

    Google স্ট্রিট ভিউ থেকে সংগ্রহ করা, এই রাস্তার দৃশ্য বাড়ির নম্বরগুলি হল একটি ডাটাবেস যেখানে 73257টি রাস্তার বাড়ির নম্বর সংখ্যা রয়েছে৷

  15. প্রাকৃতিক পরিবেশ ওসিআর

    প্রাকৃতিক পরিবেশ ওসিআর, বিশ্বব্যাপী প্রায় 660টি চিত্র এবং 5238টি পাঠ্য টীকাগুলির একটি ডেটাসেট।

টেক্সট সনাক্তকরণ অ্যাপ্লিকেশনের জন্য এমএল মডেল প্রশিক্ষণের জন্য এগুলি ছিল কিছু শীর্ষস্থানীয় ওপেন-সোর্স ডেটাসেট। আপনার ব্যবসা এবং আবেদনের প্রয়োজনের সাথে সামঞ্জস্যপূর্ণ একটি নির্বাচন করতে সময় এবং প্রচেষ্টা লাগতে পারে। যাইহোক, উপযুক্ত একটি সম্পর্কে সিদ্ধান্ত নেওয়ার আগে আপনাকে অবশ্যই এই ডেটাসেটগুলির সাথে পরীক্ষা করতে হবে।

আপনাকে একটি নির্ভরযোগ্য এবং দক্ষ পাঠ্য সনাক্তকরণ অ্যাপ্লিকেশনের দিকে অগ্রসর হতে সাহায্য করার জন্য হল Shaip - উচ্চ-র্যাঙ্কিং প্রযুক্তি সমাধান প্রদানকারী। কাস্টমাইজেবল, অপ্টিমাইজ করা এবং তৈরি করতে আমরা আমাদের প্রযুক্তিগত অভিজ্ঞতার ব্যবহার করি দক্ষ ওসিআর প্রশিক্ষণ ডেটাসেট বিভিন্ন ক্লায়েন্ট প্রকল্পের জন্য। আমাদের ক্ষমতা সম্পূর্ণরূপে বুঝতে, আজ আমাদের সাথে যোগাযোগ করুন.

সামাজিক ভাগ