হাতের লেখা ডেটাসেট

22 সেরা ওপেন-সোর্স OCR এবং হস্তাক্ষর ডেটাসেট আপনার ML মডেলগুলিকে প্রশিক্ষণ দিতে

ব্যবসায়িক বিশ্ব একটি অভূতপূর্ব গতিতে রূপান্তরিত হচ্ছে, তবুও এই ডিজিটাল রূপান্তরটি প্রায় ততটা বিস্তৃত নয় যতটা আমরা চাই। বড় কর্পোরেশন থেকে শুরু করে ছোট-বড় ব্যবসার জন্য লোকেরা এখনও তাদের দৈনন্দিন ক্রিয়াকলাপে শারীরিক নথিগুলি পরিচালনা করছে। যদিও ব্যবহারের ফ্রিকোয়েন্সি উল্লেখযোগ্যভাবে হ্রাস পেয়েছে, এটি সম্পূর্ণরূপে দূর করা হয়নি। ডিজিটাল ব্যবহারের জন্য নথি স্ক্যান করার সময়সাপেক্ষ প্রক্রিয়ার পরিবর্তে সর্বশেষ ব্যবহার করে OCR করুন সময় সাশ্রয়ী এবং কার্যকর।

অপটিক্যাল অক্ষর স্বীকৃতি ব্যবহারের বৃদ্ধি প্রাথমিকভাবে স্বয়ংক্রিয় স্বীকৃতি সিস্টেমের উত্পাদন বৃদ্ধির জন্য দায়ী করা যেতে পারে। ফলস্বরূপ, ওসিআর প্রযুক্তির বৈশ্বিক বাজার মূল্য, এ পেগ করা হয়েছে 8.93 বিলিয়ন $ 2021 সালে, 15.4 এবং 2022 এর মধ্যে 2030% CAGR-এ বৃদ্ধির পূর্বাভাস দেওয়া হয়েছে।

কিন্তু ওসিআর প্রযুক্তি আসলে কী? এবং কেন এটি দক্ষ এআই মডেলগুলি বিকাশকারী ব্যবসাগুলির জন্য একটি গেম পরিবর্তনকারী? খুঁজে বের কর.

OCR কি?

বিকল্পভাবে পাঠ্য স্বীকৃতি হিসাবে উল্লেখ করা হয়, OCR বা অপটিক্যাল ক্যারেক্টার রিকগনিশন একটি প্রোগ্রাম যা স্ক্যান করা নথি, শুধুমাত্র চিত্র-পিডিএফ, এবং হাতে লেখা নোটগুলি থেকে একটি মেশিন-পাঠযোগ্য বিন্যাসে মুদ্রিত বা লিখিত ডেটা বের করে। সফ্টওয়্যারটি চিত্র থেকে প্রতিটি অক্ষর বের করে এবং সেগুলিকে শব্দ এবং বাক্যে একত্রিত করে, এইভাবে ডকুমেন্টগুলিকে ডিজিটালভাবে অ্যাক্সেস এবং সম্পাদনা করা সহজ করে তোলে।

ওপেন সোর্স ডেটাসেট কি?

এমন বেশ কিছু জায়গা আছে যেখানে ওসিআর প্রযুক্তির ব্যাপক সম্ভাবনা রয়েছে। কিছু জায়গায় বিমানবন্দর, ইবুক প্রকাশনা, বিজ্ঞাপন, ব্যাঙ্ক এবং সাপ্লাই চেইন সিস্টেম অন্তর্ভুক্ত। যাইহোক, অ্যাপ্লিকেশনগুলিকে তাদের উদ্দেশ্য পূরণ করার জন্য, তাদের প্রকল্প-নির্দিষ্ট বিষয়ে প্রশিক্ষণ দেওয়া দরকার অপটিক্যাল ক্যারেক্টার রিকগনিশন ডেটাসেট.

অ্যাপ্লিকেশনটির কার্যকারিতা মূলত ডেটাসেটের গুণমান এবং জড়িত প্রশিক্ষণ পদ্ধতির উপর নির্ভর করে। যাইহোক, গুণমান ডিজিটাল এবং খুঁজে হাতের লেখা ডেটাসেট আবেদনের জন্য কঠিন। তাই, অনেক কোম্পানি মালিকানার পরিবর্তে ওপেন সোর্স বা ফ্রি-টু-ইউজ ডেটাসেট ব্যবহার করে।

ওপেন-সোর্স ডেটাসেটের সুবিধা এবং চ্যালেঞ্জ

ব্যবসায়িকদের তাদের এমএল অ্যাপ্লিকেশানগুলির জন্য বিনামূল্যে-টু-ব্যবহারের ডেটা বেছে নিতে হবে কিনা তা বোঝার জন্য একে অপরের বিরুদ্ধে বেনিফিট এবং চ্যালেঞ্জগুলিকে পিট করতে হবে।

উপকারিতা

  • ডেটা সহজেই অ্যাক্সেস করা যায়। ডেটা উপলব্ধতার কারণে, অ্যাপ্লিকেশনটি বিকাশের খরচ উল্লেখযোগ্যভাবে হ্রাস পেয়েছে।
  • ডেটাসেট সহজে উপলব্ধ হওয়ায় অ্যাপ্লিকেশনের জন্য ডেটা সংগ্রহ করার সময় এবং প্রচেষ্টা উল্লেখযোগ্যভাবে হ্রাস পেয়েছে।
  • প্রচুর কমিউনিটি ফোরাম বা সহায়তা গোষ্ঠী রয়েছে যা ডেটাসেট শিখতে, মানিয়ে নিতে এবং অপ্টিমাইজ করতে সাহায্য করে।
  • ওপেন-সোর্স ডেটাসেটের একটি প্রধান সুবিধা হল এটি কাস্টমাইজেশনের উপর কোন সীমাবদ্ধতা রাখে না।
  •   ওপেন-সোর্স ডেটা জনসংখ্যার একটি বড় অংশের কাছে অ্যাক্সেসযোগ্য, আর্থিক বাধা ছাড়াই বিশ্লেষণ এবং উদ্ভাবন সম্ভব করে তোলে।

চ্যালেঞ্জ

  • প্রকল্পের নির্দিষ্ট ডেটা অর্জন করা কঠিন। উপরন্তু, তথ্য অনুপস্থিত এবং উপলব্ধ ডেটার ভুল ব্যবহারের সম্ভাবনা রয়েছে।
  • মালিকানা তথ্য অর্জন করতে সময় লাগে, এবং প্রচেষ্টা এবং ব্যয়বহুল
  • যদিও ডেটা অর্জন করা সহজ হতে পারে, জ্ঞান এবং বিশ্লেষণের খরচ প্রাথমিক সুবিধার চেয়ে বেশি হতে পারে।
  • অন্যান্য বিকাশকারীরাও অ্যাপ্লিকেশনগুলি বিকাশ করতে একই ডেটা ব্যবহার করে।
  • এই ডেটাসেটগুলি নিরাপত্তা লঙ্ঘন, গোপনীয়তা এবং সম্মতির জন্য অত্যন্ত ঝুঁকিপূর্ণ।

মেশিন লার্নিংয়ের জন্য 22 সেরা হস্তাক্ষর এবং OCR ডেটাসেট

ওপেন সোর্স ocr ডেটাসেট

অনেক ওপেন সোর্স ডেটাসেট টেক্সট রিকগনিশন অ্যাপ্লিকেশন ডেভেলপমেন্টের জন্য উপলব্ধ। সেরা 22 এর মধ্যে কিছু আছে

  1. NIST ডাটাবেস

    এনআইএসটি বা ন্যাশনাল ইনস্টিটিউট অফ সায়েন্স 3600 টিরও বেশি অক্ষর চিত্র সহ 810,000 টিরও বেশি হস্তাক্ষর নমুনার একটি বিনামূল্যে-ব্যবহারের সংগ্রহ অফার করে

  2. MNIST ডাটাবেস

    NSIT-এর বিশেষ ডেটাবেস 1 এবং 3 থেকে প্রাপ্ত, MNIST ডাটাবেস হল প্রশিক্ষণ সেটের জন্য 60,000 হাতে লেখা নম্বর এবং পরীক্ষার সেটের জন্য 10,000 উদাহরণের একটি সংকলিত সংগ্রহ। এই ওপেন-সোর্স ডাটাবেস প্রি-প্রসেসিংয়ে কম সময় ব্যয় করার সময় মডেলগুলিকে প্যাটার্ন চিনতে প্রশিক্ষণ দেয়।

  3. পাঠ্য সনাক্তকরণ

    একটি ওপেন সোর্স ডাটাবেস, টেক্সট ডিটেকশন ডেটাসেটে সাইনবোর্ড, দরজার প্লেট, সতর্কতা প্লেট এবং আরও অনেক কিছুর প্রায় 500টি অভ্যন্তরীণ এবং বহিরঙ্গন চিত্র রয়েছে।

  4. স্ট্যানফোর্ড ওসিআর

    স্ট্যানফোর্ড দ্বারা প্রকাশিত, এই বিনামূল্যে ব্যবহারযোগ্য ডেটাসেটটি এমআইটি স্পোকেন ল্যাঙ্গুয়েজ সিস্টেম গ্রুপের হাতে লেখা একটি শব্দ সংগ্রহ।

  5. রাস্তার দৃশ্য পাঠ্য

    Google রাস্তার দৃশ্যের ছবি থেকে সংগ্রহ করা, এই ডেটাসেটে প্রধানত বোর্ড এবং রাস্তার স্তরের চিহ্নগুলির পাঠ্য সনাক্তকরণ চিত্র রয়েছে৷

  6. ডকুমেন্ট ডাটাবেস

    ডকুমেন্ট ডাটাবেস হল 941 জন লেখকের সারণী, সূত্র, অঙ্কন, ডায়াগ্রাম, তালিকা এবং আরও অনেক কিছু সহ 189টি হাতে লেখা নথির একটি সংগ্রহ।

  7. গণিত এক্সপ্রেশন

    ম্যাথমেটিক্স এক্সপ্রেশন একটি ডাটাবেস যাতে 101টি গাণিতিক চিহ্ন এবং 10,000টি এক্সপ্রেশন থাকে।

  8. রাস্তার দৃশ্য বাড়ির নম্বর

    Google স্ট্রিট ভিউ থেকে সংগ্রহ করা, এই রাস্তার দৃশ্য বাড়ির নম্বরগুলি হল একটি ডাটাবেস যেখানে 73257টি রাস্তার বাড়ির নম্বর সংখ্যা রয়েছে৷

  9. প্রাকৃতিক পরিবেশ ওসিআর

    প্রাকৃতিক পরিবেশ ওসিআর, বিশ্বব্যাপী প্রায় 660টি চিত্র এবং 5238টি পাঠ্য টীকাগুলির একটি ডেটাসেট।

  10. গণিত এক্সপ্রেশন

    10,000+ গণিত চিহ্ন সহ 101টির বেশি অভিব্যক্তি।

  11. হাতে লেখা চীনা অক্ষর

    909,818টি হাতে লেখা চীনা অক্ষর চিত্রের একটি ডেটাসেট, প্রায় 10টি সংবাদ নিবন্ধের সমতুল্য।

  12. আরবি মুদ্রিত পাঠ্য

    113,284টি আরবি হরফ ব্যবহার করে 10 শব্দের একটি অভিধান।

  13. হাতে লেখা ইংরেজি লেখা

    1700 টিরও বেশি এন্ট্রি সহ একটি হোয়াইটবোর্ডে হাতে লেখা ইংরেজি পাঠ্য।

  14. 3000 পরিবেশের ছবি

    বিভিন্ন পরিবেশ থেকে 3000 ছবি, বিভিন্ন আলোর অধীনে বহিরঙ্গন এবং অন্দর দৃশ্য সহ।

  15. Chars74K ডেটা

    ইংরেজি এবং কন্নড় সংখ্যার 74,000 ছবি।

  16. আইএএম (আইএএম হস্তাক্ষর)

    আইএএম ডাটাবেসটিতে ব্রিটিশ ইংরেজির ল্যাঙ্কাস্টার-অসলো/বার্গেন কর্পাস থেকে 13,353 জন লেখকের হাতে লেখা 657টি পাঠ্য চিত্র রয়েছে।

  17. FUNSD (কোলাহলপূর্ণ স্ক্যান করা নথিতে ফর্ম বোঝা)

    FUNSD-এর মধ্যে রয়েছে 199টি টীকাযুক্ত, স্ক্যান করা ফর্মগুলি বিভিন্ন এবং শোরগোলপূর্ণ চেহারা সহ, ফর্ম বোঝার জন্য চ্যালেঞ্জিং৷

  18. OCR টেক্সট করুন

    TextOCR বেঞ্চমার্ক টেক্সট রিকগনিশন প্রাকৃতিক ইমেজে নির্বিচারে আকৃতির দৃশ্য-পাঠ্য।

  19. টুইটার 100k

    Twitter100k দুর্বলভাবে তত্ত্বাবধানে ক্রস-মিডিয়া পুনরুদ্ধারের জন্য একটি বড় ডেটাসেট।

  20. SSIG-SegPlate – লাইসেন্স প্লেট ক্যারেক্টার সেগমেন্টেশন (LPCS)

    এই ডেটাসেটটি 101টি দিনের সময়ের গাড়ির ছবি সহ লাইসেন্স প্লেট ক্যারেক্টার সেগমেন্টেশন (LPCS) মূল্যায়ন করে।

  21. 105,941 চিত্র প্রাকৃতিক দৃশ্য 12টি ভাষার ওসিআর ডেটা

    ডেটাতে 12টি ভাষা (6 এশিয়ান, 6 ইউরোপীয়) এবং বিভিন্ন প্রাকৃতিক দৃশ্য এবং কোণ রয়েছে৷ এতে লাইন-লেভেল বাউন্ডিং বক্স এবং টেক্সট ট্রান্সক্রিপশন রয়েছে। এটি বহু-ভাষা ওসিআর কাজের জন্য দরকারী।

  22. ভারতীয় সাইনবোর্ড ইমেজ ডেটাসেট

    ডেটাসেটে শ্রেণীবিভাগ এবং সনাক্তকরণের জন্য ভারতীয় ট্র্যাফিক সাইন চিত্র রয়েছে, দিন, সন্ধ্যা এবং রাতে বিভিন্ন আবহাওয়ায় নেওয়া হয়েছে।

টেক্সট সনাক্তকরণ অ্যাপ্লিকেশনের জন্য এমএল মডেল প্রশিক্ষণের জন্য এগুলি ছিল কিছু শীর্ষস্থানীয় ওপেন-সোর্স ডেটাসেট। আপনার ব্যবসা এবং আবেদনের প্রয়োজনের সাথে সামঞ্জস্যপূর্ণ একটি নির্বাচন করতে সময় এবং প্রচেষ্টা লাগতে পারে। যাইহোক, উপযুক্ত একটি সম্পর্কে সিদ্ধান্ত নেওয়ার আগে আপনাকে অবশ্যই এই ডেটাসেটগুলির সাথে পরীক্ষা করতে হবে।

আপনাকে একটি নির্ভরযোগ্য এবং দক্ষ পাঠ্য সনাক্তকরণ অ্যাপ্লিকেশনের দিকে অগ্রসর হতে সাহায্য করার জন্য হল Shaip - উচ্চ-র্যাঙ্কিং প্রযুক্তি সমাধান প্রদানকারী। কাস্টমাইজেবল, অপ্টিমাইজ করা এবং তৈরি করতে আমরা আমাদের প্রযুক্তিগত অভিজ্ঞতার ব্যবহার করি দক্ষ ওসিআর প্রশিক্ষণ ডেটাসেট বিভিন্ন ক্লায়েন্ট প্রকল্পের জন্য। আমাদের ক্ষমতা সম্পূর্ণরূপে বুঝতে, আজ আমাদের সাথে যোগাযোগ করুন.

সামাজিক ভাগ