কেস স্টাডি: মেডিকেল ডেটাসেট লাইসেন্সিং

নির্ভুল তথ্য সংগ্রহ এবং টীকা প্রশিক্ষণের মাধ্যমে শিশু এবং প্রসূতি ও স্ত্রীরোগ বিশেষজ্ঞের যত্নে রূপান্তর

চিকিৎসা তথ্যের শক্তি উন্মোচন: ব্যাপক তথ্য সংগ্রহ, ডি-আইডেন্টিফিকেশন, ICD-10 CM, এবং সুপিরিয়র এআই মডেল প্রশিক্ষণের জন্য টীকা।

মেডিকেল ডেটাসেট লাইসেন্সিং

প্রজেক্ট সারসংক্ষেপ

উন্নত NLP মডেলগুলিকে প্রশিক্ষণের জন্য উচ্চ-মানের, অ-শনাক্তকৃত মেডিকেল ডেটাসেটগুলি কিউরেট এবং অ্যানোটেট করার জন্য Shaip একটি শীর্ষস্থানীয় স্বাস্থ্যসেবা AI কোম্পানির সাথে অংশীদারিত্ব করেছে। প্রকল্পটি শিশুচিকিৎসা এবং প্রসূতি-স্ত্রীরোগ বিশেষজ্ঞদের উপর দৃষ্টি নিবদ্ধ করে, একটি শক্তিশালী API কাঠামোর মাধ্যমে ICD-10 CM কোড সহ অ্যানোটেট করা বহির্বিভাগীয় রেকর্ড সরবরাহ করে।

ডেটাসেটটি বাস্তব-বিশ্বের স্বাস্থ্যসেবা ডকুমেন্টেশনের উপর AI প্রশিক্ষণের সুবিধার্থে গঠন করা হয়েছিল, যা ক্লিনিকাল বর্ণনাগুলি বোঝার ক্ষেত্রে মডেল ক্ষমতা বৃদ্ধি করে।

মেডিকেল ডেটাসেট লাইসেন্সিং

মূল পরিসংখ্যান

750 পেজ / ~ 300 বহির্বিভাগের রোগীদের রেকর্ড

375 পৃষ্ঠাগুলি শিশুচিকিৎসা
375 পাতাগুলি
আইসিডি-১০ সিএম 2023 মেডিকেল কোড টীকা

প্রকল্পের সুযোগ

ডেটাসেটের প্রকারবিশিষ্টতাআয়তনমেটাডেটা ক্যাপচার করা হয়েছেনোট
মেডিকেল নোটশিশুরোগ375 পেজ
(~১৫০টি রেকর্ড)
ফাইলের নাম, বিশেষত্ব,
নথির ধরণ, রোগীর শ্রেণী (বহির্বিভাগীয় রোগী)
মূল্যায়ন / পরিকল্পনা বিভাগ অন্তর্ভুক্ত
ওবি-জিওয়াইএন375 পেজ
(~১৫০টি রেকর্ড)
টীকাICD-10 CM (2023)সম্পূর্ণ ডেটাসেটAPI এর মাধ্যমে কোড ম্যাপিংকোডারদের দ্বারা কোড যাচাইকরণের সুযোগ নেই

চ্যালেঞ্জ

প্রকল্পটি বেশ কয়েকটি গুরুত্বপূর্ণ চ্যালেঞ্জ উপস্থাপন করেছিল যার জন্য সতর্কতামূলক পরিকল্পনা এবং বাস্তবায়নের প্রয়োজন ছিল:

১. বিশেষ-নির্দিষ্ট তথ্য সংগ্রহ

শিশু বিশেষজ্ঞ এবং প্রসূতি ও স্ত্রীরোগ বিশেষজ্ঞদের কাছ থেকে উচ্চমানের বহির্বিভাগীয় রেকর্ড সংগ্রহ করা চ্যালেঞ্জিং ছিল। প্রতিটি নথিতে সঠিক টীকা সমর্থন করার জন্য মূল্যায়ন এবং পরিকল্পনার মতো গুরুত্বপূর্ণ ক্লিনিকাল বিভাগ অন্তর্ভুক্ত করা প্রয়োজন।

2. ব্যাপক PHI ডি-আইডেন্টিফিকেশন

HIPAA সম্মতির জন্য চিকিৎসাগত প্রেক্ষাপট বজায় রেখে সমস্ত ব্যক্তিগতভাবে সনাক্তযোগ্য তথ্য (PII) সম্পূর্ণরূপে অপসারণ নিশ্চিত করা অপরিহার্য ছিল। যেকোনো গোপনীয়তা লঙ্ঘন রোধ করার জন্য এর জন্য বিস্তারিত পর্যালোচনা প্রয়োজন ছিল।

৩. জটিল ICD-3 CM টীকা

বিভিন্ন বর্ণনামূলক শৈলী এবং চিকিৎসা পরিভাষার কারণে API-এর মাধ্যমে সুনির্দিষ্ট ICD-10 CM (2023) কোড প্রয়োগ করা জটিল ছিল। নির্ভরযোগ্য AI মডেল প্রশিক্ষণ নিশ্চিত করার জন্য কোডিংয়ে ধারাবাহিকতা এবং নির্ভুলতা অত্যন্ত গুরুত্বপূর্ণ ছিল।

৪. মেটাডেটা নির্ভুলতা এবং ধারাবাহিকতা

বিশেষত্ব, নথির ধরণ এবং রোগীর শ্রেণীর মতো মেটাডেটা কোনও অসঙ্গতি ছাড়াই ক্যাপচার এবং যাচাই করা অত্যন্ত গুরুত্বপূর্ণ ছিল। যেকোনো অমিল মডেল প্রশিক্ষণ এবং ডেটা ব্যবহারযোগ্যতার উপর প্রভাব ফেলতে পারে।

৫. কঠোর বহির্বিভাগীয় রোগী ফিল্টারিং

সমস্ত রেকর্ড কঠোরভাবে বহির্বিভাগীয় রোগীদের জটিলতা বৃদ্ধি নিশ্চিত করা, কারণ অনেক ক্লিনিকাল নথিতে মিশ্র রোগীর শ্রেণী বা অসম্পূর্ণ বিভাগ থাকতে পারে।

৬. গুণমান নিশ্চিতকরণ এবং নির্ভুলতার মানদণ্ড

৯০% নির্ভুলতার সীমা পূরণের জন্য বহু-স্তরের পর্যালোচনার প্রয়োজন ছিল যাতে সদৃশতা দূর করা যায়, বিশেষায়িত সারিবদ্ধতা যাচাই করা যায় এবং শনাক্তকরণ বাতিল করা যায় - প্রয়োজনে পুনর্নির্মাণের বিধান সহ।

সমাধান

ব্যাপক ডেটা লাইসেন্সিং এবং টীকা

  • লাইসেন্সপ্রাপ্ত শিশু এবং প্রসূতি-স্ত্রীরোগের বহির্বিভাগের রেকর্ড
  • গুরুত্বপূর্ণ বিভাগগুলির অন্তর্ভুক্তি নিশ্চিত করা: প্রধান অভিযোগ, ইতিহাস, ROS, মূল্যায়ন, পরিকল্পনা
  • API-ভিত্তিক ICD-10 CM টীকা (২০২৩ সংস্করণ)

শনাক্তকরণ বাতিল এবং সম্মতি

  • PHI-কে স্থানধারক দিয়ে প্রতিস্থাপিত করা হয়েছে (PERSON_NAME, DATE, LOCATION, ইত্যাদি)
  • স্বাস্থ্যসেবা তথ্য গোপনীয়তার মানদণ্ডের সাথে সম্মতি নিশ্চিত করা

মেটাডেটা ট্যাগিং

  • প্রতিটি ফাইলের বিস্তারিত মেটাডেটা ক্যাপচার করা হয়েছে:
    • ফাইলের নাম
    • বিশেষত্ব (শিশুরোগ বা প্রসূতি ও স্ত্রীরোগ বিশেষজ্ঞ)
    • নথির ধরণ (ফলো-আপ, স্বাস্থ্য ও চিকিৎসা, পরামর্শ)
    • রোগী শ্রেণী (শুধুমাত্র বহির্বিভাগীয় রোগী)

মান নিয়ন্ত্রণ

  • কঠোর মানের মূল্যায়ন:

    • কোনও ডুপ্লিকেট রেকর্ড নেই
    • স্পেশালিটি ম্যাচ যাচাইকরণ
    • শুধুমাত্র বহির্বিভাগীয় রোগীদের জন্য পরীক্ষা
    • মেটাডেটা ধারাবাহিকতা পরীক্ষা
  • ৯০% নির্ভুলতার সীমার নিচে রেকর্ড প্রতিস্থাপন বা সংশোধন

ফলাফল

শেইপ একটি কাঠামোগত, টীকাযুক্ত মেডিকেল নোট ডেটাসেট সরবরাহ করেছিলেন যা ক্লায়েন্টকে সক্ষম করেছিল:

  • সঠিক ICD-10 CM কোড পূর্বাভাসের জন্য AI মডেলগুলিকে প্রশিক্ষণ দিন
  • বাস্তব-বিশ্বের স্বাস্থ্যসেবা পরিস্থিতিতে NLP ক্ষমতা বৃদ্ধি করুন
  • গোপনীয়তা এবং নিয়ন্ত্রক মান মেনে চলা বজায় রাখুন
  • পেডিয়াট্রিক্স এবং প্রসূতি ও স্ত্রীরোগ ক্ষেত্র জুড়ে স্বাস্থ্যসেবা AI মডেলগুলিকে স্কেল করুন

ডেটাসেট কিউরেশন এবং অ্যানোটেশনের ক্ষেত্রে শাইপের কাঠামোগত পদ্ধতি আমাদের প্রত্যাশাকে ছাড়িয়ে গেছে। নির্ভুলতা, ডি-আইডেন্টিফিকেশন এবং মেটাডেটা নির্ভুলতা আমাদের এআই মডেল প্রশিক্ষণ পাইপলাইনকে উল্লেখযোগ্যভাবে শক্তিশালী করেছে।

গোল্ডেন-৫-স্টার