কেস স্টাডি: মেডিকেল ডেটাসেট লাইসেন্সিং
নির্ভুল তথ্য সংগ্রহ এবং টীকা প্রশিক্ষণের মাধ্যমে শিশু এবং প্রসূতি ও স্ত্রীরোগ বিশেষজ্ঞের যত্নে রূপান্তর
চিকিৎসা তথ্যের শক্তি উন্মোচন: ব্যাপক তথ্য সংগ্রহ, ডি-আইডেন্টিফিকেশন, ICD-10 CM, এবং সুপিরিয়র এআই মডেল প্রশিক্ষণের জন্য টীকা।
প্রজেক্ট সারসংক্ষেপ
উন্নত NLP মডেলগুলিকে প্রশিক্ষণের জন্য উচ্চ-মানের, অ-শনাক্তকৃত মেডিকেল ডেটাসেটগুলি কিউরেট এবং অ্যানোটেট করার জন্য Shaip একটি শীর্ষস্থানীয় স্বাস্থ্যসেবা AI কোম্পানির সাথে অংশীদারিত্ব করেছে। প্রকল্পটি শিশুচিকিৎসা এবং প্রসূতি-স্ত্রীরোগ বিশেষজ্ঞদের উপর দৃষ্টি নিবদ্ধ করে, একটি শক্তিশালী API কাঠামোর মাধ্যমে ICD-10 CM কোড সহ অ্যানোটেট করা বহির্বিভাগীয় রেকর্ড সরবরাহ করে।
ডেটাসেটটি বাস্তব-বিশ্বের স্বাস্থ্যসেবা ডকুমেন্টেশনের উপর AI প্রশিক্ষণের সুবিধার্থে গঠন করা হয়েছিল, যা ক্লিনিকাল বর্ণনাগুলি বোঝার ক্ষেত্রে মডেল ক্ষমতা বৃদ্ধি করে।

মূল পরিসংখ্যান
750 পেজ / ~ 300 বহির্বিভাগের রোগীদের রেকর্ড
প্রকল্পের সুযোগ
ডেটাসেটের প্রকার | বিশিষ্টতা | আয়তন | মেটাডেটা ক্যাপচার করা হয়েছে | নোট |
---|---|---|---|---|
মেডিকেল নোট | শিশুরোগ | 375 পেজ (~১৫০টি রেকর্ড) | ফাইলের নাম, বিশেষত্ব, নথির ধরণ, রোগীর শ্রেণী (বহির্বিভাগীয় রোগী) | মূল্যায়ন / পরিকল্পনা বিভাগ অন্তর্ভুক্ত |
ওবি-জিওয়াইএন | 375 পেজ (~১৫০টি রেকর্ড) | |||
টীকা | ICD-10 CM (2023) | সম্পূর্ণ ডেটাসেট | API এর মাধ্যমে কোড ম্যাপিং | কোডারদের দ্বারা কোড যাচাইকরণের সুযোগ নেই |
চ্যালেঞ্জ
প্রকল্পটি বেশ কয়েকটি গুরুত্বপূর্ণ চ্যালেঞ্জ উপস্থাপন করেছিল যার জন্য সতর্কতামূলক পরিকল্পনা এবং বাস্তবায়নের প্রয়োজন ছিল:
শিশু বিশেষজ্ঞ এবং প্রসূতি ও স্ত্রীরোগ বিশেষজ্ঞদের কাছ থেকে উচ্চমানের বহির্বিভাগীয় রেকর্ড সংগ্রহ করা চ্যালেঞ্জিং ছিল। প্রতিটি নথিতে সঠিক টীকা সমর্থন করার জন্য মূল্যায়ন এবং পরিকল্পনার মতো গুরুত্বপূর্ণ ক্লিনিকাল বিভাগ অন্তর্ভুক্ত করা প্রয়োজন।
HIPAA সম্মতির জন্য চিকিৎসাগত প্রেক্ষাপট বজায় রেখে সমস্ত ব্যক্তিগতভাবে সনাক্তযোগ্য তথ্য (PII) সম্পূর্ণরূপে অপসারণ নিশ্চিত করা অপরিহার্য ছিল। যেকোনো গোপনীয়তা লঙ্ঘন রোধ করার জন্য এর জন্য বিস্তারিত পর্যালোচনা প্রয়োজন ছিল।
বিভিন্ন বর্ণনামূলক শৈলী এবং চিকিৎসা পরিভাষার কারণে API-এর মাধ্যমে সুনির্দিষ্ট ICD-10 CM (2023) কোড প্রয়োগ করা জটিল ছিল। নির্ভরযোগ্য AI মডেল প্রশিক্ষণ নিশ্চিত করার জন্য কোডিংয়ে ধারাবাহিকতা এবং নির্ভুলতা অত্যন্ত গুরুত্বপূর্ণ ছিল।
বিশেষত্ব, নথির ধরণ এবং রোগীর শ্রেণীর মতো মেটাডেটা কোনও অসঙ্গতি ছাড়াই ক্যাপচার এবং যাচাই করা অত্যন্ত গুরুত্বপূর্ণ ছিল। যেকোনো অমিল মডেল প্রশিক্ষণ এবং ডেটা ব্যবহারযোগ্যতার উপর প্রভাব ফেলতে পারে।
সমস্ত রেকর্ড কঠোরভাবে বহির্বিভাগীয় রোগীদের জটিলতা বৃদ্ধি নিশ্চিত করা, কারণ অনেক ক্লিনিকাল নথিতে মিশ্র রোগীর শ্রেণী বা অসম্পূর্ণ বিভাগ থাকতে পারে।
৯০% নির্ভুলতার সীমা পূরণের জন্য বহু-স্তরের পর্যালোচনার প্রয়োজন ছিল যাতে সদৃশতা দূর করা যায়, বিশেষায়িত সারিবদ্ধতা যাচাই করা যায় এবং শনাক্তকরণ বাতিল করা যায় - প্রয়োজনে পুনর্নির্মাণের বিধান সহ।
সমাধান
ব্যাপক ডেটা লাইসেন্সিং এবং টীকা
- লাইসেন্সপ্রাপ্ত শিশু এবং প্রসূতি-স্ত্রীরোগের বহির্বিভাগের রেকর্ড
- গুরুত্বপূর্ণ বিভাগগুলির অন্তর্ভুক্তি নিশ্চিত করা: প্রধান অভিযোগ, ইতিহাস, ROS, মূল্যায়ন, পরিকল্পনা
- API-ভিত্তিক ICD-10 CM টীকা (২০২৩ সংস্করণ)
শনাক্তকরণ বাতিল এবং সম্মতি
- PHI-কে স্থানধারক দিয়ে প্রতিস্থাপিত করা হয়েছে (PERSON_NAME, DATE, LOCATION, ইত্যাদি)
- স্বাস্থ্যসেবা তথ্য গোপনীয়তার মানদণ্ডের সাথে সম্মতি নিশ্চিত করা
মেটাডেটা ট্যাগিং
- প্রতিটি ফাইলের বিস্তারিত মেটাডেটা ক্যাপচার করা হয়েছে:
-
- ফাইলের নাম
- বিশেষত্ব (শিশুরোগ বা প্রসূতি ও স্ত্রীরোগ বিশেষজ্ঞ)
- নথির ধরণ (ফলো-আপ, স্বাস্থ্য ও চিকিৎসা, পরামর্শ)
- রোগী শ্রেণী (শুধুমাত্র বহির্বিভাগীয় রোগী)
মান নিয়ন্ত্রণ
- কঠোর মানের মূল্যায়ন:
- কোনও ডুপ্লিকেট রেকর্ড নেই
- স্পেশালিটি ম্যাচ যাচাইকরণ
- শুধুমাত্র বহির্বিভাগীয় রোগীদের জন্য পরীক্ষা
- মেটাডেটা ধারাবাহিকতা পরীক্ষা
- ৯০% নির্ভুলতার সীমার নিচে রেকর্ড প্রতিস্থাপন বা সংশোধন
ফলাফল
শেইপ একটি কাঠামোগত, টীকাযুক্ত মেডিকেল নোট ডেটাসেট সরবরাহ করেছিলেন যা ক্লায়েন্টকে সক্ষম করেছিল:
- সঠিক ICD-10 CM কোড পূর্বাভাসের জন্য AI মডেলগুলিকে প্রশিক্ষণ দিন
- বাস্তব-বিশ্বের স্বাস্থ্যসেবা পরিস্থিতিতে NLP ক্ষমতা বৃদ্ধি করুন
- গোপনীয়তা এবং নিয়ন্ত্রক মান মেনে চলা বজায় রাখুন
- পেডিয়াট্রিক্স এবং প্রসূতি ও স্ত্রীরোগ ক্ষেত্র জুড়ে স্বাস্থ্যসেবা AI মডেলগুলিকে স্কেল করুন
ডেটাসেট কিউরেশন এবং অ্যানোটেশনের ক্ষেত্রে শাইপের কাঠামোগত পদ্ধতি আমাদের প্রত্যাশাকে ছাড়িয়ে গেছে। নির্ভুলতা, ডি-আইডেন্টিফিকেশন এবং মেটাডেটা নির্ভুলতা আমাদের এআই মডেল প্রশিক্ষণ পাইপলাইনকে উল্লেখযোগ্যভাবে শক্তিশালী করেছে।