Large Language Model (LLM) فوری الفاظ پر مبنی قائل مضامین لکھ سکتا ہے، پیشہ ورانہ مہارت کے امتحانات پاس کر سکتا ہے، اور مریض دوست اور ہمدردانہ معلومات لکھ سکتا ہے۔ تاہم، LLM میں فکشن، نزاکت اور غلط حقائق کے معروف خطرات کے علاوہ، دیگر حل نہ ہونے والے مسائل دھیرے دھیرے توجہ کا مرکز بن رہے ہیں، جیسے کہ AI ماڈلز جن میں ان کی تخلیق اور استعمال میں ممکنہ طور پر امتیازی "انسانی اقدار" شامل ہیں، اور یہاں تک کہ اگر LLM مزید مواد کو گھڑتا نہیں ہے اور واضح طور پر نقصان دہ نتائج کو ختم کر دیتا ہے، تب بھی انسانی قدروں کی قدر کو ختم کر سکتی ہے۔
لاتعداد مثالیں اس بات کی وضاحت کرتی ہیں کہ کس طرح AI ماڈلز کی تربیت کے لیے استعمال ہونے والا ڈیٹا انفرادی اور سماجی اقدار کو انکوڈ کرتا ہے، جو ماڈل کے اندر مضبوط ہو سکتی ہیں۔ ان مثالوں میں ایپلی کیشنز کی ایک رینج شامل ہے، بشمول سینے کے ایکس رے کی خودکار تشریح، جلد کی بیماریوں کی درجہ بندی، اور طبی وسائل کی تقسیم سے متعلق الگورتھمک فیصلہ سازی۔ جیسا کہ ہمارے جریدے کے ایک حالیہ مضمون میں کہا گیا ہے، متعصب تربیتی ڈیٹا معاشرے میں موجود اقدار اور تعصبات کو بڑھا اور ظاہر کر سکتا ہے۔ اس کے برعکس، تحقیق سے یہ بھی معلوم ہوا ہے کہ AI کا استعمال تعصب کو کم کرنے کے لیے کیا جا سکتا ہے۔ مثال کے طور پر، محققین نے گہرے سیکھنے کے ماڈلز کو گھٹنے کی ایکس رے فلموں پر لاگو کیا اور ایسے عوامل دریافت کیے جو گھٹنے کے جوڑ کے اندر معیاری شدت کے اشارے (ریڈیالوجسٹ کے ذریعہ درجہ بندی) سے چھوٹ گئے، اس طرح سیاہ اور سفید مریضوں کے درمیان درد کے غیر واضح فرق کو کم کیا۔
اگرچہ زیادہ سے زیادہ لوگ AI ماڈلز میں تعصب کو محسوس کر رہے ہیں، خاص طور پر تربیتی ڈیٹا کے لحاظ سے، انسانی اقدار کے بہت سے دوسرے داخلی مقامات پر AI ماڈلز کی ترقی اور تعیناتی کے عمل میں خاطر خواہ توجہ نہیں دی جاتی ہے۔ طبی AI نے حال ہی میں متاثر کن نتائج حاصل کیے ہیں، لیکن بڑی حد تک، اس نے انسانی اقدار اور خطرے کی تشخیص اور امکانی استدلال کے ساتھ ان کے تعامل پر واضح طور پر غور نہیں کیا ہے، اور نہ ہی اس کا نمونہ بنایا گیا ہے۔
ان تجریدی تصورات کو کنکریٹائز کرنے کے لیے، تصور کریں کہ آپ ایک اینڈو کرائنولوجسٹ ہیں جو ایک 8 سالہ لڑکے کے لیے جو اپنی عمر کے تیسرے پرسنٹائل سے کم ہے کے لیے دوبارہ پیدا ہونے والا انسانی گروتھ ہارمون تجویز کرتا ہے۔ لڑکے کی محرک انسانی نمو ہارمون کی سطح 2 ng/mL سے کم ہے (حوالہ قدر،>10 ng/mL، ریاستہائے متحدہ سے باہر بہت سے ممالک کے لیے حوالہ قدر>7 ng/mL ہے)، اور اس کے انسانی نمو کے ہارمون کوڈنگ جین نے نایاب غیر فعال ہونے والے تغیرات کا پتہ لگایا ہے۔ ہم سمجھتے ہیں کہ اس طبی ترتیب میں انسانی نمو کے ہارمون تھراپی کا اطلاق واضح اور ناقابل تردید ہے۔
مندرجہ ذیل منظرناموں میں ہیومن گروتھ ہارمون تھراپی کا اطلاق تنازعہ کا سبب بن سکتا ہے: ایک 14 سالہ لڑکے کا قد ہمیشہ اس کے ہم عمروں کے 10ویں پرسنٹائل میں ہوتا ہے، اور محرک کے بعد انسانی گروتھ ہارمون کی چوٹی 8 ng/mL ہے۔ کوئی معروف فعال تغیرات نہیں ہیں جو قد کو متاثر کر سکتے ہیں، اور نہ ہی چھوٹے قد کی دیگر معلوم وجوہات ہیں، اور اس کی ہڈی کی عمر 15 سال ہے (یعنی ترقی میں کوئی تاخیر نہیں)۔ تنازعہ کا صرف ایک حصہ ماہرین کی طرف سے مقرر کردہ حد کی قدروں میں فرق کی وجہ سے ہے جو انسانی ترقی کے ہارمون کی سطح سے متعلق درجنوں مطالعات پر مبنی ہے جو الگ تھلگ گروتھ ہارمون کی کمی کی تشخیص کے لیے استعمال ہوتے ہیں۔ کم از کم اتنا ہی تنازعہ پیدا ہوتا ہے جو مریضوں، مریض کے والدین، صحت کی دیکھ بھال کرنے والے پیشہ ور افراد، دوا ساز کمپنیوں اور ادائیگی کرنے والوں کے نقطہ نظر سے انسانی گروتھ ہارمون تھراپی کو استعمال کرنے کے خطرے کے فوائد کے توازن سے پیدا ہوتا ہے۔ پیڈیاٹرک اینڈو کرائنولوجسٹ 2 سال تک گروتھ ہارمون کے روزانہ انجیکشن کے نایاب منفی اثرات کا وزن کر سکتے ہیں جس میں موجودہ کے مقابلے میں بالغوں کے جسم کے سائز میں نہ ہونے یا صرف کم سے کم اضافے کا امکان ہے۔ لڑکوں کو یقین ہو سکتا ہے کہ اگر ان کی اونچائی میں صرف 2 سینٹی میٹر کا اضافہ ہو سکتا ہے، تو یہ گروتھ ہارمون لگانے کے قابل ہے، لیکن ادا کرنے والے اور دوا ساز کمپنی کے خیالات مختلف ہو سکتے ہیں۔
ہم کریٹینائن پر مبنی ای جی ایف آر کو مثال کے طور پر لیتے ہیں، جو گردے کی دائمی بیماری کی تشخیص اور اسٹیج کرنے، گردے کی پیوند کاری یا عطیہ کی شرائط طے کرنے، اور بہت سی نسخے کی دوائیوں کے لیے کمی کے معیار اور تضادات کا تعین کرنے کے لیے وسیع پیمانے پر استعمال ہونے والا رینل فنکشن انڈیکیٹر ہے۔ EGFR ایک سادہ ریگریشن مساوات ہے جس کا استعمال ماپا ہوا گلوومیرولر فلٹریشن ریٹ (mGFR) کا تخمینہ لگانے کے لیے کیا جاتا ہے، جو ایک حوالہ معیار ہے، لیکن تشخیص کا طریقہ نسبتاً بوجھل ہے۔ اس رجعت کی مساوات کو AI ماڈل نہیں سمجھا جا سکتا، لیکن یہ انسانی اقدار اور امکانی استدلال کے بارے میں بہت سے اصولوں کی وضاحت کرتا ہے۔
eGFR میں داخل ہونے کے لیے انسانی اقدار کا پہلا انٹری پوائنٹ وہ ہے جب فٹنگ مساوات کے لیے ڈیٹا کا انتخاب کیا جائے۔ ای جی ایف آر فارمولے کو ڈیزائن کرنے کے لیے استعمال ہونے والی اصل قطار زیادہ تر سیاہ فام اور سفید فام شرکاء پر مشتمل ہے، اور بہت سے دوسرے نسلی گروہوں پر اس کا اطلاق واضح نہیں ہے۔ اس فارمولے میں انسانی اقدار کے بعد کے اندراج کے نکات میں شامل ہیں: گردے کے فعل کا جائزہ لینے کے لیے بنیادی مقصد کے طور پر ایم جی ایف آر کی درستگی کا انتخاب، درستگی کی قابل قبول سطح کیا ہے، درستگی کی پیمائش کیسے کی جائے، اور طبی فیصلہ سازی کو متحرک کرنے کے لیے ای جی ایف آر کو ایک حد کے طور پر استعمال کرنا (جیسے کہ کے لیے ٹرانسپلانٹ کی شرائط کا تعین کرنا)۔ آخر میں، ان پٹ ماڈل کے مواد کو منتخب کرتے وقت، انسانی اقدار بھی اس فارمولے میں داخل ہوں گی۔
مثال کے طور پر، 2021 سے پہلے، رہنما خطوط مریض کی عمر، جنس اور نسل کی بنیاد پر eGFR فارمولے میں کریٹینائن کی سطح کو ایڈجسٹ کرنے کا مشورہ دیتے ہیں (صرف سیاہ یا غیر سیاہ افراد کے طور پر درجہ بندی)۔ ریس کی بنیاد پر ایڈجسٹمنٹ کا مقصد ایم جی ایف آر فارمولے کی درستگی کو بہتر بنانا ہے، لیکن 2020 میں، بڑے ہسپتالوں نے نسل پر مبنی ای جی ایف آر کے استعمال پر سوال اٹھانا شروع کر دیے، جس کی وجہ سے ٹرانسپلانٹیشن کے لیے مریض کی اہلیت میں تاخیر اور ریس کو حیاتیاتی تصور کے طور پر کنکریٹائز کرنا شامل ہے۔ تحقیق سے ثابت ہوا ہے کہ ای جی ایف آر ماڈلز کو نسل کے لحاظ سے ڈیزائن کرنے سے درستگی اور طبی نتائج پر گہرے اور مختلف اثرات پڑ سکتے ہیں۔ لہذا، انتخابی طور پر درستگی پر توجہ مرکوز کرنا یا نتائج کے کسی حصے پر توجہ مرکوز کرنا قدری فیصلوں کی عکاسی کرتا ہے اور شفاف فیصلہ سازی کو نقاب پوش کر سکتا ہے۔ آخر کار، نیشنل ورکنگ گروپ نے ایک نیا فارمولہ تجویز کیا جسے کارکردگی اور انصاف کے مسائل کو متوازن کرنے کی دوڑ پر غور کیے بغیر دوبارہ فٹ کر دیا گیا۔ یہ مثال واضح کرتی ہے کہ یہاں تک کہ ایک سادہ کلینکل فارمولہ بھی انسانی اقدار میں داخل ہونے کے بہت سے نقطے رکھتا ہے۔
پیش گوئی کرنے والے اشارے کی صرف ایک چھوٹی سی تعداد والے طبی فارمولوں کے مقابلے میں، LLM اربوں سے سینکڑوں اربوں پیرامیٹرز (ماڈل وزن) یا اس سے زیادہ پر مشتمل ہو سکتا ہے، جس سے اسے سمجھنا مشکل ہو جاتا ہے۔ ہم "سمجھنا مشکل" کہنے کی وجہ یہ ہے کہ زیادہ تر LLMs میں، سوالات کے ذریعے جوابات حاصل کرنے کا صحیح طریقہ نقشہ نہیں بنایا جا سکتا۔ GPT-4 کے پیرامیٹرز کی تعداد کا ابھی تک اعلان نہیں کیا گیا ہے۔ اس کے پیشرو GPT-3 کے 175 بلین پیرامیٹرز تھے۔ ضروری طور پر زیادہ پیرامیٹرز کا مطلب مضبوط صلاحیتوں سے نہیں ہوتا، کیونکہ چھوٹے ماڈل جن میں زیادہ کمپیوٹیشنل سائیکل شامل ہوتے ہیں (جیسے کہ LLaMA [Large Language Model Meta AI] ماڈل سیریز) یا ایسے ماڈل جو انسانی تاثرات کی بنیاد پر باریک ٹیون کیے گئے ہیں وہ بڑے ماڈلز سے بہتر کارکردگی کا مظاہرہ کریں گے۔ مثال کے طور پر، انسانی جائزہ لینے والوں کے مطابق، InstrumentGPT ماڈل (1.3 بلین پیرامیٹرز والا ماڈل) ماڈل آؤٹ پٹ کے نتائج کو بہتر بنانے میں GPT-3 سے بہتر کارکردگی کا مظاہرہ کرتا ہے۔
GPT-4 کی مخصوص تربیت کی تفصیلات ابھی تک ظاہر نہیں کی گئی ہیں، لیکن پچھلی نسل کے ماڈلز بشمول GPT-3، InstrumentGPT، اور بہت سے دوسرے اوپن سورس LLM کی تفصیلات کا انکشاف کیا گیا ہے۔ آج کل، بہت سے AI ماڈلز ماڈل کارڈز کے ساتھ آتے ہیں۔ GPT-4 کی تشخیص اور حفاظتی ڈیٹا اسی طرح کے سسٹم کارڈ میں شائع کیا گیا ہے جو ماڈل بنانے والی کمپنی OpenAI نے فراہم کیا ہے۔ ایل ایل ایم کی تخلیق کو تقریباً دو مراحل میں تقسیم کیا جا سکتا ہے: ابتدائی پری ٹریننگ سٹیج اور فائن ٹیوننگ سٹیج جس کا مقصد ماڈل آؤٹ پٹ کے نتائج کو بہتر بنانا ہے۔ تربیت سے پہلے کے مرحلے میں، ماڈل کو ایک بڑا کارپس فراہم کیا جاتا ہے جس میں اصل انٹرنیٹ ٹیکسٹ بھی شامل ہے تاکہ اسے اگلے لفظ کی پیشین گوئی کرنے کی تربیت دی جا سکے۔ یہ بظاہر آسان "خودکار تکمیل" عمل ایک طاقتور بنیادی ماڈل تیار کرتا ہے، لیکن یہ نقصان دہ رویے کا باعث بھی بن سکتا ہے۔ انسانی اقدار تربیت سے پہلے کے مرحلے میں داخل ہوں گی، بشمول GPT-4 کے لیے پری ٹریننگ ڈیٹا کا انتخاب اور تربیت سے پہلے کے ڈیٹا سے فحش مواد جیسے نامناسب مواد کو ہٹانے کا فیصلہ کرنا۔ ان کوششوں کے باوجود، بنیادی ماڈل اب بھی نہ تو مفید ہو سکتا ہے اور نہ ہی نقصان دہ نتائج پر مشتمل ہونے کے قابل۔ فائن ٹیوننگ کے اگلے مرحلے میں، بہت سے مفید اور بے ضرر رویے سامنے آئیں گے۔
فائن ٹیوننگ کے مرحلے میں، زبان کے ماڈلز کے رویے کو اکثر انسانی تاثرات کی بنیاد پر زیر نگرانی فائن ٹیوننگ اور کمک سیکھنے کے ذریعے بہت زیادہ تبدیل کیا جاتا ہے۔ نگرانی کے فائن ٹیوننگ مرحلے میں، ٹھیکیدار کے ملازم فوری الفاظ کے لیے جوابی مثالیں لکھیں گے اور ماڈل کو براہ راست تربیت دیں گے۔ انسانی آراء کی بنیاد پر کمک سیکھنے کے مرحلے میں، انسانی جائزہ لینے والے ماڈل آؤٹ پٹ کے نتائج کو ان پٹ مواد کی مثالوں کے طور پر ترتیب دیں گے۔ پھر "انعام کا ماڈل" سیکھنے کے لیے اوپر دیے گئے موازنہ کے نتائج کو لاگو کریں اور کمک سیکھنے کے ذریعے ماڈل کو مزید بہتر بنائیں۔ حیرت انگیز نچلی سطح کی انسانی شمولیت ان بڑے ماڈلز کو ٹھیک بنا سکتی ہے۔ مثال کے طور پر، InstrumentGPT ماڈل نے کراؤڈ سورسنگ ویب سائٹس سے بھرتی کیے گئے تقریباً 40 کنٹریکٹر اہلکاروں کی ایک ٹیم کا استعمال کیا اور ایک اسکریننگ ٹیسٹ پاس کیا جس کا مقصد تشریح کرنے والوں کے ایک گروپ کو منتخب کرنا تھا جو آبادی کے مختلف گروپوں کی ترجیحات کے لیے حساس ہوں۔
جیسا کہ یہ دو انتہائی مثالیں، یعنی سادہ کلینکل فارمولہ [eGFR] اور طاقتور LLM [GPT-4]، ظاہر کرتی ہیں کہ انسانی فیصلہ سازی اور انسانی اقدار ماڈل آؤٹ پٹ کے نتائج کی تشکیل میں ایک ناگزیر کردار ادا کرتی ہیں۔ کیا یہ AI ماڈل اپنے متنوع مریض اور معالج کی اقدار کو حاصل کر سکتے ہیں؟ طب میں AI کے اطلاق کی عوامی رہنمائی کیسے کی جائے؟ جیسا کہ ذیل میں ذکر کیا گیا ہے، طبی فیصلے کے تجزیے کی دوبارہ جانچ ان مسائل کا اصولی حل فراہم کر سکتی ہے۔
طبی فیصلے کا تجزیہ بہت سے معالجین کے لیے واقف نہیں ہے، لیکن یہ امکانی استدلال (فیصلہ سازی سے متعلق غیر یقینی نتائج کے لیے، جیسا کہ تصویر 1 میں دکھائے گئے متنازعہ طبی منظر نامے میں انسانی نمو کے ہارمون کا انتظام کرنے کے لیے) اور غور کرنے والے عوامل کے درمیان فرق کر سکتا ہے۔ مردانہ قد میں 2 سینٹی میٹر کا اضافہ)، پیچیدہ طبی فیصلوں کے لیے منظم حل فراہم کرتا ہے۔ فیصلے کے تجزیے میں، معالجین کو سب سے پہلے ہر نتیجے سے وابستہ تمام ممکنہ فیصلوں اور امکانات کا تعین کرنا چاہیے، اور پھر سب سے مناسب آپشن کو منتخب کرنے کے لیے ہر نتیجے سے وابستہ مریض (یا دیگر فریق) کی افادیت کو شامل کرنا چاہیے۔ لہٰذا، فیصلے کے تجزیے کی درستگی کا انحصار اس بات پر ہے کہ آیا نتائج کی ترتیب جامع ہے، نیز اس بات پر بھی کہ آیا افادیت کی پیمائش اور امکان کا تخمینہ درست ہے۔ مثالی طور پر، یہ نقطہ نظر اس بات کو یقینی بنانے میں مدد کرتا ہے کہ فیصلے شواہد پر مبنی ہوں اور مریض کی ترجیحات کے مطابق ہوں، اس طرح معروضی ڈیٹا اور ذاتی اقدار کے درمیان فرق کو کم کیا جائے۔ یہ طریقہ کئی دہائیاں قبل طبی میدان میں متعارف کرایا گیا تھا اور اس کا اطلاق مریضوں کی انفرادی فیصلہ سازی اور آبادی کی صحت کی تشخیص پر ہوتا تھا، جیسے عام آبادی کو کولوریکٹل کینسر کی اسکریننگ کے لیے سفارشات فراہم کرنا۔
طبی فیصلے کے تجزیہ میں، افادیت حاصل کرنے کے لیے مختلف طریقے تیار کیے گئے ہیں۔ زیادہ تر روایتی طریقے انفرادی مریضوں سے براہ راست قدر حاصل کرتے ہیں۔ سب سے آسان طریقہ درجہ بندی کے پیمانے کا استعمال کرنا ہے، جہاں مریض ڈیجیٹل پیمانے پر کسی خاص نتائج کے لیے اپنی ترجیح کی سطح کا اندازہ لگاتے ہیں (جیسے کہ 1 سے 10 تک کا لکیری پیمانہ)، جس کے دونوں سروں پر انتہائی صحت کے نتائج (جیسے مکمل صحت اور موت) ہوتے ہیں۔ ٹائم ایکسچینج کا طریقہ ایک اور عام استعمال شدہ طریقہ ہے۔ اس طریقہ کار میں، مریضوں کو یہ فیصلہ کرنے کی ضرورت ہوتی ہے کہ وہ خراب صحت کی مدت کے بدلے کتنا صحت مند وقت گزارنے کے لیے تیار ہیں۔ معیاری جوئے کا طریقہ افادیت کا تعین کرنے کے لیے ایک اور عام استعمال شدہ طریقہ ہے۔ اس طریقہ کار میں، مریضوں سے پوچھا جاتا ہے کہ وہ دو میں سے کون سے آپشنز کو ترجیح دیتے ہیں: یا تو ایک خاص امکان (p) (t) کے ساتھ عام صحت میں ایک خاص تعداد میں رہتے ہیں، اور 1-p امکان کے ساتھ موت کا خطرہ برداشت کرتے ہیں۔ یا تو یہ یقینی بنائیں کہ صحت کے مختلف حالات میں t سال زندہ رہیں۔ مختلف p-values پر مریضوں سے متعدد بار پوچھیں جب تک کہ وہ کسی بھی آپشن کے لیے کوئی ترجیح نہیں دکھاتے، تاکہ مریض کے جوابات کی بنیاد پر افادیت کا حساب لگایا جا سکے۔
مریضوں کی انفرادی ترجیحات کو ظاہر کرنے کے لیے استعمال کیے جانے والے طریقوں کے علاوہ، مریضوں کی آبادی کے لیے افادیت حاصل کرنے کے طریقے بھی تیار کیے گئے ہیں۔ خاص طور پر فوکس گروپ ڈسکشن (مریضوں کو مخصوص تجربات پر تبادلہ خیال کرنے کے لیے اکٹھا کرنا) ان کے نقطہ نظر کو سمجھنے میں مدد کر سکتے ہیں۔ گروپ کی افادیت کو مؤثر طریقے سے جمع کرنے کے لیے، مختلف منظم گروپ ڈسکشن تکنیک تجویز کی گئی ہیں۔
عملی طور پر، طبی تشخیص اور علاج کے عمل میں افادیت کا براہ راست تعارف بہت وقت طلب ہے۔ ایک حل کے طور پر، سروے کے سوالنامے عام طور پر آبادی کی سطح پر یوٹیلیٹی سکور حاصل کرنے کے لیے تصادفی طور پر منتخب آبادیوں میں تقسیم کیے جاتے ہیں۔ کچھ مثالوں میں یورو کیول 5-جہتی سوالنامہ، 6-جہتی یوٹیلیٹی ویٹ شارٹ فارم، ہیلتھ یوٹیلیٹی انڈیکس، اور کینسر مخصوص یورپی کینسر ریسرچ اینڈ ٹریٹمنٹ آرگنائزیشن کوالٹی آف لائف سوالنامہ کور 30 ٹول شامل ہیں۔
پوسٹ ٹائم: جون 01-2024




