به دلیل ابهام ذاتی در تصاویر پزشکی مانند اشعه ایکس، رادیولوژیستها اغلب هنگام توصیف وجود یک آسیبشناسی خاص، مانند ذاتالریه، از کلماتی مانند “ممکن است” یا “احتمالاً” استفاده میکنند.
اما آیا کلماتی که رادیولوژیستها برای بیان سطح اطمینان خود استفاده میکنند، به طور دقیق نشان میدهند که یک آسیبشناسی خاص چند وقت یکبار در بیماران رخ میدهد؟ یک مطالعه جدید نشان میدهد که وقتی رادیولوژیستها با استفاده از عبارتی مانند “بسیار محتمل” در مورد یک آسیبشناسی خاص ابراز اطمینان میکنند، تمایل به بیش از حد مطمئن بودن دارند، و برعکس، وقتی با استفاده از کلمهای مانند “احتمالاً” اطمینان کمتری ابراز میکنند، کمتر از حد مطمئن هستند.
یک تیم چند رشتهای از محققان MIT با همکاری محققان و پزشکان بیمارستانهای وابسته به دانشکده پزشکی هاروارد، با استفاده از دادههای بالینی، چارچوبی را برای تعیین میزان قابل اعتماد بودن رادیولوژیستها هنگام بیان قطعیت با استفاده از اصطلاحات زبان طبیعی ایجاد کردند.
آنها از این رویکرد برای ارائه پیشنهادات واضحی استفاده کردند که به رادیولوژیستها کمک میکند عبارات اطمینان را انتخاب کنند که قابلیت اطمینان گزارشهای بالینی آنها را بهبود میبخشد. آنها همچنین نشان دادند که همین تکنیک میتواند به طور موثر کالیبراسیون مدلهای زبانی بزرگ را با همسو کردن بهتر کلماتی که مدلها برای بیان اطمینان استفاده میکنند با دقت پیشبینیهایشان، اندازهگیری و بهبود بخشد.
این چارچوب جدید با کمک به رادیولوژیستها در توصیف دقیقتر احتمال وجود آسیبشناسیهای خاص در تصاویر پزشکی، میتواند قابلیت اطمینان اطلاعات بالینی حیاتی را بهبود بخشد.
پیچی وانگ، دانشجوی فارغالتحصیل MIT و نویسنده اصلی مقالهای در مورد این تحقیق، میگوید: “کلماتی که رادیولوژیستها استفاده میکنند مهم هستند. آنها بر نحوه مداخله پزشکان، از نظر تصمیمگیری برای بیمار، تأثیر میگذارند. اگر این متخصصان بتوانند در گزارشهای خود قابل اعتمادتر باشند، بیماران ذینفع نهایی خواهند بود.”
در این مقاله، نویسنده ارشد پولینا گولند، استاد مهندسی برق و علوم کامپیوتر (EECS)، محقق اصلی آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) و رهبر گروه بینایی پزشکی؛ و همچنین باربارا دی. لام، همکار بالینی مرکز پزشکی بث اسرائیل دیکنِس؛ یینگچنگ لیو، دانشجوی فارغالتحصیل MIT؛ آمنه عسگریطرقی، پژوهشگر فوق دکترا در ماساچوست جنرال بریگهام (MGB)؛ رامسوار پاندا، عضو هیئت علمی پژوهشی آزمایشگاه هوش مصنوعی MIT-IBM واتسون؛ ویلیام ام. ولز، استاد رادیولوژی در MGB و دانشمند پژوهشی در CSAIL؛ و تینا کاپور، استادیار رادیولوژی در MGB، با او همکاری دارند. این تحقیق در کنفرانس بینالمللی یادگیری بازنماییها ارائه خواهد شد.
رمزگشایی عدم قطعیت در کلمات
یک رادیولوژیست که در حال نوشتن گزارشی در مورد عکس قفسه سینه است ممکن است بگوید که تصویر “احتمالاً” ذاتالریه را نشان میدهد، که یک عفونت است که کیسههای هوایی در ریهها را ملتهب میکند. در این صورت، یک پزشک میتواند برای تأیید تشخیص، دستور اسکن توموگرافی کامپیوتری (CT) را بدهد.
با این حال، اگر رادیولوژیست بنویسد که عکس اشعه ایکس “به احتمال زیاد” ذاتالریه را نشان میدهد، پزشک ممکن است بلافاصله درمان را شروع کند، مثلاً با تجویز آنتیبیوتیک، در حالی که همچنان آزمایشهای بیشتری را برای ارزیابی شدت بیماری تجویز میکند.
وانگ میگوید، تلاش برای اندازهگیری کالیبراسیون، یا قابلیت اطمینان، اصطلاحات زبان طبیعی مبهم مانند “احتمالاً” و “به احتمال زیاد” چالشهای زیادی را به همراه دارد.
روشهای کالیبراسیون موجود معمولاً به امتیاز اطمینان ارائه شده توسط یک مدل هوش مصنوعی متکی هستند، که نشاندهنده احتمال تخمینی مدل برای درست بودن پیشبینی آن است.
به عنوان مثال، یک برنامه هواشناسی ممکن است احتمال ۸۳ درصدی باران برای فردا را پیشبینی کند. اگر در تمام مواردی که احتمال ۸۳ درصدی باران را پیشبینی میکند، تقریباً ۸۳ درصد مواقع باران ببارد، آن مدل به خوبی کالیبره شده است.
وانگ میگوید: “اما انسانها از زبان طبیعی استفاده میکنند، و اگر این عبارات را به یک عدد واحد نگاشت کنیم، توصیف دقیقی از دنیای واقعی نیست. اگر فردی بگوید یک رویداد “احتمالاً” رخ میدهد، لزوماً به احتمال دقیق، مانند ۷۵ درصد، فکر نمیکند.”
رویکرد محققان به جای تلاش برای نگاشت عبارات اطمینان به یک درصد واحد، آنها را به عنوان توزیعهای احتمال در نظر میگیرد. یک توزیع، دامنه مقادیر ممکن و احتمالات آنها را توصیف میکند – به منحنی زنگولهای کلاسیک در آمار فکر کنید.
وانگ میافزاید: “این رویکرد ظرافتهای بیشتری از معنای هر کلمه را در بر میگیرد.”
ارزیابی و بهبود کالیبراسیون
محققان از تحقیقات قبلی که از رادیولوژیستها نظرسنجی کرده بودند برای به دست آوردن توزیعهای احتمالی متناظر با هر عبارت اطمینان تشخیصی، از “بسیار محتمل” تا “مطابق با”، استفاده کردند.
به عنوان مثال، از آنجایی که رادیولوژیستهای بیشتری معتقدند عبارت “مطابق با” به معنای وجود یک آسیبشناسی در یک تصویر پزشکی است، توزیع احتمال آن به شدت به یک قله بالا میرسد، و بیشتر مقادیر در محدوده ۹۰ تا ۱۰۰ درصد متمرکز میشوند.
در مقابل، عبارت “ممکن است نشان دهد” عدم اطمینان بیشتری را منتقل میکند، که منجر به یک توزیع زنگولهای پهنتر با مرکز حدود ۵۰ درصد میشود.
روشهای معمول، کالیبراسیون را با مقایسه میزان همسویی امتیازات احتمال پیشبینی شده یک مدل با تعداد واقعی نتایج مثبت ارزیابی میکنند.
رویکرد محققان از همان چارچوب کلی پیروی میکند اما آن را گسترش میدهد تا این واقعیت را در نظر بگیرد که عبارات اطمینان به جای احتمالات، توزیعهای احتمال را نشان میدهند.
محققان برای بهبود کالیبراسیون، یک مسئله بهینهسازی را فرموله و حل کردند که میزان استفاده از عبارات خاص را تنظیم میکند تا اطمینان را با واقعیت بهتر همسو کند.
آنها یک نقشه کالیبراسیون به دست آوردند که اصطلاحات اطمینانی را پیشنهاد میکند که یک رادیولوژیست باید برای دقیقتر کردن گزارشها برای یک آسیبشناسی خاص از آنها استفاده کند.
وانگ توضیح میدهد: “شاید، برای این مجموعه داده، اگر هر بار که رادیولوژیست میگفت ذاتالریه “وجود دارد”، عبارت را به “به احتمال زیاد وجود دارد” تغییر میداد، در آن صورت بهتر کالیبره میشد.”
وقتی محققان از چارچوب خود برای ارزیابی گزارشهای بالینی استفاده کردند، دریافتند که رادیولوژیستها به طور کلی در تشخیص بیماریهای شایع مانند آتلکتازی کمتر از حد مطمئن هستند، اما در مورد بیماریهای مبهمتر مانند عفونت بیش از حد مطمئن هستند.
علاوه بر این، محققان قابلیت اطمینان مدلهای زبانی را با استفاده از روش خود ارزیابی کردند و بازنمایی دقیقتری از اطمینان نسبت به روشهای کلاسیک مبتنی بر امتیازات اطمینان ارائه دادند.
وانگ میافزاید: “بسیاری از اوقات، این مدلها از عباراتی مانند “مطمئناً” استفاده میکنند. اما از آنجایی که آنها در پاسخهای خود بسیار مطمئن هستند، مردم را تشویق نمیکند که صحت اظهارات را خودشان بررسی کنند.”
محققان در آینده قصد دارند به همکاری با پزشکان به امید بهبود تشخیص و درمان ادامه دهند. آنها در تلاش هستند تا مطالعه خود را گسترش دهند تا دادههای اسکنهای توموگرافی کامپیوتری شکمی را نیز شامل شود.
علاوه بر این، آنها علاقهمند به مطالعه میزان پذیرش رادیولوژیستها نسبت به پیشنهادات بهبود کالیبراسیون و اینکه آیا آنها میتوانند به طور ذهنی استفاده خود از عبارات اطمینان را به طور موثر تنظیم کنند یا خیر، هستند.
آتول بی. شیناگاره، دانشیار رادیولوژی در دانشکده پزشکی هاروارد، که در این تحقیق دخیل نبوده است، میگوید: “بیان اطمینان تشخیصی جنبه مهمی از گزارش رادیولوژی است، زیرا بر تصمیمات مهم مدیریتی تأثیر میگذارد. این مطالعه رویکردی نوآورانه برای تجزیه و تحلیل و کالیبره کردن نحوه بیان اطمینان تشخیصی توسط رادیولوژیستها در گزارشهای عکس قفسه سینه اتخاذ میکند و بازخوردی در مورد استفاده از اصطلاحات و نتایج مرتبط ارائه میدهد. این رویکرد پتانسیل بهبود دقت و ارتباط رادیولوژیستها را دارد، که به بهبود مراقبت از بیمار کمک خواهد کرد.”
این تحقیق تا حدی توسط بورسیه تاکدا، آزمایشگاه هوش مصنوعی MIT-IBM واتسون، برنامه ویستروم CSAIL MIT و کلینیک جمیل MIT تأمین شده است.
منبع: اخبار MIT