人工智能工具可以快速準(zhǔn)確地創(chuàng)建患者 CT 掃描或 X 射線的詳細(xì)敘述報(bào)告,可以大大減輕忙碌的放射科醫(yī)生的工作量。
這些人工智能報(bào)告不僅僅識(shí)別圖像上是否存在異常,還傳達(dá)了復(fù)雜的診斷信息、詳細(xì)的描述、細(xì)致入微的發(fā)現(xiàn)和適當(dāng)程度的不確定性。簡(jiǎn)而言之,它們反映了人類(lèi)放射科醫(yī)生如何描述他們?cè)趻呙柚锌吹降膬?nèi)容。
幾種能夠生成詳細(xì)敘述報(bào)告的人工智能模型已經(jīng)開(kāi)始出現(xiàn)。隨之而來(lái)的是自動(dòng)評(píng)分系統(tǒng),可以定期評(píng)估這些工具,以幫助告知他們的發(fā)展并提高他們的表現(xiàn)。
那么,當(dāng)前系統(tǒng)衡量人工智能模型放射學(xué)性能的效果如何?
哈佛醫(yī)學(xué)院研究人員 8 月 3 日在《模式》雜志上發(fā)表的一項(xiàng)新研究表明,答案是好的,但并不是很好。
研究人員表示,確保評(píng)分系統(tǒng)的可靠性對(duì)于人工智能工具的持續(xù)改進(jìn)和臨床醫(yī)生對(duì)它們的信任至關(guān)重要,但研究中測(cè)試的指標(biāo)未能可靠地識(shí)別人工智能報(bào)告中的臨床錯(cuò)誤,其中一些錯(cuò)誤很?chē)?yán)重。研究人員表示,這一發(fā)現(xiàn)凸顯了改進(jìn)的迫切需要以及設(shè)計(jì)忠實(shí)準(zhǔn)確地監(jiān)控工具性能的高保真評(píng)分系統(tǒng)的重要性。
該團(tuán)隊(duì)測(cè)試了人工智能生成的敘述報(bào)告的各種評(píng)分指標(biāo)。研究人員還要求六名人類(lèi)放射科醫(yī)生閱讀人工智能生成的報(bào)告。
分析表明,與人類(lèi)放射科醫(yī)生相比,自動(dòng)評(píng)分系統(tǒng)評(píng)估人工智能生成報(bào)告的能力較差。他們誤解了人工智能工具所犯的臨床錯(cuò)誤,在某些情況下甚至忽視了這一錯(cuò)誤。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!