当AI把息肉自动标成红色,医生是否正悄悄丢失“裸眼捉凶”的能力?最近,一项研究用真实数据首次证实:依赖智能辅助后,人类医生ADR可掉6个百分点——为狂奔的AI内镜热潮,踩下了一脚科学急刹。
导语:当AI把息肉自动标成红色,医生是否正悄悄丢失“裸眼捉凶”的能力?最近,一项研究用真实数据首次证实:依赖智能辅助后,人类医生ADR可掉6个百分点——为狂奔的AI内镜热潮,踩下了一脚科学急刹。
息肉漏诊率居高不下,AI能否一劳永逸?
腺瘤漏诊就像结肠里留下的定时炸弹,一次“干净”的镜检若ADR低于20%,患者术后五年间期癌发生率陡升三倍;可即便欧美质控严苛,真实世界仍有25%的资深镜师长期踩线。原因并非技术硬件——1080p甚至4K画质早已普及,而是人眼在褶皱、残液与呼吸伪影里快速疲劳,漏掉平坦型、锯齿状及<5 mm病变。更棘手的是,这些“小不点”里有高达16%的分子通路已呈现BRAF突变或CIMP高甲基化,五年即可跃升为进展期癌,传统“看见才切”的策略对此根本来不及。
AI-CADe系统被寄望成为“第二双眼”,二十余项RCT汇总显示可把ADR绝对值推高8%,但所有试验都默认一个前提:对照组镜师长期“裸奔”就能维持原有水平。现实却可能相反——当医生日复一日依赖红线框提示,视觉搜索策略、认知负荷分配甚至手-眼微协调都会被算法重新编程;一旦撤机,可能出现比从未用过AI更差的“技能回退”。这种“自动化致钝”在航空、核电厂早有警示,但在消化内镜领域既无量化数据,也无机制解析,成为快速铺开AI政策时最大的隐形盲区。

2025年8月,Lancet Gastroenterol Hepatol在线发表了一篇题为“Endoscopist deskilling risk after exposure to artificial intelligence in colonoscopy”的多中心观察研究,首次用真实世界病历回答了上述担忧。研究者抓住“AI撤机后裸眼表现”这一空白,把“持续AI暴露是否削弱标准结肠镜质量”设为焦点,为快速铺开的智能内镜政策及时踩了一脚科学刹车。
四中心回顾性嵌套队列,对比AI引入前后三月的裸眼ADR
本研究是一项多中心、回顾性、观察性队列研究,嵌套于波兰结直肠癌筛查AI项目ACCEPT(UMIN000044748)。2021年11-12月四家内镜中心先后上线同一款CADe系统(Olympus ENDO-AID),并按“单日AI-双日非AI”的固定日程随机开机,天然形成“有-无”辅助的交错环境。作者截取AI上线前后各三个月(2021-09-08至2022-03-09)所有诊断性结肠镜,排除妊娠、炎症性肠病、肠段切除、抗凝禁忌等病例,并剔除每中心上线首批100例“学习曲线”镜次,最终纳入1443例“纯裸眼”检查(上线前795例、上线后648例),由19位已完成>2000例的资深内镜医师完成。
主要终点:AI引入前后标准镜ADR差异;次要终点:人均腺瘤数(APC)、人均进展期腺瘤数及镜师个体ADR变化。采集患者年龄性别、镇静、波士顿肠道准备评分、插管完整性、镜师专业与年限等混杂变量,采用混合效应logistic回归校正,并做中心、性别、年龄分层。
裸眼ADR从28.4%跌至22.4%,绝对降幅6%
▌裸眼ADR掉6个百分点,图1柱状图直观呈现实质性下滑AI上线前795例标准结肠镜ADR 28.4%(226/795),上线后648例降至22.4%(145/648),绝对差−6.0%(95% CI −10.5~−1.6,p=0.0089,图1主柱)。多变量混合模型证实“AI暴露”是独立负向因子(OR 0.69;0.53-0.89),与男性患者、≥60岁并列入选,提示即便校正年龄性别、镇静、肠道准备等混杂,AI本身仍显著拉低裸眼检出(图1)。

图1 标准无AI结肠镜在AI息肉检测系统引入前后的ADR变化
▌人均腺瘤数同步萎缩,“量减”而非“类型降”平均腺瘤数(APC)从0.54降至0.43(差−0.11;−0.01~0.24,p=0.071),虽未跨过α=0.05,但下降方向与ADR一致;进展期腺瘤率维持0.06不变,说明AI致钝主要影响小腺瘤视觉捕获,而非改变对大块病变的判断,也解释了为何癌检出率未同步下滑(上线前后癌0.8% vs 1.2%,表1)。
表1 AI引入前后标准无AI结肠镜质量指标对比

▌医师个体轨迹呈“一升十五降”,暴露高基线者更受伤
19位镜师中15人ADR后降;女性镜师平均从37.5%跌至22.4%(−15.1%,图2红点),男性镜师仅−2.9%。中心层面,原本ADR>30%的1、3中心分别下降8.4%与12.1%,而低基线2、4中心仅降2~3%,呈现“天花板越高,回落空间越大”的回归均值叠加致钝效应(图2)。

图2 各中心每位内镜医师在标准无AI结肠镜中的ADR变化
▌亚组交互:年轻女性与老年男性走势相反<60岁女性绝对降6.7%,同龄男性降8.0%;而≥60岁男性反而微升1.6%,提示年龄-性别交互调节“去技能化”幅度——可能因老年男性息肉体积更大、视觉残留记忆更深,或镜师对该人群保持更高警觉。
▌AI辅助组同期ADR,仅25.3%复现“人为抬高差异”同一时段734例AI辅助镜ADR 25.3%,未显著优于“历史裸眼”28.4%,却高于“后暴露裸眼”22.4%;作者据此质疑既往RCT“AI+8%”结论:对照组或被AI环境污染而人为压低至22%平台,放大净效益。真实世界时间轴显示的是裸镜质量先高后低,而非AI自身更高,提示多项注册试验可能高估绝对收益。
总结
本研究首次以真实世界数据证实,持续依赖CADe系统3个月即可显著降低内镜医师裸眼检出腺瘤的能力,且女性医师、女性患者及高基线质量中心风险更甚。该结果不仅解释了为何部分随机试验中AI“锦上添花”效应突出,也为全球快速部署智能内镜的政策敲响警钟:若缺乏“无AI”训练轮换与技能监测,ADR反而可能不升反降。作者呼吁开展随机交叉试验,并探索“可解释AI+认知强制策略”以减轻自动化致钝,为“智能辅助”与人工技艺的平衡提供循证方案。
参考文献
BUDZYŃ K, ROMAŃCZYK M, KITALA D,et al. Endoscopist deskilling risk after exposure to artificial intelligence in colonoscopy: a multicentre, observational study. Lancet Gastroenterol Hepatol. 2025;10(10):896-903. DOI: 10.1016/S2468-1253(25)00133-5.
“医学论坛网”发布医学领域研究成果和解读,供专业人员科研参考,不作为诊疗标准,使用需根据具体情况评估。
copyright©医学论坛网 版权所有,未经许可不得复制、转载或镜像
京ICP证120392号 京公网安备110105007198 京ICP备10215607号-1 (京)网药械信息备字(2022)第00160号