Holistic and Comprehensive Annotation of Clinically Significant Findings on Diverse CT Images: Learning from Radiology Reports and Label Ontology

背景:

病变分类是CAD(computer-aid diagnosis)中的重要主题之一。其中的应用包含医学图像对肝病变和肺组织进行分类,描述肺结节和乳腺肿块的属性,预测病变的恶性。然而,现存的方法主要关注于特定的身体部位(肺,乳腺,肝等),还有在有限的标签集合中进行分辨。因此,尚未探索覆盖不同身体部位的许多具有临床意义的病变标签。 实际上,一个病变可以被分配多个标签,标签之间具有一定联系。
在本文中,我解决了一个普遍和临床上有用的问题来模仿放射科医生。当一个经验丰富的放射科医生阅读一个医疗图片时比如CT扫描图,他可以发现整个身体上的不同类型的病变,识别出病变的详细信息,比如,身体部位,类型和属性,然后把这些标签链接到预定义的实体。我们致力于开发一个新的框架来预测这些语义标签,让距离“学习阅读CT图像”这个目标更进一步。我们把这个任务叫做病变注释。
最近发布的DeepLesion数据集,很大的减轻了数据集小和变化少的问题。但是在这个数据集中,没有给出每个病变的标签。人工的标注时是很困难的。在最近的研究启发下,我们使用自动化的数据挖掘方法,从放射学报告里面提取标签。在解释CT扫描的过程中,放射医生会人工
注解图像中的病变,然后在报告中放一个图像注解(书签)的超链接。首先定位报告中的和病变相关的书签句子,然后从句子中提取标签。我们基于RadLex词典定义了细粒度的本体。这个过程全部由数据驱动,需要很少的人工,这样我们可以容易地建立使用丰富的词汇建立大量数据集。
fig1
我们提出了一个LesaNet(Lesion annotation network)来预测在给定一个病变图像下的语义标签。这个任务可以看作多标签分类问题。尽管之前有广泛的研究。但是我们的问题特别具有挑战性,因为以下原因:1)放射报告的格式比较随意,所以提取到的标签可能具有噪音或者不完整。2)有些标签不容易识别和学习,比如:相邻的部位,类似的类型,微妙的属性。3)标签高度不平衡和长尾。
为了解决这个问题,第一步:通过文本挖掘模型减少训练标签中的噪音。这个模型分析报告,发现和感兴趣的病变相关的标签。第二步:我们构建了一个本体论,其中包含层次上的上下关系和标签之间的互斥关系。通过层次关系,我们应用标签扩展策略来推断缺少的父标签。互斥关系用在关系困难样本挖掘算法中,帮助lesaNet学习困难案例然后提高准确度。第三步:我们附上了一个简单的得分传播层增强召回率,尤其是罕见标签。最后,度量学习被纳入LesaNet,不仅提高分类的准确度,也可以实现度预测的可解释性。
本次研究主要有以下贡献1)我们研究了整体病变注解的问题,提出了一个使用最少人工注解工作的自动化学习框架。2)提出了从放射学报告中挖掘相关标签的算法3)一个高效的病变注解算法LesaNet,也可以适应其他多标签图像分类问题。4)在LesaNet中包含了标签之间的关系,来使用基于本体的医疗知识。

相关工作

1.本体构建

我们基于RadLex构建我们的病变本体。RadLex是一个用于标准化索引和检索放射信息资源的综合词典,病变本体的标签可以分为三类:1)身体部位2)类型(结核,肿块等)3)属性(大小,形状,密度等).这些标签被组织成层次性的结构。如下图:
fig2

2.相关标签提取

构造好病变本体后,我们就可以从DeepLesion的关联的放射报告中提取标签。在报告中,放射医生描述病变和有时插入超链接,测量的大小,或者切片数量(我们把这些称为书签)。在本次工作中,我们只使用含有书签的句子来挖掘和病变相关的标签。首先我们使用NLTK进行标记句子,然后把单词按照词形变化归类得到最基本的形式,然后我们在预处理的时候匹配命名实体,然后基于它们的同义词把他们标准化为标签。由于相关和不确定的标签都会对接下来的训练带来影响,我们开发了一个文字挖掘模型来从相关标签中分辨他们。特别地,我们把它重新定义为分类问题。如果有一个含有多个标签和书签的句子,我们的目标是把相关的标签分配给每一个书签。为了这个目标,我们基于Peng【28,29】提出了一个CNN模型,这个模型的输入包含两个部分:含有标签和书签的单词序列和句子嵌入。这个模型输出一个标签和书签之间的关系类型(不相关,不确定,相关)的概率向量。

3.Lesion Annotation Network (LesaNet) 病变注解网络

fig3
上图是LesaNet的框架,输入时病变图像patch,最终输出时提炼后的分数$\widetilde{s}$,扩展的标签被用来训练LesaNet和优化四个损失。模型中的红色部分时我们的主要贡献
网络的主干是含有批规则化的VGG-16。我们的任务中,不同的标签可能会由不同水平的特征建模。比如,身体部位需要高级别的特征,然而许多属性描绘低级别的细节。因此我们使用多尺度的特征表示。
标签扩展:从报告中提取的标签是步完整的。这个层次化的标签关系可以帮助我们推断出丢失的父标签。如果一个孩子标签是true,那么他的所有父标签都是true。
关系难样本挖掘(RHEM):如果他们的孩子标签没有在报告中提及,标签扩展就不能完成其他丢失的标签。当放射科医师没有描述病变的每个属性或省略细粒度身体部分时,就会出现这个问题。虽然很难获取这些丢失正向标签,但是我们可以使用排他性关系找到可靠的负面标签。我们任务的一个挑战是有一些标签很难学习。我们希望损失函数可以自动的侧重它们。在OHEM(online hard example mining)启发下,定义了一个损失函数用参数改变对难样本的侧重。
得分传播层,在LesaNet最后附加一个得分传播层(SPL)。它是一个简单的FC层,用线性变换矩阵W细化预测得分,然后加权CE损失(等式1)。虽然层次化和排他性的标签关系已经通过标签扩充和RHEM明确地表达,但是使用SPL仍然是有用的,因为它可以提高正相关标记的得分,抑制负相关得分。另一方面,一些排他性标签在位置和外观上可能非常相似,例如血管瘤和肝脏转移。当SPL看到血管瘤的高分时,它会知道它也可能是转移,因为在某些情况下它们很难区分。因此,SPL实际上会略微增加转移的分数而不是抑制它。这种机制特别有利于改善对预测分数通常较低的罕见标签的召回率。这个基本原理将SPL与先前的知识传播方法[16]区分开来,知识传播方法对专有标签强制执行负权重,这导致我们的任务中的性能降低。 通过观察学到的W,我们还可以发现更多的标签相关性,并将它们与我们的先前知识进行比较。

Multilabel Triplet Loss

对于CAD任务,可解释性是重要的,我们期望这个算法可以为它的预测提供证据。对病变进行分类后,LesaNet可以显示在数据库中有相似标签的病变,这将是帮助用户更好地理解其预测以及病变本身。这是一个病变注解和检索问题。病变检索在[48]中研究,但只有8使用粗尺度的身体部位标签。 在本文中,我们使用从报告中挖掘的综合标签来学习特征嵌入来模拟病变之间的相似性。如图3所示,应用FC层将多尺度特征投影到256D向量,然后是三元组损失[33]。 为了测量具有多个标签的两个图像之间的相似性,Zhao等人。 [51]使用共同阳性标签的数量作为标准。 但是,我们认为每个病变可能有不同数量的标签,所以不相交的积极标签的数量也很重要。

测试结果

table1
基准方法是上述章节描述的多尺度多标签CNN。WARP(weighted approximate ranking pairwise )损失是一个常用的多标签损失,目的是把正向标签排名比负向标签排名高。病变嵌入是在基于粗粒度身体部分,病变位置和大小的标签训练的。在四种方法中LesaNet达到了最好的AUC和F1分数。

结论和未来

本篇文章中,我们研究了整体的病变注解问题,提出了从放射报告和标注本体中自动学习临床有意义的标签的框架。提出的病变注解网络提高了准确性和并具有相应的见解和可解释性。我们未来的工作可能会收集更多的数据,用来更好的学习稀有和困难标签,并融入更多人类知识。

个人总结和思考

本文的作者提出了从放射报告中学习,对整个放射图像进行标签标记的方法。这个方法将图像处理和文字处理结合在一起,对放射图像的标记达到了不错的效果。关键点在于对图像区域的识别,对文字的信息的提取,并把他们结合在一起。其中的每一个环节都对结果有一定的影响,如果能提高其中一部分,整体效果应该也会有一定的提高。想办法得到更多的训练数据也是应该有一定的提高的。