《深度学习之图像识别:核心技术与案例实战》 ——3.2.3 医学数据集
3.2.3 医学数据集
医学图像是当前人工智能技术新的发力点,在疾病的预测和自动化诊断方面有非常大的意义,下面将针对医学中病例分析、降噪、分割和检索等领域来介绍一些常用的数据集。
1.病例分析数据集
(1)ABIDE数据集
数据集地址为http://preprocessed-connectomes-project.org/abide/,发布于2013年,是一个对自闭症内在大脑结构进行分析的大规模评估数据集,包括539名患有ASD和573名正常个体的功能MRI图像。
(2)OASIS数据集
数据集地址为http://www.oasis-brains.org/。OASIS已经发布了第3代版本,第一次发布于2007年,Open Access Series of Imaging Studies(OASIS,即开放获取系列影像研究)是一项旨在使科学界免费提供大脑核磁共振数据集的项目,有两个数据集可用,下面是第1版的主要内容。
横截面数据集:年轻、中老年、非痴呆和痴呆老年人的横断面MRI数据,该组由416名年龄从18~96岁的受试者组成的横截面数据库组成。对于每位受试者,单独获得3个或4个T1加权MRI扫描会话。受试者都是右撇子,包括男性和女性,其中100名60岁以上的受试者已经临床诊断为轻度至中度阿尔茨海默病(AD)。
纵向集数据集:非痴呆和痴呆老年人的纵向磁共振成像数据,该集合包括150名年龄从60~96岁的受试者的纵向集合。每位受试者在两次或多次访视中进行扫描,间隔至少一年,总共进行373次成像。对于每个受试者,包括在单次扫描期间获得的3或4次单独的T1加权MRI扫描,受试者都是右撇子,包括男性和女性。在整个研究中,64人在初次就诊时表现为痴呆症,并在随后的扫描中仍然如此,其中包括51名轻度至中度阿尔茨海默病患者,另外14名受试者在初次就诊时表现为未衰退,在随后的访视中表现为痴呆症。
OASIS-3是对1000多名参与者数据的回顾性汇编,这些参与者数据是在30年的时间里通过WUSTL Knight ADRC在几个正在进行的项目中收集而来。参与者包括609名认知正常的成年人和489名处于认知衰退的不同阶段的个体,年龄范围从42~95岁。该数据集包含超过2000个MR会话,包括T1w、T2w、FLAIR、ASL、SWI、飞行时间、静止状态BOLD和DTI序列,许多MR会话都伴随着通过Freesurfer处理生成的体积分割文件。数据集来自3种不同示踪剂的PIB、AV45和FDG的PET成像,总共超过1500次原始成像扫描。
(3)DDSM数据集
数据集地址为http://marathon.csee.usf.edu/Mammography/Database.html,发布于2000年。这是一个用于筛选乳腺摄影的数字数据库,是乳腺摄影图像分析研究社区使用的资源。该项目的主要支持来自美国陆军医学研究和装备司令部的乳腺癌研究计划。DDSM项目是由马萨诸塞州综合医院(D. Kopans,R. Moore)、南佛罗里达大学(K. Bowyer)和桑迪亚国家实验室(P. Kegelmeyer)共同参与的合作项目。华盛顿大学医学院的其他病例由放射学和内科医学助理教授Peter E. Shile博士提供。
其他合作机构包括威克森林大学医学院(医学工程和放射学系)、圣心医院和ISMD、Incorporated。DDSM数据集建立的主要目的是促进计算机算法开发方面的良好研究,以帮助筛选数据,次要目的是开发算法,以帮助诊断,以及开发教学或培训辅助工具。
DDSM数据集包含约2500项研究,每项研究包括患者的每个***的两幅图像,以及一些相关的患者信息(如研究时间、ACR***密度评分、异常微妙评级、异常ACR关键字描述)和图像信息(如扫描仪、空间分辨率)。
(4)MIAS数据集
数据集地址为http://peipa.essex.ac.uk/pix/mias/all-mias.tar.gz,https://www.repository. cam.ac.uk/handle/1810/250394?show=full。
MIAS(Mammographic Image AnalysisSociety)是乳腺图像数据库。另外,乳腺MG数据(Breast Mammography)还有个专门的DataBase,可以查看很多数据集,链接地址为http://www.mammoimage.org/databases/。
(5)MURA数据集
数据集地址为https://stanfordmlgroup.github.io/competitions/mura/,发布于2018年2月,是吴恩达研究团队开源的MURA数据库。
MURA数据集是目前最大的X光片数据库之一,该数据集中包含了源自14982项病例的40895张肌肉骨骼X光片。1万多项病例里有9067例正常的上级肌肉骨骼和5915例上肢异常肌肉骨骼的X光片,部位包括肩部、肱骨、手肘、前臂、手腕、手掌和手指。每个病例包含一个或多个图像,均由放射科医师手动标记。
全球超过17亿人都有肌肉骨骼性的疾病,因此训练这个数据集,并基于深度学习检测骨骼疾病,然后进行自动异常定位,通过组织器官的X光片来确定机体的健康状况,进而对患者的病情进行诊断,可以帮助并缓解放射科医生的工作压力。
(6)ChestX-ray14数据集
数据集地址为https://www.kaggle.com/nih-chest-xrays/data和https://nihcc.app.box.com/v/ ChestXray-NIHCC,发布于2017年。ChestX-ray14数据集是由NIH研究院提供的,其中包含了30805名患者的112120个单独标注的14种不同肺部疾病(肺不张、变实、浸润、气胸、水肿、肺气肿、纤维变性、积液、肺炎、胸膜增厚、心脏肥大、结节、肿块和疝气)的正面胸部X光片。研究人员对数据采用NLP方法对图像进行标注,利用深度学习的技术早期发现并识别胸透照片中肺炎等疾病,对患者获得恢复和生存的最佳机会至关重要。
(7)LIDC-IDRI数据集
数据集地址为https://wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI。
LIDC-IDRI数据集是由美国国家癌症研究所(National Cancer Institute)发起收集的,目的是为了研究高危人群早期肺结节检测问题。该数据集***收录了1018个研究实例,对于每个实例中的图像,都由4位经验丰富的胸部放射科医师进行两阶段的诊断标注,该数据集由胸部医学图像文件(如CT、X光片)和对应的诊断结果病变标注组成。
(8)LUNA16数据集
数据集地址为https://luna16.grand-challenge.org/Home/,发布于2016年,是肺部肿瘤检测最常用的数据集之一。LUNA16数据集中包含888个CT图像,1084个肿瘤,图像质量和肿瘤大小的范围比较理想。该数据集分为10个子数据集,每个子数据集中包含89/88个CT扫描。
LUNA16的CT图像取自LIDC/IDRI数据集,选取了3位以上放射科医师意见一致的标注,并且去掉了小于3mm的肿瘤,便于训练。
(9)DeepLesion数据集
数据集地址为https://nihcc.app.box.com/v/DeepLesion。
DeepLesion数据集由美国国立卫生研究院临床中心(NIHCC)的团队开发,是迄今规模最大的多类别、病灶级别标注临床医疗CT图像的开放数据集。该数据集中的图像包括多种病变类型,目前包括4427名患者的32735张CT图像及病变信息,同时也包括肾脏病变、骨病变、肺结节和淋巴结肿大图像信息。DeepLesion多类别病变数据集可以用来开发自动化放射诊断的CADx系统。
(10)ADNI数据集
数据集地址为http://adni.loni.usc.edu/data-samples/access-data/。
ANDI涉及的数据集包括Clinical Data(临床数据)、MR Image Data(磁共振成像)、Standardized MRI Data Sets、PET Image Data(正电子发射计算机断层扫描)、Gennetic Data(遗传数据)和Biospecimen Data(生物样本数据)几部分。
(11)TCIC数据集
数据集地址为http://www.cancerimagingarchive.net/,是一个跨各种癌症类型(如癌、肺癌、骨髓瘤)和各种成像模式的癌症成像数据集。
(12)NSCLC(Non-Small Cell Lung Cancer)Radio genomics数据集
数据集地址为https://wiki.cancerimagingarchive.net/display/Public/NSCLC+ Radiogenomics,发布于2018年,来自斯坦福大学。该数据集来自211名受试者的非小细胞肺癌(NSCLC)队列的独特放射基因组,包括计算机断层扫描(CT)和正电子发射断层扫描(PET)/ CT图像。创建该数据集是为了便于发现基因组和医学图像特征之间的基础关系,以及预测医学图像生物标记的开发和评估。
(13)QIN LUNG CT数据集
数据集地址为https://wiki.cancerimagingarchive.net/display/Public/QIN+LUNG+CT#06 ecf66c9ea64205afbd1cec632694b0,发布于2017年。该数据集包括47位患者信息对应的47个CT,标注信息包括在左右两肺的位置部分肿瘤。
2.医学降噪数据集
(1)BrainWeb数据集
数据集地址为http://brainweb.bic.mni.mcgill.ca/brainweb/,发布于1997年,是一个仿真数据集,用于医学图像降噪。研究者可以截取不同断层的正常脑部仿真图像,包括T1、T2、PD3种断层,设置断层的厚度、叠加高斯噪声或者医学图像中常见的莱斯噪声,最终会得到181×217大小的噪声图像。
3.医学分割数据集
(1)DRIVE数据集
数据集地址为http://www.isi.uu.nl/Research/Databases/DRIVE/download.php,发布于2003年,是一个用于血管分割的数字视网膜图像数据集,由40张照片组成,其中的7张显示出了轻度早期糖尿病视网膜病变迹象。
(2)SCR数据集
数据集地址为http://www.isi.uu.nl/Research/Databases/SCR/,发布于2000年,胸部X光片的分割。胸部X光片中解剖结构的自动分割对于这些图像中的计算机辅助诊断非常重要。SCR数据集的建立是为了便于比较研究肺野、心脏和锁骨在标准的后胸前X线片上的分割。
(3)医学图像分析benchmark数据集
在网址https://grand-challenge.org/challenges/中提供了时间跨度超过10年的医学图像分析的竞赛数据。
(4)NIH dataset数据集
数据集地址为https://www.kaggle.com/nih-chest-xrays,发布于2017年。这是一个胸部X射线数据集,包含30805名患者,14个疾病图像标签(其中每个图像可以具有多个标签),112820个正面X射线图像,标签是使用自然语言处理从相关的放射学报告中自动提取。14种常见的胸部病变包括肺不张、巩固、浸润、气胸、水肿、肺气肿、纤维化、积液、肺炎、胸膜增厚、心脏扩大、结节、肿块和疝。由于许多原因,原始放射学报告(与这些胸部X射线研究相关)并不是公开分享的,因此文本挖掘的疾病标签预计准确度>90%,该数据集适合做半监督学习。
(5)ardiac MRI数据集
数据集地址为http://www.cse.yorku.ca/~mridataset/。
ardiac MRI是心脏病患者心房医疗影像数据,包括左心室的心内膜和外膜的图像标注。数据集***有33位患者案例,每个受试者的序列由沿着长20帧和8~15个切片组成,共7980张图像。
(6)Lung CT Segmentation Challenge 2017数据集
数据集地址为https://wiki.cancerimagingarchive.net/display/Public/Lung+CT+Segmentation+ Challenge+2017,发布于2017年,来自AAPM 2017 Annual Meeting的数据集,用于分割挑战赛。该数据集中一共有60位患者,对应96个CT,有人工标注的轮廓信息。
- 点赞
- 收藏
- 关注作者
评论(0)