打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
丁香园论坛

之前通过一位台湾教授通过他们的公共数据库发表了200+的文章,给大家讲了下利用公共数据库发文章的便捷。他不用像收集自己医院的病例资料那样繁琐并且费时,只要你有idea,很快就可以出文章,省去了收集病例的时间。

大数据时代的关于临床数据库的思考http://www.dxy.cn/bbs/topic/35564374

现在,我给大家介绍可以用的第一个公共数据库——SEER (Surveillance,Epidemiology and End Results),中文名:美国国立癌症研究所“监测、流行病学和结果数据库”。

我将开一个系列的帖子给大家讲解SEER的使用。

下面我来简单介绍下SEER

一、SEER简介

SEER是较为典型的医学数据库,由美国国立癌症研究所(National Cancer Institute,NCI)于1973 年所建立,是北美最具代表性的大型肿瘤登记注册数据库之一,收集了大量循证医学的相关数据,为临床医师的循证实践及临床医学研究提供了系统的证据支持和宝贵的第一手资料。其官网网址如下:https://seer.cancer.gov/

数据库所涉及的肿瘤划分为9类:乳腺、结肠&直肠、其他消化系统、女性生殖、淋巴&白血病、男性生殖、呼吸系统、泌尿系统及其它尚未确指的类型。

数据记录中包括患者的注册编号、个人信息、原发病灶部位、肿瘤尺寸、肿瘤编码、治疗方案、死亡原因等信息。

二、SEER的获取

SEER获取途径有3种:

(2)通过SEER*STAT 软件的客户端-服务器模式进入互联网(http://seer.cancer.gov/resources/),这是目前最广泛并且最为简单的数据获取手段,之后为大家详细讲解这种方法。

(2)从SEER 网站上下载压缩文件,解压缩后可得到相应的二进制数据文件及相关文本数据。这种途径往往得到的是二进制的资料,需要通过编程软件将其转换成我们所能识别的资料,可以通过Python或者R软件进行转换,但是需要一定的Python或者R软件的基础。

(3)向SEER 管理人员申请索取数据库的DVD 光盘,可直接获取SEER*STAT 软件、二进制数据文件及相关文本数据。不管何种数据获取方式,之前都要签署有关SEER 研究数据的协议。

不管何种数据获取方式,之前都要签署有关SEER 研究数据的协议。前2种获取方式都要使用由SEER 提供的用户名和密码进入网络。之后会为大家讲解如何一步一步获取资料。

三、SEER的数据构成

SEER 研究数据主要由肿瘤发病率数据、人口数据及数据字典构成。

下面,我将根据获取途径(2)所获得的最新文件进行讲解

(1)1973-2013 年期间肿瘤发病率研究数据(Incidence)

肿瘤发病率研究数据均按照国际疾病分类肿瘤学专辑第三版(International Classification of Diseases for OncologyThird Edition,ICD-O-3)来编码,并保存为TXT 文本格式。

此目录包括4 个子目录:

yr1973_2013.seer9:该目录保存了1973~2013 期间由SEER 第九登记站提交的部分州县的肿瘤研究数据。具体州县为:亚特兰大、康涅狄格、底特律、夏威夷、爱荷华、墨西哥、旧金山、弗朗西斯科、奥克兰、西雅图和犹他州普吉特海湾。

yr1992_2011.sj_la_rg_ak : 该目录保存了1992~2011 期间部分州县的肿瘤研究数据。具体州县为:圣若泽、洛杉矶、蒙特雷、格鲁吉亚和阿拉斯加农村。YR2000_2011.CA_KY_LO_NJ_GA : 该目录保存了2000~2011 期间部分州县的肿瘤研究数据。具体州县为:大加利福尼亚、肯塔基、路易斯安那、新泽西和大格鲁吉亚。

yr2005.lo_2nd_half :该目录保存了2005.7~2005.12 期间路易斯安那州的肿瘤诊断情况。这4 个子目录中的研究数据均按上述9 类肿瘤情况分别组织。

(2)人口数据分年龄段的统计情况(Populations)

人口数据的统计情况也遵循ICD-O-3 标准来编码,并保存为TXT 文本格式。按两种方法对人口数据进行分段统计。

①以5 年为一个年龄段跨度,共划分为19个年龄段组。

②以一年为一个年龄段跨度,从0 岁至100 岁以上,共划分为101 个年龄段组。此目录中的数据文件与肿瘤发病率的数据文件相对应,分别收集了相应年份跨度和地区的基本的人口统计数据情况。

(3)数据字典(Data dictionaries)

所谓数据字典,可以看作是数据库中所有成分的定义和解释的文字集合,描述了数据库中每条记录所包含的属性意义和取值说明。因此,在数据字典中建立起严密一致的定义非常有助于用户对于数据库的理解和使用。

这个文件非常重要,尤其是对于用Python或者R软件提取数据的用户,因为转换二进制成可以识别的文字无时无刻不用到这个。

上述数据库的构成是通过第二种获取途径的文件进行讲解的,之后给大家介绍的第一种途径也会介绍上述内容,所以就先不介绍了,到时候直接结合软件给大家讲解。

四、SEER的延伸和链接

由于SEER的局限性,随访资料结局往往只有死亡与非死亡资料,并没有复发等结局指标,所以在此基础上,美国工作者开发了一系列基于SEER数据库的数据库,但是这些数据库往往需要我们交钱才可以使用,有些使用甚至需要向机构发研究需要的protocol才可以使用,所以一方面烧钱,一方面使用也比较麻烦。

我这里只给大家简单介绍下

目前主要有3个可使用的链接的数据库,包括SEER-Medicare,SEER-MHOS,SEER-CAHPS。第三个数据库近期将会开放。

目前使用最多的就是SEER-Medicare数据库,这个只需要交钱就可以使用了,后两者还需要向机构发研究需要的protocol才可以花钱使用。

具体烧钱的价格如下:

SEER-Medicare数据库

SEER-MHOS数据库

 

三个数据库的差异(截图于SEER-CAHPS官网)

附上三个数据库的网址,里面有非常详细的介绍和如何使用,由于自己了解不多,所以无法给大家进行详细的介绍,表示非常抱歉。

SEER-Medicare:https://healthcaredelivery.cancer.gov/seermedicare/

SEER-MHOS:https://healthcaredelivery.cancer.gov/seer-mhos/

SEER-CAHPS:https://healthcaredelivery.cancer.gov/seer-cahps/

五、利用SEER发表的文献

我在Pubmed里简单检索了下利用SEER数据库(包括SEER-Medicare,SEER-MHOS,SEER-CAHPS等),

目前利用SEER累计发表的文献有4000+篇

而后我又检索了下国人利用这个数据库发表的文献,只有168篇!!!!!,其中我粗略看了下有些还不是关于SEER数据库的(检索有些偏差)。也就是发表的文献要比168篇要少的。

以上是SEER数据库的简单介绍,如果大家觉得很有必要了解如何使用SEER数据库的,请大家支持我,我将逐一详细介绍SEER数据库的获取和使用。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
TCGA与SEER两大癌症数据库首次比较
JAMA Oncology长文|专家综述比SEER数据库大3倍的数据库
研究发现补充睾固酮可护老,顾心脏防住院
全网首份癌症预后大数据排名,张煜医生整理
强烈推荐!大型医学公共数据库大盘点
大数据时代最全的医学公共数据库合集整理
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服