计算工具采用dna编码的方法对不同的健康数据库进行集成和分析
![Tucuxi-BLAST workflow and data organization scheme. Four variables are selected in common between two datasets, then DNA coding is performed. The coding result is submitted to the BLAST algorithm and, finally, ML is applied to classify the RL (A). Codon wheel used in DNA coding (B), results of BLAST for RL (C), and Tucuxi-BW module for data deduplication (D). Credit: <i>PeerJ</i> (2022). DOI: 10.7717/peerj.13507 一个创新的计算工具,集成和分析不同的健康数据库](https://scx1.b-cdn.net/csz/news/800a/2022/an-innovative-computat.jpg)
巴西研究人员发明了一种创新而敏捷的计算工具,可以连接和分析数百万患者记录的不同健康数据库。该平台被称为Tucuxi-BLAST,使用代表DNA序列中的核苷酸(a、T、C或G)的字母对数据库中的识别记录进行编码,如患者姓名、母亲姓名和出生地。这种将个人“转换”为DNA的过程能够在数据库中实现准确的记录链接,尽管存在排版错误和其他不一致的情况。
该工具可用于研究、流行病学分析和公共政策制定。
例如,通过巴西国家卫生服务系统(SUS)接种疫苗的人可以与其他数据集进行交叉引用,以找到患有某种特定疾病的接种疫苗的患者。即使疫苗接种记录包含错误或未完成的字段,Tucuxi-BLAST也能够将其链接到另一个数据库中的同一患者,因为它将不一致的地方当作DNA突变来处理。基因组学工具通常需要比较片段,以确定它们是相似还是不同,以及是否连接有问题的碱基对。如果每个个体对应一个字母序列,那么该工具就可以对来自不同存储库的数据进行交叉引用和链接。
“统一卫生系统是医疗和卫生领域宝贵的信息来源流行病学研究因为它储存健康数据数以百万计的病人。然而,与疾病相关的记录和其他类型的数据存储在不同的数据库中,这些数据库之间并不总是相互沟通。我们已经开发的方法能够准确和快速地影响记录链接,”Helder Nakaya是发表在该杂志上的一篇研究文章的通讯作者PeerJ他告诉Agência FAPESP。
Nakaya是一名免疫学家,供职于São保罗大学药学院(ffc - usp)、阿尔伯特·爱因斯坦犹太医院(HIAE)、巴斯德- usp科学平台和Todos pela Saúde研究所。他还就职于研究、创新和传播中心(RIDCs)之一的炎症疾病研究中心(CRID)。
在实践中使用工具
甚至在这篇文章发表之前,Tucuxi-BLAST就已经开始在实践中部署了。例如,它被用来将卫生部疟疾监测系统的四年数据与卫生部的另一个分支机构Oswaldo Cruz基金会(Fiocruz)下属的Heitor Vieira Dourado博士热带医学基金会(位于亚马逊州玛瑙斯)的临床数据进行交叉参照。
结果显示,艾滋病毒呈阳性是间日疟原虫疟疾患者的一种风险,这对公共政策构成了另一项挑战。由于缺乏单一的标识,Tucuxi-BLAST使用了患者姓名、母亲姓名和出生日期。2022年5月发表的一篇文章描述了这些发现科学报告.
这项研究由亚马逊州立大学(UEA)的研究人员领导。Nakaya和FCF-USP的José Deney Alves Araújo,第一作者PeerJ文,也参与了。Araújo将这种工具命名为Tucuxi,以纪念一种生活在亚马逊盆地河流中的淡水海豚Sotalia fluviatilis。
BLAST (Basic Local Alignment Search Tool)是生物信息学中用于在大型数据库中生成核苷酸或蛋白质序列对齐的一套程序。
它是如何工作的
为了开发这种新方法,科学家们使用密码子轮将患者数据翻译成DNA序列,该密码子轮在不同的运行过程中动态变化,而不影响过程的效率。密码子是为DNA或RNA分子中特定氨基酸编码的三个核苷酸序列。密码子轮用于识别由任何DNA或RNA密码子编码的氨基酸。
这种编码方案支持实时数据加密,因此在链接过程中提供了额外的隐私层。“它使用DNA加密信息,保证隐私,”Nakaya说。
使用BLAST对dna编码的识别字段进行比较,机器学习算法自动对最终结果进行分类。
就像在比较基因组学Tucuxi-BLAST还允许同时集成来自多个管理数据库的数据,而不需要复杂的数据预处理。
在这项研究中,研究小组使用Tucuxi-BLAST测试和比较了一个包含3亿条记录的模拟数据库,以及四个包含感染不同病原体的真实病例数据的大型管理数据库。
结论是,尽管存在拼写错误和其他错误和遗漏,Tucuxi-BLAST在五分之一的时间内成功处理了最大数据集(200,000条记录)的记录链接,即23小时,而最先进的方法需要127小时(5天和7小时)。
研究人员建立了一个网站,用户可以将单词、短语和名字翻译成DNA。
Nakaya指出,英国、加拿大和澳大利亚等几个国家已经投资于成功的项目,以整合数据库并开发新的数据分析策略。
Cecilia Victoria Caraballo Guerra等人,艾滋病毒感染增加了获得间日疟原虫疟疾的风险:巴西亚马逊地区的一项4年队列研究,科学报告(2022)。DOI: 10.1038 / s41598 - 022 - 13256 - 4