研究人员模拟功能基因组学研究中的隐私泄漏
功能基因组学领域关注的是基因组的活动和基因表达水平,而不是特定的基因突变,通常依赖于从许多样本中聚合信息来获得统计能力。这意味着广泛共享原始数据至关重要;然而,共享这些数据目前是一个挑战,因为这些数据集中的个人隐私问题,导致这些数据在防火墙之后大部分无法访问。在11月12日发表在该杂志上的一项研究中细胞,一个调查人员团队展示了可以去确定这些数据以确保患者隐私。他们还展示了这些原始数据如何通过它们的基因变体与特定的个体联系在一起,如果这些卫生措施没有放置到废弃的咖啡杯,那么如果这些卫生措施没有到位。
“本研究的目的是以实际的方式提出广泛分享的方法原始数据不创建不必要的隐私耶鲁大学生物信息学教授、资深作者马克·格斯坦说。
功能基因组学研究经常与特定疾病相关联。例如,对特定精神病病症的调查可能会在一类神经元中看某些基因的表达。并且,本质上有他们的遗传物质在这种研究中,个人的健康状况可能会在无意中被披露。
这可以通过所谓的准标识符来实现。准标识符的工作方式是,如果某人有足够的关于您的个人数据点,即使这些数据本身不是敏感的或惟一的,也可以将它们组合起来创建惟一的标识符。在非遗传环境中,这意味着如果某人知道您的邮政编码、生日、您驾驶的汽车型号,以及其他自己可能认为不隐私或不敏感的类似数据,他们最终可能会把这些数据结合起来,创建一个独特的个人资料,将你和其他你不想要的数据联系起来,比如你申请汽车贷款时收集的财务记录。同样的事情也可能发生,如果有人能够获得你的一些遗传变异,并将这些变异与你的遗传物质的存在联系起来,在一项特定疾病的研究中。这反过来可以揭示你想要保密的诊断结果,如艾滋病毒状态或遗传性癌症倾向。
在他们的研究中,研究人员构建了一个“连锁攻击”场景,以展示人们如何利用从一个废弃的咖啡杯中获得的DNA,从功能基因组学研究的数据中建立这种联系。在将两个同意的参与者的样本添加到功能基因组数据库后,研究人员从同一个人收集了使用过的咖啡杯。他们对杯子上留下的基因物质进行了测序,成功地将这些物质与数据库中的样本进行了匹配,并推断出参与者的敏感健康信息。研究人员还能够利用从基因分型数据库“窃取”的DNA信息,将421人的身份与研究人员为436人构建的测试功能基因组数据集中的表型信息进行匹配。
然而,研究人员也确定了在功能基因组数据集共享时,可以采取的步骤,以阻止这类连锁攻击,并保护参与者的健康信息。“功能基因组学是特殊的,因为数据处理通常不需要变异,”第一作者Gamze Gürsoy说,他是格斯坦实验室的博士后研究员。“因此,我们可以对变量进行消毒,以防止数据被链接回私人信息与这些研究中包含的表型有关,同时仍然保留了数据的实用性。”
为了在隐私和数据有用性之间达到这种平衡,研究人员提出了一种文件格式操作,它将允许原始功能基因组数据被共享,同时通过泛化在很大程度上减少敏感信息的泄露信息关于表型变体。文件格式基于广泛使用的标准文件格式系统,与一系列软件和管道兼容,在测试时,较少损失实用程序。研究人员还制定了一个框架,其他研究人员可以调整他们想要实现的隐私和公用事业平衡水平文件格式根据政策和捐助者的同意。
“随着这些类型的功能基因组学研究释放的更多数据,对安全和隐私的担忧不应该丢失,”Gerstein说。“在互联网的黎明时,人们没有意识到他们的在线活动的重要性。现在,现在的数字隐私对我们来说变得如此重要。如果我们进入一个让你的基因组测序变得常规的时代,我们都不会想要这些担心健康隐私成为主导。“
用户评论