Google Baseline工程把基因大数据化

2014-07-28 00:38:27

来源
比特网

大数据

Google创始人之一拉里佩奇（Larry Page）多次提到大数据在健康和医药领域的巨大潜能，常常不忿隐私法律对于人体数据获取的制约，现在来看，Google可能在建立一个独立的庞大数据池，仅供自己所用，直接绕过隐私法获得数据，为其数据计算能力找到了新的用武之

Google 再次“登月” Baseline工程把基因大数据化

纵观几年，谷歌苹果三星微软几家巨头在健康领域投入越来越大，势头愈加生猛。据华尔街日报报道，紧接无人驾驶汽车，隐形眼镜式血糖仪，高原气球网络服务，Google俨然开始了一项自公司成立以来最具野心，最为困难的科学项目，一个“登月”工程。Google X 实验室开始了 Baseline“基线”项目，大量收集人类基因组标本并利用大数据合成一份完美的健康人类基因图谱，为多种疾病的提早发现及治疗提供前提。

基线工程的第一步是采集175个参与者的匿名基因和分子信息，取样包括基因排序，血液，唾液，眼泪，尿液，以及参与者的食物及药物代谢信息，心率，家族病史等，第一波测量过后，参与者将佩戴可穿戴测量设备，持续提供体征信息。Google将通过第三方的隐私过滤得到匿名的基因组信息。下一步将把实验群体扩大到数千人，获得更多更广的基因数据。

项目领导者分子生物学家安德鲁·康拉德（Andrew Conrad）2013年3月加盟Google，现在已经建立起了一支70-100人的队伍，包括生理，生物化学，成像和细胞生物学的专家。康拉德认为基线工程处在刚刚起步阶段，基因图谱的制作和分析是一项极其艰难的工作，我们对于DNA,蛋白，酶类间的相互关系和外界的影响知之甚少，但随着掌握的数据量增多，依赖Google 强大的大数据计算能力，研究者们可以从海量的基因组数据中获得生物标记（biomarker）的规律，而这些生物标记将对预防，治疗，制药领域产生强大的引领和促进作用。

举例来说，每个人对于食物脂肪的代谢功能都是不一样的，部分人的基因组中缺乏帮助人体代谢多余食物脂肪的生物标记,从而导致早年的心血管疾病，通过数据收集，研究者们可以准确的定位生物标记在基因中的位置，确定新病人是否缺乏这段标记，及时做出准确的治疗和饮食推荐。大量减少心血管疾病的发生。

既然基因组的作用如此强大，在Google之前为什么没有人开始同样的收集工作呢？原因很简单，没钱没时间。人类的基因组及其庞大，一个基因组由十万以上的基因分段组成，每个基因段又由成百上千个核苷酸配对组成，放在几十年前，受集一份整套的基因组的工作量是不可想象的。2001年，第一份基因组才被排序成功，而在十年前，单单一份基因排序需要一亿美金，随着排序技术的发展，如今只需要1000美金就可以完成。但一般的公司和个人还是支付不起系统性收集基因组的。记着之前在学校学起DNA排序时，十分激动的问生物老师我们要是收集几万人的DNA后通过大数据岂不是可以把人体的秘密通通展现出来，老师淡然一笑：好想法，你有钱吗？

我没有，但是Google财大气出，魄力十足。

有人可能会好奇当今基因排序技术的准确度，老实说，不是很高，Emory大学的神经学系主任Allan Levey在讲座中劝告听众不要盲目花钱做基因排序，提到一位老友的故事：50岁后这位仁兄去做了一个基因排序以防基因病来得错手不急，结果发现他的APP基因突变了，这个基因突变理论上必然导致老年痴呆症（Alzheimer’sDisease），结果老兄丧气地找到Levey 教授寻求解释，经过一番测试后发现他已经过了开始发病年龄却一点症状没有，后来发现是基因排序出了差错。这类事件时有发生，但是终归是针对个人案例的。大数据的绝对优点就是海量数据弥补个别差错。或许基线工程的第一波实验结果会出现不准确的风险，但是几年后，当实验群扩张到千人甚至万人的时候，通过计算足以剔除DNA中的大量无用分段和错误信息，将研究者的目光直接导向致病的基因段。人类的健康基因图谱将得到越来越多的完善，接近完美。

那么关于老生常谈的隐私问题呢？Google 已经建立起当今世界上最为强大的电脑和信息网络来支撑搜索引擎和YouTube这样强劲的数据捕获手段，今年年底又要利用安卓涉足穿戴式设备领域，数据的掌控量之恐怖，自然会让我们不放心Google获得大量的基因组数据。康拉德在采访中提到Google将与斯坦福和杜克大学的医学院合作，两个大学将把基线工程参与者的身份信息抹掉，把匿名数据交给Google，听起来让人稍稍安心一些，但仔细想想，那些被抹掉的也只是参与者的信息，Google获得的却是人类身体中最为珍贵的秘密，如果Google不将这些计算后的结果公开，而单独和几家制药公司分享，我们作为普通老百姓可能一点办法没有，任由巨头们把我们的弱点和需求看个透。

Google创始人之一拉里佩奇（Larry Page）多次提到大数据在健康和医药领域的巨大潜能，常常不忿隐私法律对于人体数据获取的制约，现在来看，Google可能在建立一个独立的庞大数据池，仅供自己所用，直接绕过隐私法获得数据，为其数据计算能力找到了新的用武之地。我们只能寄希望于斯坦福和杜克为大众把好隐私关，制约Google的数据用法和走向。

Google在让我们更清晰的了解自己身体秘密的同时，是否正在将我们趋向一个没有隐私的时代，我们不得而知，只能猜想和等待。

声明： 此文观点不代表本站立场；转载须要保留原文链接；版权疑问请联系我们。

Google Baseline工程把基因大数据化

深入Nutch index源代码解析(一)

深入Nutch index源代码解析二)

EMC大数据和第三平台EMC联邦

发展金融大数据:挑战与机遇并存

贵州用大数据服务农业

美国电信巨头AT&T数千万客户数据泄露

世界备份日｜即刻备份，畅享数据！

牢记10个安全技巧，加强个人信息安全保护

Veritas Backup Exec帮助中小企业增强抵御勒索软件的韧性

一文看懂备份和恢复解决方案的所有内容

以色列初创企业Datafy在种子轮融资600万美元

Cloudflare宣布R2的主要更新，包括事件通知和GCS支持

IDrive Backup新功能：云对云备份Google数据

亚太地区 93% 的公司将增加存储在公共云中的数据量

HYCU 拥抱 Gen AI ，构建通用 SaaS 保护解决方案

HPE起诉浪潮侵犯服务器和存储设备相关5项专利

OpenAI的全新GPT-4 Turbo模型已全面上线，并正式向付费ChatGPT用户开放

GPT-4转录一百万小时的YouTube视频内容，引发对版权法律法规适用性的深思

央企首个！中国移动九天自然语言交互大模型通过双备案

IBM在大学校园内首次启动IBM量子系统一号

金胜电子亮相 Embedded World大会，推出2.5英寸车载存储SSD

美光将DRAM和SSD价格提高25%

Teamgroup推出容量为2TB的 MicroSDXC存储卡

忆联带你读懂闪存原理与颗粒类型

开启AI存储时代慧荣企业级SM8366主控亮相CFMS2024

Quantum ActiveScale全闪存对象存储解决方案，可加速人工智能管道、为海量数据湖供电并构建存储云

IDC：中国银行业数据安全治理市场升级提速

不是独立式解决方案用不起，而是集成式解决方案更有性价比

面向企业的EDR解决方案真的很香

需要全面的网络保护解决方案？选它就对了！

科技要闻

前亚马逊工程师因黑客攻击交易所并盗窃1200多万美元获刑3年

漂亮手机来了，华为P系列改名Pura

聊聊网络安全的那些事

富捷电子：国内贴片电阻头部制造商

微星推出MPG EZ120 ARGB风扇：磁性连接设计最多可接18个

Google Baseline工程把基因大数据化

猜你喜欢

科技要闻