*转载文章不代表本站观点。
本文来自微信公众号“数据实战派”(gh_ff93f845912e),作者:贺佳
最近,科学家发现,Netflix、亚马逊和Facebook所用的强大算法可以“预测”癌症及神经退行性疾病(如阿尔茨海默病)的“生物语言”(biological language)。
剑桥大学圣约翰学院(St John’s College)的学者将数十年来研究中获得的大数据输入计算机语言模型,以观察人工智能是否得到比人类更先进的发现。
结果他们发现,机器学习技术可以破译癌症、阿尔茨海默病等神经退行性疾病的“生物语言”。
4月8日,这一开创性的研究在《美国国家科学院院刊》(Proceedings of the National Academy of Sciences,PNAS)上发表。将来,该研究或可用于“纠正细胞内部会导致疾病的‘语法错误’”。
该论文的主要作者、圣约翰学院研究员Tuomas Knowles教授说:“将机器学习技术引入神经退行性疾病和癌症的研究绝对是‘对游戏规则的颠覆’。归根究底,我们的目标是利用人工智能开发靶向药物,从而显著缓解痴呆症状或完全预防这些疾病的发生。”
无论是Netflix推荐的节目还是Facebook推荐的好友,都基于这些平台所采用的强大的机器学习算法对人们下一步行为的预测;而Alexa、Siri这些语音助手甚至能“认出主人”,并立即开始和你“聊天”。
该论文的第一作者、圣约翰学院的研究员Kadi Liis Saar博士采用了类似的机器学习技术对一个大规模语言模型进行训练,以此来观察当体内蛋白质出现问题时,究竟是什么导致了疾病。
她说:“人体内有成千上万种蛋白质,其中许多蛋白质的功能,科学界尚不明确。因此,我们需要一个基于神经网络的语言模型来破解蛋白质的语言。
“我们尤其要求该程序对改变生物分子缩合物(细胞中发现的蛋白质滴)的语言进行学习,科学届确实需要读懂这种语言,才能破解哪些语言负责生物功能,而哪些语言则有关导致癌症及阿尔茨海默病等神经退行性疾病的蛋白质功能失常。我们发现,在没有被明确告知的情况下,该程序也可得出科学家们在几十年的研究中发现的关于蛋白质语言的知识。”
蛋白质是庞大而复杂的分子,在体内起着许多关键作用。其大部分工作是在细胞内完成的,并为人体组织和器官的结构、功能和调节所必需的,如,抗体就是一种保护身体的蛋白质。
神经退行性疾病以阿尔兹海默病、帕金森病和亨廷顿病等三种最为常见,但科学家相信这类疾病可能有数百种之多。全世界阿尔兹海默病患者约5000万。
该病可导致蛋白质出现游离,形成团块,并杀死健康的神经细胞。健康人大脑有良好的控制系统,可以有效地处理这些具有潜在危险的蛋白质(即聚集体)。
现今,科学家们认为,一些无序的蛋白质也会形成液态的蛋白质液滴。这些液滴被称为缩合物,它们没有膜,可以自由地相互融合。与不可逆的蛋白质聚集体不同,蛋白质缩合物可以形成及重组,就像蜡烛里的蜡滴球一样。
Knowles教授说:“近年来,蛋白质缩合物引发了科学界的广泛关注,这是由于其可以控制细胞中‘关键大事’,例如基因表达,即我们的DNA如何转化为蛋白质的,以及蛋白质合成,还有细胞如何制造蛋白质。
“与这些蛋白质液滴相关的任何缺陷都可能导致癌症等疾病。因此,如果我们要想纠正细胞内部的导致疾病的“语法错误”,那么将自然语言处理技术应用于蛋白质功能障碍的分子源头研究就显得至关重要了。”
Saar博士说:“我们将已知蛋白质上保存的所有数据都提供给了该算法,这样它就可以学习和预测蛋白质的语言了,就像这类模型学习人类语言或者WhatsApp能猜到你下一个字要说什么一样。
“然后我们就可以求得导致某些蛋白质在细胞内形成缩合物的特定语法了。这个问题非常具有挑战性,解答了这个问题,对我们学习疾病语言的规则大有裨益。”
随着数据可用性的不断提高,以及计算能力的持续增强,技术水平进一步进步,更强大的算法得以产生,从而促进了当今机器学习技术的高速发展。
而机器学习的进一步应用则可以改写未来关于癌症及神经退行性疾病的研究。
发现的边界可以在科学家对这些疾病的现有认知及推断基础上进一步拓展,甚至超越人类大脑自有的理解范围,没有机器学习的帮助,就无法理解。
Saar博士解释道:“机器学习可以摆脱研究人员执着于研究目标的限制,这就意味着,其可以发现我们从未想到的新联系。这简直让人热血沸腾”
现在,该网络已可供免费世界各地的研究人员使用,集众人之力获得科研进展。
Refrence:
https://www.joh.cam.ac.uk/artificial-intelligence-could-crack-language-cancer-and-alzheimers
0 条评论
请「登录」后评论