每次问的时候,回答可能会略有差异,但回答的还是很全面。

2.1什么是生物信息学

第0章 我所理解的人工智能与生物信息学2_生物_信息学 AI简讯

虽然大措辞模型能很精准的见告你什么是生物信息学,但对付生物信息学下一个定义还真的很难,下面是几个比较著名的定义:

定义一:生物信息学是一门网络、剖析遗传数据以及分发给研究机构的新学科( Bioinformatics is a new subject of genetic data collection, analysis and dissemination to the research community)。
(林华安,Dr. Hwa A. Lim,1987)定义二:生物信息学特指数据库类的事情,包括持久稳固的在一个稳定的地方供应对数据的支持(Bioinformatics refers to database-like activities, involving persistent sets of data that are maintained in a consistent state over essentially indefinite periods of time)。
(林华安,Dr. Hwa A. Lim,1994)定义三:生物信息学是在大分子方面的观点型的生物学,并且利用了信息学的技能,这包括了从运用数学、打算机科学以及统计学等学科衍生而来各种方法,并以此在大尺度上来理解和组织与生物大分子干系的信息。
(Luscombe,2001)定义四:Bioinformatics (Research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, store, organize, archive, analyze, or visualize such data.) 为拓展生物学、医学、行为学和卫生学数据的用场,而进行有关打算机方法手段的研究、开拓与运用,包括此类数据的采集、存贮、整理、归档、剖析与可视化。
----美国国家卫生研究院(NIH)

林华安(Hua A. Lim)博士是bioinformatics这个名称的创始者,最初的名称带有法文后缀bio-informatique;最有名确当属NIH的这个定义,NIH同时也给打算生物学(Computational Biology)一个定义:

Computational Biology (The development and application of data-analytical and theoretical methods, mathematical modeling and computational simulation techniques to the study of biological, behavioral, and social systems. ): 开拓和运用数据剖析、理论方法、数学模型和打算机仿真技能,用于生物学、行为学和社会群体系统的研究。

以是,我在前面说过,若何才能分得清生物信息学与打算生物学呢?而我们国家在生物学学科下面干脆就设立了一个“生物信息学与打算生物学”方向,你爱怎么分就这么分。

曾经有一个说法,任何一个人对生物信息学下的定义都犹如盲人摸象,紧张缘故原由是,生物信息学(Bioinformatics)是一门交叉科学,它领悟了生物学、打算机科学、数学和信息学等多个领域的知识。
以是,从事生物信息学事情的,既有学生物学,也有学打算机科学和数学的,乃至其它信息科学领域的人。
每一个人的出发点不一样,对生物信息学的定义自然就关注点不同了。

以是,生物信息学是通过综合利用生物学、打算机科学和信息技能来揭示大量而繁芜的生物数据所蕴含的生物学奥秘。

我个人认为,还是从Bioinformatics造词出发比较随意马虎理解,Bio是“生物学”前缀,那意味着办理的都是生物学问题;informatics是“信息学”,那实质还是属于信息学科。

“信息”一词在英文、法文、德文、西班牙文中均是“information”,日文中为“情报”,我国***称之为“资讯”。
作为科学术语最早涌如今哈特莱(R.V.Hartley)于1928年撰写的《信息传输》一文中。
20世纪40年代,信息的奠基人喷鼻香农(C.E.Shannon)给出了信息的明确定义,“信息是用来肃清随机不愿定性的东西”。

在吴智囊长西席《数学之美》中谈到,人类最早利用声音通信。

上图是一个大略的通信模型,人类早期的互助是很少的,只须要大略的声音就能够完成互换;随着互助的进一步加大,信息爆炸,就产生了措辞、笔墨与数字。
措辞、笔墨与数字都是信息的载体,产生的目的便是记录和传播信息。

1949年由美国的两位信息学者C.喷鼻香农和W.韦弗在《传播的数学理论》提出的通信模型,又称为“传播过程的数学模式”,为我们理解信息的传播供应了理论根本。

生物信息学紧张研究工具DNA和蛋白质等生物大分子是生物信息的载体,是生命的措辞笔墨,那么解码生物信息的方法与通信模型不便是一样的吗?

2.2 生物信息学发展史

人类在追求文明,寻衅进步,探索未来,从未停下脚步,永久在路上!

生命科学的前2次革命都是学科交叉的产物!

第一次生命科学革命不到100年,大约在70年前。
当时有一批物理学家、化学家进入到生命科学领域,想搞清楚基因的物质根本,基因到底是什么。
基因是分子?还是构造?还是什么东西?这是在思路上带给生命科学的,第二个是在方法上,把大量的工具带进生命科学,X射线、核磁共振、电子显微镜、离心机等等,这一革命的标志性的成果便是沃森和克里克创造了DNA双螺旋构造,便是用X射线照出来的,没有X射线他们也创造不了。
第一次生命科学革命以1953年沃森和克里克创造DNA双螺旋构造为标志!

图例:Watson在开始研究DNA双螺旋时险些完备不懂有机化学与物理化学;Crick本来是个物理学家,对生物学也知之甚少。
当他们创造DNA的构造时并不认为须要知道(更不用说记住)四个核苷酸碱基的化学构造。
当Erwin Chargaff问他们在不知道DNA构成要素构造的情形下如何办理DNA构造问题时,他们问答说如果有须要的话总可以在书中查找到这个构造。
——N.C. Jones & P.A. Pevzner, An Introduction to Bioinformatics Algorithms

常常有学生问我,学生物信息学究竟要节制多少生物学知识,Watson和Crick便是一个很好的例子,节制基本的事理就够了,要用的时候能够找得到,能够理解就好了。
当然,现在的情形比Watson和Crick好多了,我们有大措辞模型了,再次强调一下,要学会利用大措辞模型进行学习,在事情中学习。

第二次生命科学革命大概是上世纪末九十年代开始的基因组学,也便是我们现在说的测序,基因组学是数学和打算机科学与生命科学的交叉。

图片来源:Nature 2011, 470: 204–213

上图对基因组学的研究进行了系统总结,最为显著的是1990年开始的人类基因组操持(Human Genome Project, HGP)。
海量的基因组序列为生物学和信息学供应了共同措辞,于是生物信息学出身了。

我国的生物信息学科的起步险些和天下同步,杨焕明院士、陈润生院士及向仲怀院士等老一辈科学家领衔的团队参与和主持了人类基因组操持、水稻基因组操持、家蚕基因组操持等重大科研操持,贺福初院士领衔的团队首次领导并履行国际人类肝脏蛋白质组操持(Human Liver Proteome Project, HLPP),标志着中国科学家在生物信息学某些领域的研究与国际上领先的国家处于相同的水平。

在陈润生院士等老一辈科学家倡议下中国国家生物信息中央(China National Center for Bioinformation,CNCB)在中国科学院北京基因组研究所已经成立;全国十余个省市纷纭成立了生物信息学一级学会,2020年9月在上海中国生物信息学一级学会(筹)成立大会也准期举行。
生物信息技能也逐渐成为一个非常有效的手段去研究一个繁芜生物学征象,并且在人类重大疾病,农业和生命科学根本研究等领域不断崭露锋芒。

生物信息学的发展紧张环绕数据库构建、研究工具开拓展开,重点磋商基因组学、转录组学、蛋白质学、代谢组学、表不雅观基因组学和宏基因组学等,在医学、农学等方面均取得了很大的进展,关注的话,请参阅干系文献。

2.3 生物信息学的未来

当AI遇见生命大数据,我们可以期待一个激动民气的生命科学新时期。

由于我学习紧张聚焦在生物医学领域,以是从生物医学出发进行展望。

问题思考:

1)为什么同一种病,利用同一种治疗办法,有时候无效?

2)为什么一种药物可以治疗不同的疾病?比如二甲双胍。

图中是当代医学之父希波克拉底(Hippocrates)之树(希腊科斯岛),传说他在此梧桐树下起誓行医。

西方人可能受《圣经》的影响,爱起誓。
现在的临床年夜夫入学时也按照波克拉底的方法宣誓入职,感想熏染至深确当属那句“No harm”,统统救治应该建立在无侵害根本之上。
希波克拉底把疾病看作是发展的征象,年夜夫不能见病不见人,首先把稳病人的体质、生活办法、性情(把稳到了生理问题)等元素,不要轻易用药。
为了为了抵制“神赐疾病”的谬说,提出的著名的“体液学说”,四体液(血液、粘液、黄胆和黑胆)理论已经被当代医学知识更新(不断更新前辈的理论学说是不是值得我们学习呢?),但他提出的气质类型的名称及划分沿用至当代。
他第一次在医学上提出了“ 预后”这个观点, 认为年夜夫不但要对症下药, 而且要根据病症预报其发展趋势, 造成后果及康复方法, 这就把治疗提高到一个更高的层次上。

人们对医学的认识经历了巫医时期、朴素的哲学时期,当代科技的革命医学进入当代医学时期。
事实上,我们并不是第一次碰着精准医学,只是“精准”的定义随着医学技能的演进一贯在变……

当代医学从出身时起,就在探索精准医学,最开始的医疗东西是石刀,接下来变成了柳叶刀、组合式外科手术东西,然后到了本日的“达芬奇”手术机器人等,但精准医学真正的兴起还是来源于当代科学技能的发展。

精准医学(Precision medicine)这个名词来源于2015年1月30日,美国总统奥巴马在国情咨文演讲中推出的“精准医学操持(Precision medicine Program)”,发起在2016年向该操持投入2.15亿美元,以推动个性化医疗的发展。
NIH上给Precision medicine的定义:Clinical, therapeutic and diagnostic approaches to optimal disease management based on individual variations in a patient's genetic profile.(National Institutes of Health,NIH)——根据患者遗传特色的个体差异,优化疾病管理的临床、治疗和诊断方法。
NIH的阐明是指对患者的基因组学、蛋白质组学和代谢组学等各种底细况信息进行综合剖析研究后,在分子生物学水平上去理解各种繁芜疾病的发病根源,以此针对患者拟定出最得当的治疗药物和手段。

英国政府官网对Precision medicine的定义是:利用诊断测试和临床数据剖析为患者选择最得当的治疗手段。

我国对Precision medicine的定义:整合运用当代科技手段与传统医学方法,科学认知人体性能与疾病实质,系统优化人类疾病防治和康健促进的事理和实践,以高效、安全、经济的康健医疗做事获取个体和社会最大化康健效益的新型康健医疗做事范式。
在临床实践中,精准医疗追求针对每个病人精确选择和精确运用适宜的诊疗方法,实现医源性危害最小化、医疗耗费最低化以及病患获益最大化。

比较三个国家对付Precision medicine的定义,可以创造Precision medicine在不同的国家包含的内容不完备相同,美国版本更加强调对居民综合数据信息的搜集和剖析,英国版本则侧重对临床数据的网络,中国则更强调利益最大化。
但有一些共性:

1)都是基于大数据的诊疗办法;

2)具有更广阔的运用范围。
包括疾病的早期诊断、个性化辅导、遗传风险剖析和疾病检测等,目前现阶段目标聚焦癌症治疗;

3)强调个性化和差异化。

精准医学是一种新兴的综合考虑居民基因、环境、生活办法等变量的疾病预防和治疗手段,承诺为个体患者量身定制治疗方案,目前最大的浸染在于用药方面,即把最得当的药物在最得当的韶光里,以最得当的剂量给于最得当的患者。

工欲善其事,必先利其器。
有显微镜我们就看到细胞了,有测序仪我们就知道基因了,有质谱仪我们就知道蛋白质组了,有AI我们就可以理解卖力生命数据了。
过去、现在和将来的医疗数据从基于症状、基于临床个体,完成基于远算的转变,而举措从履历医疗、循证医疗,完成精准医疗的转变。
在精准医疗领域,人工智能为患者量身定制诊断、治疗和监测疾病进程的方法。
AI 末了不会颠覆年夜夫,它会变成年夜夫的好帮手。

随着多组学技能、单细胞测序技能和空间组学技能等大规模高通量测序技能,以及物联网传感器技能等信息技能的不断发展,产生了大规模多维度的组学数据,生物医学进入了“大数据”时期,传统的剖析方法可能不再足够。
AI作为一种在数据处理、模式识别和预测建模方面的前沿技能,已成为推动科学研究边界不断扩展的关键力量。
AI在生物科学中的运用,正逐步改变了数据剖析的传统方法,极大提升了研究效率,促进我们对生物系统的理解和医学治疗的创新,为办理繁芜的生物学难题开辟了新路子,推动医学和生命科学的未来发展,第三次生命科学革命正在进行,精准医学正在成为现实......

3 我们须要学习什么

我们再看看维基百科对生物信息学的定义:

Bioinformatics is marriage between biology and computer. It is the use of computers for the acquisition, management, and analysis of biological information. It incorporates elements of molecular biology, computational biology, database computing, and the internet. Bioinformatics is clearly a multi- disciplinary field including: computer systems management networking, database design, computer programming, molecular biology from using computers for molecular biology.

核心思想:生物信息学是为理解生物大数据(尤其是当数据集大而繁芜时)进行算法设计和软件开拓的一门交叉学科。

个人理解:生物信息学实质上属于信息学科。

首先,生物信息学研究的核心——基因组,是数字化的(digital)。
基因可以编码信息,可以通过破译而解读。

第二,生命的数字化表现为2类信息。
第一类为编码蛋白质的基因;第二类是掌握基因行为的调控网络。

第三,生物信息是有等级次序的。
生物信息在不同的层次间流动,有确定的流动方向(中央法则——特殊主要!
):DNA→mRNA→蛋白质→蛋白质相互浸染网络→细胞→组织、器官、系统→个体→群体。
每个层次信息都对理解生命系统的运行供应有用的视角。

因此,生命过程便是一个信息流动过程,揭示这种信息吸收、加工、存储和传输的过程,可以对生命进行理解。
从某种意义上说,生命便是算法。
生物信息的解读是实现精准医学的关键之一。

要解读生物信息首先要做一名生物程序员(俗称:生物码农),其次要会做生物实验,至少是理解做生物实验的程序员。

3.1 边界判断

边界判断便是判断什么事能做,什么事情不能做。
不懂的事情不要做,真正能成大事的人,都有“边界思维”, 知道自己的能力是有边界的,会在能力边界之内探求更大的代价空间。
《三体》中描述:“科学边界“试图开辟一条新的思维路子,大略地说便是试图用科学的方法找出科学的局限性,试图确定科学对自然界的认知在深度和精度上是否存在一条底线——底线之下是科学进入不了的。
当代物理学的发展,彷佛模糊约约地触到了这条底线。

做生物信息学研究,最主要的一点便是要明白干工作的边界,然后在边界内改进,否则很多努力都花在了制造不可能实现的永动机上了。
首先要做的是办理生物学领域的可打算问题,不是所有的生物学问题。
同时也涉及到数学的边界,打算机的边界和各种算法的边界。
我在学习与科研的时候,是利用AI办理精准医疗所面临的一些问题,那就须要有清楚的辨识,即AI并非万能。
即无论AI如何强大,其办理的问题,也只是人类面临所有问题的很小一部分。
由于从目前的认知水平上来看,现实天下中有海量的问题并不是数学问题,也就不可能通过打算来求解。
目前人工智能已经找到办理方案的问题,也只是可打算问题的一小部分(见下图)。

问题:ChatGPT走红 “狂飙”的人工智能边界在哪?

3.2 问题转化

站在巨人的肩膀上会看得更远的条件是要先找到这个可以站肩膀的巨人,这在交叉学科领域,以及运用型研究和工程师当中至关主要。
比如在做利用深度学习方法处理蛋白质组数据时,就已经有了自然措辞处理的一些工具了,我们必须先把蛋白质组序列的处理问题转化成和自然措辞处理类似的数学问题,然后利用自然措辞处理模型来办理蛋白质组序列处理干系问题。

对付我们从事生物信息学研究的人来说,培养打算思维,具备把临床需求问题转化为可打算问题,尤其是AI可以办理的问题能力尤为主要。

3.3 深刻理解

这种深刻理解包括空间上和韶光上的理解。
所谓空间上的理解,便是知识的广度和深度。
所谓韶光上的理解,便是从算法的过去、现在和未来看清楚它的发展规律。
有了这样的理解,才能在碰着繁芜问题时找到最大略而有效的办理方法。

以是说,生物信息学的学习曲线是这样的:

生物信息学须要学习生命科学、数学和打算机科学与技能等多学科知识,学习非常弯曲,早期缓慢,只有坚持不懈者,才能终极学有所成,才可能对生物信息问题有深刻的理解。

3.4 大略美

科学发展到一定程度,一定会成为一门艺术,比如牛顿、爱因斯坦的物理定律大略而幽美。
将生物信息学技能节制到出神入化、利用之妙存乎齐心专心的地步,须要体会出这门学科中的一种美感,生物信息学事情者也须要完成从工匠到艺术家的升华。
这个哀求有点高,只有站得很高的时候才能欣赏你足下最美的风景。

美(aesthetic)的拉丁文aisthetikos,本意便是“感知、觉得”的意思。
比如我最喜好雨过天晴后天空的颜色,便是一种感想熏染。
拍照大师Ansel Adams说,“技能决定下线,而审美决定上线“也是这个道理。

推举几本我喜好的书:

简洁也是生命的基本特色之一。

生活中也可以创造这种简洁的美:

螺纹实在便是斐波那契数:随着数列项数的增加,前一项与后一项之比越来越逼近黄金分割的数值0.6180339887…

我从开始自学打算机编程措辞的时候就开始利用从0开始计数了。
关于这个问题我也问过很多人,也上网查询过。
最让我影象犹新的说法是代码会很优雅:比如切片,最常见的用法便是“取前n个元素”和“取从i开始的后n个元素”,如果在利用这两种用法时不须要带有+1或者-1的补偿操作,那代码会很优雅,a[:n]和a[i:i+n]。

代码真的须要象诗一样写得很优雅吗?

3.5 想象力

人类不仅可以回顾过去感知过去的事物形象,而且还能创造新的形象。
人类能在过去认知的根本上,去构建没有经由的事物和形象的能力就叫想象力。
例如《西游记》中的大闹天空的故事,孙悟空、猪八戒等形象美杜莎想象力的产物,孙悟空扯根猴毛变身不及时当代生物克隆技能的早期想象吗?电视剧《三体》中的三体天下也是;元宇宙(Metaverse)的观点出自科幻小说《雪崩》,书中对元宇宙的愿景正在现实天下中发生,移动打算、虚拟现实、数字货币、智好手机和增强现实等成为现实......

写代码也须要想象力吗?

使人工智能爆红的 AlphaGo 和李世石的人机大战在程序界掀起了一阵风雨。
写出 AlphaGo 的哈萨比斯是想证明人工智能能打败人类吗?虽然这个问题饱受争议,但是最少证明了他的想象力。
哈萨比斯说:“在国际象棋方面,电脑可以通过快速打算降服人类。
但围棋存在国际象棋所无法比拟的大量变数,在围棋博弈中,人的直不雅观感想熏染和洞察力可以发挥决定性浸染。
因此人们一贯认为围棋是人工智能不可能降服人类的领域,而我们正是想要寻衅这种不可能。

在程序员圈常被提及的一个高频词是“造轮子“,“造轮子“是重新创造一个已有的或是已被其他人优化的基本方法。
很多开拓者会被奉告:Stop Trying to Reinvent the Wheel,然后大家会疑问,重复造轮子是否真的没故意义?

重复制造轮子和重复发明轮子是不一样的,发明是 researching ,制造是 engineering ,不能混为一谈。
用轮子实在也并非一件随意马虎的事。
首先我们须要有很强的检索能力,在快速检索到后我们还须要能准确而高效地判断项目的质量。

对付未知的来日诰日是每个程序员要去寻衅的,而对付脑海中的轮子在一定情形下也是须要我们去构画和想象的。

我们想象我们若何以最快的速率造出最 NB 的轮子;

我们想象如何让以现在的轮子造出更 NB 的项目;

我们想象我们是否可以有更大的可能性......

3.6 好奇心

我很喜好法国电影《蝴蝶》(2002年),对它的主题曲印象深刻,尤其是那一老一少对天下磋商的对话影象犹新:

少:为什么俊秀的花会凋落?

老:由于那是游戏的一部分。

少:为什么会有妖怪又会有上帝?

老:是为了让好奇的人有话可说。

少:为什么木头会在火里燃烧?

老:是为了让我们像毛毯一样暖。

......

在孩子们眼中,天下上存在那么多他们不理解和不熟习的事物,这份好奇心,让童年充满了不一样的精彩。
但是,随着年事的增长,好奇心每每会被曲解为种"屈曲"的标志,人们乃至羞于向身边的人讯问"为什么",或者羞于亲自武断地去磋商研究某件从来未曾研究过的事情。

以是,《道德经》里面的聪慧是“复归于婴儿”。

保护好奇心,远比我们想象的更加主要。

推举阅读

吴军.打算之魂[M].北京:公民邮电出版社,2022.

尼克. 人工智能简史[M].第2版.北京:公民邮电出版社,2021.

侯大胆,钱梦佳,程韵枫,等.基因检测在精准医疗中的运用与管理[J].中国临床医学, 2022, 29(1):4.

张磊, 王晓宇, 张莹,等. 蛋白质组驱动的精准医学研究进展[J]. 剖析测试学报, 2022, 41(4):11.

董家鸿. 构建精准医学体系,实现最佳康健效益. 中华医学杂志; 2015.95 (31): 2497-2499.

Frederike H. Petzschner ,Practical challenges for precision medicine. Science,2024,383:149-150.

Niklas Lidströmer, Hutan Ashrafian. Artificial Intelligence in Medicine[M].Springer,2022 (https://link.springer.com/referencework/10.1007/978-3-030-64573-1 )