如何快速入门生信

生物信息学是近些年快速发展起来的一门交叉学科,之所以交叉,是因为该学科领域的研究人员需要掌握计算机,数学,生物学等相关领域的基本知识与技能。随着生物信息学的兴起,很多生物学或医学的研究也越来越依赖于生信分析,因此,掌握一些基础的生信方法就显得尤其重要了,好的生信分析可以让你的研究锦上添花。

那么,如何快速入门生信呢?很显然,这个问题是很多初学者都会有的疑惑。一些背景是生物,基础医学等学科的学生可能会不知从何下手,下面我就谈谈我个人对于快速入门生信的一些看法,之所以是快速,是因为本身这些专业的学生并不需要对生物信息学的方法有非常深入的了解,生物信息学对于他们来说更多的算是一种工具。


从我目前接触到的学医学或者生物的同学来看,他们大多都有一定的数学尤其是统计学的基础,当然对于已经把统计学和一些基本的数学知识忘光的同学来说,最好要把这些基础知识补一补了,毕竟参数检验非参数检验什么的还是要拎清楚的。

在学生物信息学的核心内容之前,你应该要学会跟你最忠实的小伙伴--计算机打交道,而且是安装了linux系统的计算机。用惯了windows系统的同学可能会不太习惯linux系统的使用,这很正常。大多数情况下我们都是通过登录服务器来进行生信分析,这时候我们面对的是一个黑乎乎的命令行界面,莫慌,虽然精通linux需要很长一段时间,但是咱们入门还是很快的,此时应该快速学习下linux系统的基本架构以及linux常用命令,最好找个计算机或者生信的同学带一带,这样就能更快入门了。之所以先说linux,因为后续的一些生信核心模块都紧密地与linux相关,只有有一定的linux基础了,后续学生信的东西才能得心应手。

生物信息学的核心应该要算测序了,因此,测序这一块要非常认真的学,尤其是二代测序的原理,测序数据的获取,质量控制,比对等等,建议大家去网上找视频或者看一些博客,然后跟着教程把一套成熟的流程跑完,最后在不看任何资料的情况下自己能流畅地把流程跑完。当然了,DNA-seq, RNA-seq, ChIP-seq等等各种测序技术的流程还是有比较大的差别的,但是都不难,跟着网上的教程很快就能学会。一些论文也会比较各个测序相关软件的优缺点,然后给出较优的软件组合,大家有兴趣的可以查查论文然后试试论文中给出的pipeline。

身处大数据时代,学会如何寻找自己想要的数据也是非常重要的。初学生物信息学的同学一定要学会使用网络资源,我这里特指生物信息学数据库,比如GEO,UCSC genome browser,ENCODE project database等等,这些数据库上存储了各式各样的生物信息学数据,要学会利用公共数据库的数据。

学生信免不了写代码,很多人会有疑问究竟选择一门什么样的语言。在这里,我强烈推荐R语言。因为R语言很简单,上手非常容易,几天就能入门,语法通俗易懂,既然是快速入门,那我们就要讲究快。最重要的是,R语言有很多很多的生信相关的库,你只要install一下就能够用了,这些库基本上能满足你绝大部分的生信需求,建议大家有事没事可以逛逛Bioconductor。Python这一类的语言学有余力,或者感兴趣的同学可以学一学,Java之类的就不推荐了,没什么编程基础的人可能连理解“面向对象”思想都得折腾半天,一般生信研究人员喜欢用java或python开发较大型的生信软件。


 好了,掌握了这些基础中的基础,你基本上就可以入门生物信息学了,至于后续要学什么,准备掉多少头发,就得根据你自身的需求了。

原文地址:https://www.cnblogs.com/rxzhang/p/12300768.html