LEfSe分析

LEfSe软件用于发现两组或两组以上的biomarker，主要是通过非参数因子Kruskal-Wallis秩和检验来实现的。
运行LEfSe软件主要分三大步骤：第一步：需要把普通的物种、基因等等的丰度信息的表格转化成LEfSe识别的格式。这一步会生成.in结尾的文件
第二步：这一步也是最关键的一步，统计显著差异的biomarker、统计子组组间差异、统计effect sizes（LDA score），会生成.res格式的文件。如下图所示
Step1：两组或两组以上的样本中采用的非参数因子Kruskal-Wallis秩和检验检测出biomarker。
Step2：基于上步的显著差异物种基因，进行两两组之间的Wilcoxon秩和检验，检测出组间差异。
Step3：线性判别分析（LDA）对biomarker进行评估差异显著的物种的影响力（即LDA score），最终获得biomarker。

第三步：基于第二大步的数据，绘制各种图片。如下图所示

Example：format_input.py hmp_aerobiosis_small.txt hmp_aerobiosis_small.in -c 1 -s 2 -u 3 -o 1000000options -c：大分组信息所在行。-s：小分组信息所在行，如果没有小的分组可以不填。-u：样品信息所在行。-o：标准值，输入的丰度值按照该值重新计算，让输入的丰度值变大。如果输入的hmp_aerobiosis_small.txt数值是1.0e-5左右，则可以设置1000000，可以设置的更大，如果设置成负数，则不做任何处理。
run_lefse.py hmp_aerobiosis_small.in hmp_aerobiosis_small.resoptions -a：Kruskal-Wallis秩和检验筛选biomarker的p-value值。-w：两组组间Wilcoxon秩和检验筛选biomarker的p-value值。-l：LDA score--wilc：是否需要运行Wilcoxon step 0是运行，1是不运行，默认是运行Output：输出.res格式文件内容如下两行。Bacteria.Firmicutes.Clostridia.Clostridiales.Ruminococcaceae 5.0923016841 Low_O2 4.74694106197 2.91304680962e-07Bacteria.Tenericutes.Mollicutes.Mycoplasmatales.Mycoplasmataceae.Mycoplasma 2.55257491798 -总共5列，第一列biomarker名称，第二列是平均丰度最大的log10的值，如果平均丰度小于10的按照10来计算，第三列是差异基因或物种富集的组名称，第四列是LDA值，第五列是Kruskal-Wallis秩和检验的p值，如果不是biomarker则用“-”表示。
plot_res.py hmp_aerobiosis_small.res hmp_aerobiosis_small.pngoptions --feature_font_size：设置feature字体的大小--format：图片输出的格式 --dpi：图片的像素 --title：标题名称，默认为空 --title_font_size：标题字体大小 --class_legend_font_size ：图例字体大小 --width：图片宽度。。。。 --height：图片高度 --left_space：左边距 --right_space：右边距plot_cladogram.py hmp_aerobiosis_small.res hmp_aerobiosis_small.cladogram.png --format pngoptions --max_point_size：大点的大小，默认是6--min_point_size：小点的大小，默认是1--point_edge_width：圈的边线粗细，默认0.25--siblings_connector_width：同一级的宽度--parents_connector_width：上一级连接的宽度--title：标题--label_font_size：label字体大小--background_color：背景颜色plot_features.py hmp_aerobiosis_small.in hmp_aerobiosis_small.res biomarkers_raw_images/