python一些包的说明文档/教程链接

转载自：http://blog.csdn.net/u010454729/article/details/45055225

标签： numpy sklearn pandas 机器学习 xml

伯乐在线Python资源板块：http://hao.jobbole.com/?catid=144。有介绍了150多种python包，你想要的几乎都可以在里面找到.

1.numpy

科学计算

来自《用Python做科学计算》http://sebug.net/paper/books/scipydoc/numpy_intro.html（中文版）

来自图灵社区：http://www.ituring.com.cn/minibook/804（中文版）

来自sciPy：http://wiki.scipy.org/Tentative_NumPy_Tutorial（英文版）

2.pandas

用于科学计算

官网：http://pandas.pydata.org/pandas-docs/stable/index.html

10分钟搞定pandas（来自官网）:

http://pandas.pydata.org/pandas-docs/stable/10min.html（英文版）

http://www.cnblogs.com/chaosimple/p/4153083.html（中文版翻译）

pandas基础(博友的博客):http://my.oschina.net/lionets/blog/277847 （中文版）

pandas数据规整(博友博客):http://my.oschina.net/lionets/blog/279785（中文版）

3.sklearn

用于机器学习的包

这个就不用说了，官网资料最全：http://scikit-learn.org/stable/ 。大大小小的机器学习包以及降维、特征抽取、计算得分、模型选择、集成分类器等一大堆的好资料，可通过目录来找：http://scikit-learn.org/0.15/user_guide.html，http://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model

4.xml

读取xml文件可有多种方式，python自带的xml，lxml，beautifulsoup（注重html解析）

来自python标准库：https://docs.python.org/2/library/markup.html

python读取xml文件(博友博客)：http://www.cnblogs.com/fnng/p/3581433.html

lxml官网：http://lxml.de/

W3CSCHOOL.CC：http://www.w3cschool.cc/python/python-xml.html

5.networkx

用于社交网络，里面定义的很多图模型，几乎很多东西都可以化为图模型，这个包比较有用。前提是善于将目前的问题化为图模型，再用这神器。

github：http://networkx.github.io/documentation/latest/examples/index.html

博友博客：http://cloga.info/categories.html#sna-ref

6.ctype

用于调用和C库链接。

官网：https://docs.python.org/2/library/ctypes.html

7.nltk

《python自然语言处理》：http://download.csdn.net/download/daogepiqian/8528615

我爱自然语言处理：http://www.52nlp.cn/python自然语言处理实践-在nltk中使用斯坦福中文分词器

8.matplotlib

python画图：官网http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.plot

9.gensim

自然语言处理之主题模型：

官网：http://radimrehurek.com/gensim/index.html

来自我爱自然语言处理：http://www.52nlp.cn/如何计算两个文档的相似度二

10.sympy

Python的数学符号计算库：官网http://www.sympy.org/en/index.html

用python做科学计算：http://sebug.net/paper/books/scipydoc/sympy_intro.html

11.pyspark

属于python的Spark

官网：http://spark.apache.org/docs/0.9.0/python-programming-guide.html

文档：http://spark.apache.org/docs/0.9.0/api/pyspark/index.html

#------------------------------------------------------------------------------

工具篇：

T0.开发工具

anaconda:

集成了python相当多的包，几乎大部分都可以在这里找得到，numpy, scipy, sklearn, pandas, nltk等等，但似乎没有gensim这个做LDA的包，要自己下载。https://store.continuum.io/cshop/anaconda/

canopy

没怎么用过，也贴上来：https://www.enthought.com/products/canopy/

annaconda和canopy两个工具的介绍（博友博客）：http://www.cnblogs.com/sdlypyzq/p/3909107.html

T1.crfsuite

CRF工具之一crfsuite，比crf++效果还好的工具，里面以组块分析为例子：http://www.chokkan.org/software/crfsuite/tutorial.html，http://www.chokkan.org/software/crfsuite/manual.html

crfsuite在ubuntu下的一些配置：http://blog.sina.com.cn/s/blog_e8c03f9f0102v5py.html

CRF++，官网：http://taku910.github.io/crfpp/，0.58版本下载（有的时候在官网下载不下来，又有的时候版本）：http://pan.baidu.com/s/1c0nj7iw

#------------------------------------------------------------------------------

功能篇：

F0.自然语言处理

nltk

polyglot:支持上百种语言的断词、语种检测、命名实体识别、词性标注、情感分析、词嵌入、形态分析等。

文档：http://polyglot.readthedocs.org/en/latest/

github：https://github.com/aboSamoor/polyglot

F1.机器学习

伯乐头条文章介绍：http://python.jobbole.com/81135/

sklearn, nltk

svmlight: 可以解决分类回归排序等多种问题，用SVMs解决机器学习问题。

svmlight官网：http://www.cs.cornell.edu/People/tj/svm_light/

python官网：https://pypi.python.org/pypi/svmlight

libsvm: 既然谈到svmlight，那也要谈下libsvm, 同是用SVMs实现的，用来解决机器学习问题的工具。

libsvm官网：http://www.csie.ntu.edu.tw/~cjlin/libsvm/

python anaconda有集成libsvm包，在sklearn包里面的svm包里。

>>>from sklearn.svm import libsvm #可破

#==========================================

scikit-learn

包括分类、回归、聚类系列算法，主要算法有SVM、逻辑回归、朴素贝叶斯、Kmeans、DBSCAN等

NLTK

提供超过50个语料库和词典资源，文本处理库包括分类、分词、词干提取、解析、语义推理。

Mlpy

回归

leastsquares, ridgeregression, leastangle regression, elastic net, kernel ridge regression, supportvector machines (SVM), partialleast squares (PLS)

分类

linear discriminant analysis (LDA), Basic perceptron, Elastic Net, logistic regression, (Kernel) Support VectorMachines (SVM), Diagonal Linear Discriminant Analysis (DLDA), Golub Classifier,Parzen-based, (kernel) Fisher Discriminant Classifier, k-nearest neighbor,Iterative RELIEF, Classification Tree, Maximum Likelihood Classifier

聚类

hierarchical clustering, Memory-saving HierarchicalClustering, k-means

维度约减

FDA，SRDA，PCA。

Shogun

feature表示，feature预处理，核函数表示,核函数标准化，距离表示，分类器表示，聚类方法，分布，性能评价方法，回归方法，结构化输出学习器。

MDP

PyBrain

包括神经网络、强化学习(及二者结合)、无监督学习、进化算法。

BigML

PyML

主要提供特征选择、模型选择、组合分类器、分类评估等功能。

Milk

其重点是提供监督分类法与几种有效的分类分析：SVMs(基于libsvm)，K-NN，随机森林经济和决策树。它还可以进行特征选择。

PyMVPA

分类、回归、特征选择、数据导入导出、可视化等。

Pattern

Python的web挖掘模块，它绑定了 Google、Twitter 、WikipediaAPI，提供网络爬虫、HTML解析功能，文本分析包括浅层规则解析、WordNet接口、句法与语义分析、TF-IDF、LSA等，还提供聚类、分类和图网络可视化的功能。

pyrallel

基于分布式计算模式的机器学习和半交互式的试验项目，可在小型集群上运行。

Monte

可以迅速构建神经网络、条件随机场、逻辑回归等模型，使用inline-C优化，极易使用和扩展。

Orange

一个基于组件的数据挖掘和机器学习软件套装，它的功能即友好，又很强大，快速而又多功能的可视化编程前端，以便浏览数据分析和可视化，绑定了 Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理，并提供了数据帐目，过渡，建模，模式评估和勘探的功能。其由C++ 和 Python开发，它的图形库是由跨平台的Qt框架开发。

Theano

用来定义、优化和模拟数学表达式计算，用于高效的解决多维数组的计算问题。

Pylearn2

可以处理向量、图像、视频等数据，提供MLP、RBM、SDA等深度学习模型。

NuPIC

一个以HTM学习算法为工具的机器智能平台。HTM是皮层的精确计算方法。HTM的核心是基于时间的持续学习算法和储存和撤销的时空模式。NuPIC适合于各种各样的问题,尤其是检测异常和预测的流数据来源。

Nilearn

一个能够快速统计学习神经影像数据的Python模块。它利用Python语言中的scikit-learn 工具箱和一些进行预测建模，分类，解码，连通性分析的应用程序来进行多元的统计。

Fuel

有一个共享如MNIST, CIFAR-10 (图片数据集), Google’s One Billion Words (文字)这类数据集的接口。你使用他来通过很多种的方式来替代自己的数据。

Bob

一个免费的信号处理和机器学习的工具。它的工具箱是用Python和C++语言共同编写的，它的设计目的是变得更加高效并且减少开发时间，它是由处理图像工具,音频和视频处理、机器学习和模式识别的大量软件包构成的。

Skdata

机器学习和统计的数据集的库程序。这个模块对于玩具问题，流行的计算机视觉和自然语言的数据集提供标准的Python语言的使用。

IEPY

一个专注于关系抽取的开源性信息抽取工具。它主要针对的是需要对大型数据集进行信息提取的用户和想要尝试新的算法的科学家。

Quepy

通过改变自然语言问题从而在数据库查询语言中进行查询的一个Python框架。他可以简单的被定义为在自然语言和数据库查询中不同类型的问题。所以，你不用编码就可以建立你自己的一个用自然语言进入你的数据库的系统。

Hebel

通过PyCUDA来进行GPU和CUDA的加速。它是最重要的神经网络模型的类型的工具而且能提供一些不同的活动函数的激活功能，例如动力，涅斯捷罗夫动力，信号丢失和停止法。

mlxtend

由有用的工具和日常数据科学任务的扩展组成的一个库程序。

nolearn

包容纳了大量能对你完成机器学习任务有帮助的实用程序模块。其中大量的模块和scikit-learn一起工作，其它的通常更有用。

Ramp

一个在Python语言下制定机器学习中加快原型设计的解决方案的库程序。他是一个轻型的pandas-based机器学习中可插入的框架，它现存的Python语言下的机器学习和统计工具（比如scikit-learn,rpy2等）Ramp提供了一个简单的声明性语法探索功能从而能够快速有效地实施算法和转换。

Feature Forge

提供了一组工具，它会让你在许多机器学习程序使用中很受用。当你使用scikit-learn这个工具时，你会感觉到受到了很大的帮助。（虽然这只能在你有不同的算法时起作用。）

REP

有一个统一的分类器包装来提供各种各样的操作，例如TMVA, Sklearn, XGBoost, uBoost等等。并且它可以在一个群体以平行的方式训练分类器。同时它也提供了一个交互式的情节。

Python学习机器样品

用亚马逊的机器学习建造的简单软件收集。www.github.com/awslabs/machine-learning-samples。

python-ELM

在Python语言下基于scikit-learn的极端学习机器的实现。www.github.com/dclambert/Python-ELM。

这部分主要参考两个网站：

GitHub上Top20个python语言机器学习项目

python机器学习库

#==========================================

F2.系统相关

os：与操作系统有关的python包，比如说系统路径、文件分隔符等等os.path、os.sep，比较常用。

来自51CTO.com：http://developer.51cto.com/art/201003/186045.htm

sys：sys.getdefaultencoding()常用

F3.零散基础

random, time

F4：推荐系统

carb：官网：http://muricoca.github.io/crab/tutorial.html

recsys（实现了SVD、Neighborhood SVD推荐算法)：github：https://github.com/ocelma/python-recsys

#------------------------------------------------------------------------------

在遇到的过程中，待不断增加。博友若是看到好的文档，也欢迎推荐。

当然，可能有各种原因导致链接失效，导致无法看到相关文档，不必担心，过段时间会好些。

python一些包的说明文档/教程链接

标签： numpysklearnpandas机器学习xml

标签： numpy sklearn pandas 机器学习 xml