sklearn 词袋 CountVectorizer

from sklearn.feature_extraction.text import CountVectorizer

texts=["dog cat fish","dog cat cat","fish bird", 'bird']
cv = CountVectorizer()
cv_fit=cv.fit_transform(texts)

print(cv.get_feature_names())
print(cv_fit.toarray())
#['bird', 'cat', 'dog', 'fish']
#[[0 1 1 1]
# [0 2 1 0]
# [1 0 0 1]
# [1 0 0 0]]

print(cv_fit.toarray().sum(axis=0))
#[2 3 2 2]

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/bonelee/p/7808700.html

推荐文章
Java基本数据类型总结
java中的异常处理
JAVA中的设计模式二（工厂模式）
JAVA中的设计模式一（单例模式）
JAVA中的集合与排序
Spring（概念）
数据库的SQL优化
JAVA Socket编程（二）之TCP通信
JAVA Socket编程（一）之UDP通信
oracle 数据库备份、还原、和使用心得（表丢失、视图丢失的解决办法）
oracle 数据库相关名词--图解
oracle ZHS16GBK的数据库导入到字符集为AL32UTF8的数据库（转载+自己经验总结）
如何将备份的oracle数据库还原到指定用户下。
oracle 11g数据库--创建表空间,创建用户，用户授权并指定表空间。
oracle 11g（64位）datebase 安装流程
plsql developer 使用sys用户登录，报ORA-01031权限不足，解决sys（dba权限用户）远程登录报错。
oracle 数据库中（创建、解锁、授权、删除）用户
如何新建oracle数据库，图文流程。
windows server 2008 R2无法共享文件夹，无法启用网络发现。
docker 安装 rabbitmq
docker 安装 redis
docker 安装 fastdfs
docker 安装 mysql5.7
docker 安装 nacos
docker 安装 gitlab-ce
gitlab记录
git记录
ubuntu命令
java html table 转 excel，给予jdom 和 poi
自律挑战