ocr jdk

公司有个需求，遍历所有图片，筛选出含有敏感字的图片。这里就需要ocr技术，找了几天，发现了几个不错的ocr jdk。

http://cn.ocrsdk.com/ 俄罗斯公司，贵有贵的道理
http://apistore.baidu.com/apiworks/servicedetail/969.html 百度的ocr，之前是免费的，看到商机就转收费了。比较讨厌的一点是，按处理次数收费，如果图大小大于一个固定值的话可能被拆分成多次请求，收费加倍
https://www.megvii.com/ 目前唯一满足我需求的ocr，功能丰富，其中的场景识别很有意思。只是公司姿态比较高
http://developer.hanvon.com/text/toText.do 汉王，识别扫描件比较给力，识别复杂的图片就有点力不从心了
文通、云脉是国内算是比较成熟的公司了，不提供地址了，一搜一大把。同汉王差不多，识别复杂图片有问题。
https://github.com/tesseract-ocr/tesseract 1985到1995年间在惠普布里斯托实验室开发的一个OCR引擎，曾经在1995 UNLV精确度测试中名列前茅。但1996年后基本停止了开发。2006年，Google邀请Smith加盟，重启该项目。目前项目的许可证是Apache 2.0。该项目目前支持Windows、Linux和Mac OS等主流平台。但作为一个引擎，它只提供命令行工具。最新项目http://code.google.com/p/tesseract-ocr, 新版本支持中文,中文语言包定义http://code.google.com/p/tesseract-ocr/downloads/detail?name=chi_sim.traineddata.gz

先说这么多吧，有兴趣可以继续研究研究