人工智能和机器学习领域的一些有趣的开源项目

1、GraphLab

GraphLab是一种新的面向机器学习的并行框架。GraphLab提供了一个完整的平台,让机构可以使用可扩展的机器学习系统建立大数据以分析产品,该公司客户包括Zillow、Adobe、Zynga、Pandora、Bosch、ExxonMobil等,它们从别的应用程序或者服务中抓取数据,通过推荐系统、欺诈监测系统、情感及社交网络分析系统等系统模式将大数据理念转换为生产环境下可以使用的预测应用程序。( 详情)

项目主页: http://graphlab.org/

 

2、Vowpal Wabbit

Vowpal Wabbit(Fast Online Learning)最初是由雅虎研究院建设的一个机器学习平台,目前该项目在微软研究院。它是由John Langford启动并主导的项目。

项目地址:  http://hunch.net/~vw/

 

3、scikits.learn

scikit-learn是一个开源的、构建在SciPy之上用于机器学习的 Python 模块。它包括简单而高效的工具,可用于数据挖掘和数据分析,适合于任何人,可在各种情况下重复使用、构建在 NumPy、SciPy和 matplotlib 之上,遵循BSD 协议。(详情)

项目地址: http://scikit-learn.org/stable

 

4、Theano

Theano是一个python库,用来定义、优化和模拟数学表达式计算,用于高效的解决多维数组的计算问题。它使得写深度学习模型更加容易,同时也给出了一些关于在GPU上训练它们的选项。( 详情)

项目地址: http://deeplearning.net/software/theano/

 

5、Mahout

Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。

项目主页: http://mahout.apache.org/

 

6、pybrain

pybrain是Python的一个机器学习模块,它的目标是为机器学习任务提供灵活、易应、强大的机器学习算法。pybrain包括神经网络、强化学习(及二者结合)、无监督学习、进化算法。以神经网络为核心,所有的训练方法都以神经网络为一个实例。

项目主页: http://pybrain.org/

 

7、OpenCV

OpenCV是一个基于(开源)发行的跨平台计算机视觉库,可以运行在Linux、Windows和Mac OS操作系统上。它轻量级而且高效——由一系列 C 函数和少量 C++ 类构成,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。( 详情)

项目主页: http://opencv.org/

 

8、Orange

Orange 是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了 Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。

项目主页: http://orange.biolab.si/

 

9、NLTK
NLTK(natural language toolkit)是Python的自然语言处理工具包。2001年推出,至今发展非常活跃。它的主要作用是为了教学,至今已经在20多个国家60多所高校使用,里面包括了大量的词料库,以及自然语言处理方面的算法实现:分词, 词根计算, 分类, 语义分析等。

项目主页: http://nltk.org/

 

10、Nupic

Nupic是一个开源的人工智能平台。该项目由Grok(原名 Numenta)公司开发,其中包括了公司的算法和软件架构。 NuPIC 的运作接近于人脑,“当模式变化的时候,它会忘掉旧模式,记忆新模式”。如人脑一样,CLA 算法能够适应新的变化。( 详情)

项目主页: http://numenta.org/nupic.html

 

一、Caffe。源自加州伯克利分校的 Caffe 被广泛应用,包括 Pinterest 这样的 web 大户。与 TensorFlow 一样,Caffe 也是由 C++ 开发,Caffe 也是 Google 今年早些时候发布的 DeepDream 项目(可以识别喵星人的人工智能神经网络)的基础。

二、Theano。2008 年诞生于蒙特利尔理工学院,Theano 派生出了大量深度学习 Python 软件包,最著名的包括 Blocks 和 Keras。

三、Torch。Torch 诞生已经有十年之久,但是真正起势得益于去年 Facebook 开源了大量 Torch 的深度学习模块和扩展。Torch 另外一个特殊之处是采用了不怎么流行的编程语言 Lua(该语言曾被用来开发视频游戏)。

除了以上三个比较成熟知名的项目,还有很多有特色的深度学习开源框架也值得关注:

四、Brainstorm。来自瑞士人工智能实验室 IDSIA 的一个非常发展前景很不错的深度学习软件包,Brainstorm 能够处理上百层的超级深度神经网络——所谓的公路网络 Highway Networks。

五、Chainer。来自一个日本的深度学习创业公司 Preferred Networks,今年 6 月发布的一个 Python 框架。Chainer 的设计基于 define by run 原则,也就是说,该网络在运行中动态定义,而不是在启动时定义,这里有 Chainer 的详细文档。

六、Deeplearning4j。 顾名思义,Deeplearning4j 是”for Java”的深度学习框架,也是首个商用级别的深度学习开源库。Deeplearning4j 由创业公司 Skymind 于 2014 年 6 月发布,使用 Deeplearning4j 的不乏埃森哲、雪弗兰、博斯咨询和 IBM 等明星企业。

DeepLearning4j 是一个面向生产环境和商业应用的高成熟度深度学习开源库,可与 Hadoop 和 Spark 集成,即插即用,方便开发者在 APP 中快速集成深度学习功能,可应用于以下深度学习领域:

  • 人脸/图像识别
  • 语音搜索
  • 语音转文字(Speech to text)
  • 垃圾信息过滤(异常侦测)
  • 电商欺诈侦测

七、Marvin。是普林斯顿大学视觉工作组新推出的 C++ 框架。该团队还提供了一个文件用于将 Caffe 模型转化成语 Marvin 兼容的模式。

八、ConvNetJS。这是斯坦福大学博士生 Andrej Karpathy 开发浏览器插件,基于万能的 JavaScript 可以在你的游览器中训练神经网络。Karpathy 还写了一个 ConvNetJS 的入门教程,以及一个简洁的浏览器演示项目。

九、MXNet。出自 CXXNet、Minerva、Purine 等项目的开发者之手,主要用 C++ 编写。MXNet 强调提高内存使用的效率,甚至能在智能手机上运行诸如图像识别等任务。

十、Neon。由创业公司 Nervana Systems 于今年五月开源,在某些基准测试中,由 Python 和 Sass 开发的 Neon 的测试成绩甚至要优于 Caffeine、Torch 和谷歌的 TensorFlow。

Accord.NET 是一种.NET 机器学习框架,包含声音和图像处理库,它完全由 C# 编写。它是一种为开发生产级的计算机视觉、计算机听觉、信号处理和统计应用而设计的完整框架。

发表评论

电子邮件地址不会被公开。 必填项已用*标注