转载:http://python.jobbole.com/84326/
为了理解和应用机器学习技术,你需要学习 Python 或者 R。这两者都是与 C、Java、PHP 相类似的编程语言。但是,因为 Python 与 R 都比较年轻,而且更加“远离”CPU,所以它们显得简单一些。相对于R 只用于处理数据,使用例如机器学习、统计算法和漂亮的绘图分析数据, Pthon 的优势在于它适用于许多其他的问题。因为 Python 拥有更广阔的分布(使用 Jango 托管网站,自然语言处理 NLP,访问 Twitter、Linkedin 等网站的 API),同时类似于更多的传统语言,比如 C python 就比较流行。
在Python中学习机器学习的四个步骤
1、首先你要使用书籍、课程、视频来学习 Python 的基础知识
2、然后你必需掌握不同的模块,比如 Pandas、Numpy、Matplotlib、NLP (自然语言处理),来处理、清理、绘图和理解数据。
3、接着你必需能够从网页抓取数据,无论是通过网站API,还是网页抓取模块Beautiful Soap。通过网页抓取可以收集数据,应用于机器学习算法。
4、最后一步,你必需学习机器学习工具,比如 Scikit-Learn,或者在抓取的数据中执行机器学习算法(ML-algorithm)。
1.Python入门指南:
有一个简单而快速学习Python的方法,是在 codecademy.com 注册,然后开始编程,并学习 Python 基础知识。另一个学习Python的经典方法是通过 learnpythonthehardway ,一个为广大 Python 编程者所推荐的网站。然后还有一个优秀的 PDF, byte of python 。python社团还为初学者准备了一个Python资源列表list of python resources。同时,还有来自 O’Reilley 的书籍 《Think Python》,也可以从这里免费下载 。最后一个资源是 Python 用于计量经济学、统计学和数据分析的介绍:《Introduction to Python for Econometrics, Statistics and Data Analysis 》,其中也包含了 Python 的基础知识。
2.机器学习的重要模块
关于机器学习最重要的模块是:NumPy, Pandas, Matplotlib 和 IPython 。有一本书涵盖了其中一些模块:《Data Analysis with Open Source Tools》 。然后来自于1.的免费书籍《Introduction to Python for Econometrics, Statistics and Data Analysis》,同时也包括 Numpy,Pandas,Matplotlib 和 IPython这几个模块。还有一个资源是 Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython,也包含了一些很重要的模块。以下是其他免费模块的相关链接: Numpy (Numerical Python, Numpy Userguide, Guide to NumPy), Pandas (Pandas, Powerful Python Data Analysis Toolkit,Practical Business Python,Intros to Pandas Data Structure) 和 Matplotlib books。
其它资源:
3.从网站通过API挖掘和抓取数据
一旦理解了Python的基础知识和最重要的模块,你必需要学习如何从不同的源收集数据。这个技术也被称作网页抓取。传统的源是网站文本,通过API进入twitter或linkedin一类网站得到的文本数据。网页抓取方面的优秀书籍包括:《 Mining the Social Web》 (免费书籍),《Web Scraping with Python》 和《 Web Scraping with Python: Collecting Data from the Modern Web》。
最后这个文本数据必须要转换为数值数据,通过自然语言处理(NLP)技术完成, Natural language processing with Python 和 Natural Language Annotation for Machine Learning 上面有相应的资料。其它的数据包括图片和视频,可以使用计算机图像技术分析: Programming Computer Vision with Python,Programming Computer Vision with Python: Tools and algorithms for analyzing images 和 Practical Python and OpenCV ,这些是图片分析方面的典型资源。
以下例子中包括可以用基本的Python命令行实现,有教育意义,而且有趣的例子,以及网页抓取技术。
- Mini-Tutorial: Saving Tweets to a Database with Python (微型教程:使用Python保存推文到数据库)
- Web Scraping Indeed for Key Data Science Job Skills (网页抓取关键数据科学工作技巧)
- Case Study: Sentiment Analysis On Movie Reviews (案例学习:电影评论中的情感分析)
- First Web Scraper (第一网页抓取)
- Sentiment Analysis of Emails (邮件的情感分析)
- Simple Text Classification (简单文本分类)
- Basic Sentiment Analysis with Python (Python基础情感分析)
- Twitter sentiment analysis using Python and NLTK (使用Python和NLTK 做Twitter情感分析)
- Second Try: Sentiment Analysis in Python (第二个尝试:Python情感分析)
- Natural Language Processing in a Kaggle Competition for Movie Reviews (电影评论相关Kaggle Competition中的NLP自然语言处理)
4. Python 中的机器学习
机器学习可以分为四组:分类,聚类,回归和降维。
分类”也可以称作监督学习,有助于分类图片,用来识别图片中的特征或脸型,或者通过用户外形来分类用户,并给他赋不同的分数值。“聚类”发生在无监督学习的情况,允许用户在数据中识别组/集群。“回归”允许通过参数集估算一个值,可以应用于预测住宅、公寓或汽车的最优价格。
modules, packages and techniques 罗列了 Python、C、Scala、Java、Julia、MATLAB、Go、R 和 Ruby等语言中所有学习机器学习的重要模块、包和技巧。有关Python机器学习的书籍,我特别推荐《Machine learning in action》。尽管有点短,但它很可能是机器学习中的经典,因为它提到了“集体智慧编程时代”:Programming Collective Intelligence。这两本书帮助你通过抓取数据建立机器学习。最近关于机器学习的出版物大多都是基于模块 scikit-learn 。由于所有的算法在模块中都已实现,使得机器学习非常简单。你唯一要做的事就是告诉 Python ,应该使用哪一个机器学习技巧 (ML-technique) 来分析数据。
免费的 scikit-learn教程 可以在 scikit-learn 官方网站上找到。其他的帖子可以通过以下链接获取:
- Introduction to Machine Learning with Python and Scikit-Learn (机器学习中 Python 和 Scikit-Learn 的介绍)
- Data Science in Python (Python 中的数据科学)
- Machine Learning for Predicting Bad Loans (用机器学习来预测坏账)
- A Generic Architecture for Text Classification with Machine Learning (通过机器学习来分类文本的通用架构)
- Using Python and AI to predict types of wine (利用 Python 和 AI 人工智能来预测酒的品种)
- Advice for applying Machine Learning (应用机器学习的建议)
- Predicting customer churn with scikit-learn (使用 scikit-learn 预测用户流失)
- Mapping Your Music Collection (映射你的音乐收藏)
- Data Science in Python (Python 中的数据科学)
- Case Study: Sentiment Analysis on Movie Reviews (案例学习:电影评论中的情感分析)
- Document Clustering with Python (Python中的文档聚类)
- Five most popular similarity measures implementation in python (5 个最流行的Python相似度测量的实现)
- Case Study: Sentiment Analysis on Movie Reviews (案例学习:电影评论中的情感分析)
- Will it Python? (将会是 Python 么?)
- Text Processing in Machine Learning (机器学习中的文本处理)
- Hacking an epic NHL goal celebration with a hue light show and real-time machine learning (使用色彩灯光秀和实时机器学习黑入史诗级 NHL(北美冰球联赛)进球庆祝)
- Vancouver Room Prices (温哥华房间价格)
- Exploring and Predicting University Faculty Salaries (探索和预测大学教师工资)
- Predicting Airline Delays (预测航班延误)
关于机器学习和 Python 中模块 scikit-learn 的书籍:
- Collection of books on reddit (收集 reddit 新闻网站上的书籍)
- Building Machine Learning Systems with Python (用 Python 建立机器学习系统)
- Building Machine Learning Systems with Python, 2nd Edition (用 Python 建立机器学习系统,第二版)
- Learning scikit-learn: Machine Learning in Python (学习 scikit-learn:Python 中的机器学习)
- Machine Learning Algorithmic Perspective (透视机器学习算法)
- Data Science from Scratch – First Principles with Python (抓取的数据科学——关于 Python 的首要原则)
- Machine Learning in Python (Python 中的机器学习)
接下来数月将要发行的书籍包括:
- 《Introduction to Machine Learning with Python》 (Python 机器学习的介绍)
- 《Thoughtful Machine Learning with Python: A Test-Driven Approach》 (思考 Python 机器学习:接近测试驱动)
机器学习相关的课程和博客
你想要得到一个学位,加入在线课程,或者参加线下讲习班、大本营或大学课程么?这里有一些关于逻辑分析、大数据、数据挖掘和数据科学的在线教育站点链接:Collection of links 。另外推荐一些在线课程–来自Udacity的Coursera 课程:machine learning 和 Data Analyst Nanodegree。还有一些关于机器学习的博客列表:List of frequently updated blogs。
最后是来自 Jake Vanderplas 和 Olivier Grisel,关于探索机器学习的优秀 youtube 视频课程。
机器学习理论
想要学习机器学习的理论?那么,《The Elements of statistical Learning》和《 Introduction to Statistical Learning》 是常常被引用的经典。然后还有另外两本书籍:《Introduction to machine learning 》和《 A Course in Machine Learning》。这些链接包括免费的PDF,你不需要付费!如果不想阅读这些书籍,请观看视频:15 hours theory of machine learning!
相关推荐
本课程面向各类编程学习者,讲解当下流行的机器学习相关的技术和方法,帮助学习者利用Python语言掌握机器学习算法解决一般问题的基本能力,一窥前沿机器学习算法的奥秘。 本课程介绍Python计算生态中广受欢迎的机器...
利用python机器学习教程入门1,以科比生涯为数据依据模型,建立python机器学习算法,掌握python机器学习开发基础
本课程旨在引导学生掌握机器学习的基本知识、典型方法与技术,通过具体的应用案例激发学生对该学科的兴趣,鼓励学生能够从人工智能的角度来分析、解决飞行器、机器人所面临的问题和挑战。本课程主要内容包括Python...
结合Spark和Python技术,引入岩石与水雷、鲍鱼年龄问题、红酒口感、玻璃分类等经典数据集,将机器学习应用到数据预测分析中,帮助全面系统地掌握利用机器学习进行预测分析的基本过程,并将其应用到实际项目中。
本课程旨在引导学生掌握机器学习的基本知识、典型方法与技术,通过具体的应用案例激发学生对该学科的兴趣,鼓励学生能够从人工智能的角度来分析、解决飞行器、机器人所面临的问题和挑战。本课程主要内容包括Python...
通过使用利用流行的Python机器学习生态系统的现实案例研究,这本书是您学习机器学习的艺术和科学成为成功的从业者的完美伴侣。 本书中使用的概念,技术,工具,框架和方法论将教您如何成功地思考,设计,构建和执行...
在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy =系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。 1、决策树的算法...
了解机器学习定义以及应用场景 ...掌握机器学习基础环境的安装和使用 掌握利用常用的科学计算库对数据进行分析 掌握机器学习常见算法原理 应用Scikit-learn实现机器学习算法的应用, 结合场景解决实际问题
雷课 "Python数据分析与机器学习前沿技术"课程客户价值 雷课python数据分析课程客户价值全文共15页,当前为第1页。 一、课程目标与价值 课程意义: 数据分析与机器... 通过理论实践结合,掌握利用Python来解决日常科研
BAT算法工程师手把手带你零基础入门人工智能,系统掌握 Python 及机器学习基础知识,挑战工业级实战项目
掌握数据可视化、机器学习等高端主题; 新手变身数据分析专家的上好读本; 媒体推荐 本书从一系列开源的Python模块讲起,介绍了很多实用的有关数据检索、清晰、操作、可视化等知识。同时,还涉及信号处理、预测...
本文来自于csdn,文章详细介绍了SupervisedLearning(有监督学习)以及ROC曲线等相关知识。MachineLearning分为有监督学习与无监督学习,这个系列重在介绍有监督学习,即,通过告知算法有关Features和对应的输出Labels...
错误的学习方法:买厚厚的书;逼自己看完,记住每个语法;闭门看书3个月;最后一行代码也写不出来;编程就像骑自行车; 买一本《骑自行车大全》,是没卵用的 正确姿势:掌握最基础的姿势,就可以骑上出发了。实际...
在本书的最后,您将全面了解主要的机器学习算法,图形分析技术以及所有可视化和部署工具,以便更轻松地向数据科学专家和企业的受众展示您的结果。 你将学到什么 在Windows,Mac和Linux上设置数据科学工具箱 使用...
Python是一种通用的解释型编程语言,近年来在Web开发、数据科学、机器学习和人工智能等领域得到了广泛的应用。对于想要学习和使用Python的开发者来说,丰富的资源是提升技能的关键。 首先,Python的基础语法和核心...
本课程旨在引导学生掌握机器学习的基本知识、典型方法与技术,通过具体的应用案例激发学生对该学科的兴趣,鼓励学生能够从人工智能的角度来分析、解决飞行器、机器人所面临的问题和挑战。本课程主要内容包括Python...
学习利用AI的强大功能进行自然语言处理,执行拼写检查,文本摘要,...使用Python应用自然语言处理首先回顾必要的机器学习概念,然后再讨论各种NLP问题。阅读本书后,您将掌握在自己的专业环境中应用这些概念的技能。
读者将能够深入了解聚类分析的原理和常用方法,掌握如何利用Python进行数据处理和聚类分析。 能学到什么: 了解如何使用jieba这一广泛应用的中文分词模块进行文本数据处理; 掌握pandas这一高效处理大型数据集的...
该项目基于 Python 编程语言,利用机器学习技术实现了对锂离子电池寿命的预测。 该压缩文件内包含了以下内容: 源码文件:包括数据预处理、模型训练、模型评估等部分的 Python 代码文件。 数据集:用于模型训练和...
课程分享——Python数据可视化分析库-Matplotlib,附课件、代码。 Matplotlib 可能是 Python 2D-绘图领域使用最广泛的套件。...通过本门课程的学习,可以应付后续机器学习课程中的绝大多数应用,建议掌握本部分的内容