Yanshee人工智能 1 人工智能的多彩世界 - UBTEDU/YanShee-Curriculum GitHub Wiki

课程目标

通过本课程了解人工智能的基本概念和相关知识及发展现状，当今世界人们是如何利用人工智能技术来帮助我们的日常生产生活的？目前主要有哪些主流发展方向？为何人工智能在目前的人类社会变的越来越重要了？后续我们能做些什么？这个课程会给你一些启发。

课程引入原因

人类终究还是想让机器拥有智能，帮助人类完成一些人类难以完成或者重复劳动的繁琐工作，于是人工智能就应用而生了。那么人工智能究竟什么？为何会如此受重视？随着互联网、物联网的发展，人类信息互通、智能化操作生产和生活的愿望越来越迫切了，人们已经不再满足于简单的设备数据读取、远程视频、网页读取、浏览共享新闻等基本信息传播的方式了，人们希望机器能更加智能，可以帮人们干活的机器设备们。于是出现了快递仓库挑拣机器人、送餐机器人、扫地机器人、航拍无人机等等，这些可以和人类互动的机器人。随着人们对智能需求度越来越高，在物联网的基础上发展出了智慧城市、智能家居、智能医疗、智慧农业、智慧养老等等互联网的衍生品。然而随着无线技术的蓬勃发展，人们发现真正拥有智能的机器少之又少、他们最多只能完成基本的人类分配给它们的任务，有的连基本的识别任务都完不成，于是在智能交通方面，出现了车牌识别、人脸身份识别，智能安全方面出现了罪犯人脸识别，智能家居方面出现了智能音响、智能电视、智能camera等可以和人类精确互动的机器。让机器认识某个方面的东西变成了人们刻不容缓的需求，也就是计算机视觉或者叫模式识别研究的范畴。但是这些远远不能满足人类对机器智能的需求，我们能通过互联网+物联网完成远程医疗数据读取然后再让医生更好的分析病人的病情，我们可以通过物联网和云端计算来实现远程监控农作物生长情况、天气情况等基本数据任务，但是人类希望机器可以做出自我决策，而不需要人类的参与。我们可以称之为自主决策智能机器，于是又诞生了自动无人驾驶汽车、自主决策无人机队列、送战略物资的机器狗、会做饭的机器厨师等等，然而这些发展远远不尽人意，那个战胜人类的围棋高手AlphaGo也不过只是会下围棋的一套高级逻辑游戏罢了，由此可见人工智能的发展还有很长一段路要走。本课程是人工智能的一节基础知识课，为你展示它的世界。

基础概念及知识点介绍

大数据与云计算

大数据（Big Data）又称为巨量资料，指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。“大数据”概念最早由维克托·迈尔·舍恩伯格和肯尼斯·库克耶在编写《大数据时代》中提出，指不用随机分析法（抽样调查）的捷径，而是采用所有数据进行分析处理。大数据有4V特点，即Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）。大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘，但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。而云计算（cloud computing）是基于互联网的相关服务的增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网，后来也用来表示互联网和底层基础设施的抽象。因此，云计算甚至可以让你体验每秒10万亿次的运算能力，拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心，按自己的需求进行运算。目前流行的有亚马逊AWS、阿里云、Azure云、百度云等等。

人工智能

（Artificial Intelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是研究人类智能活动的规律，构造具有一定智能的人工系统，研究如何让计算机去完成以往需要人的智力才能胜任的工作，也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。目前能够用来研究人工智能的主要物质手段以及能够实现人工智能技术的机器就是计算机, 人工智能的发展历史是和计算机科学与技术的发展史联系在一起的。除了计算机科学以外, 人工智能还涉及信息论、控制论、自动化、仿生学、生物学、心理学、数理逻辑、语言学、医学和哲学等多门学科。人工智能学科研究的主要内容包括：知识表示、自动推理和搜索方法、机器学习和知识获取、知识处理系统、自然语言理解、计算机视觉、智能机器人、自动程序设计等方面。实际应用包括：机器视觉，指纹识别，人脸识别，视网膜识别，虹膜识别，掌纹识别，专家系统，自动规划，智能搜索，定理证明，博弈，自动程序设计，智能控制，机器人学，语言和图像理解，遗传编程等。具体可以分为强人工智能和弱人工智能。

强人工智能

强人工智能观点认为有可能制造出真正能推理（Reasoning）和解决问题（Problem_solving）的智能机器，并且，这样的机器能将被认为是有知觉的，有自我意识的。可以独立思考问题并制定解决问题的最优方案，有自己的价值观和世界观体系。有和生物一样的各种本能，比如生存和安全需求。在某种意义上可以看作一种新的文明。AI的核心问题包括推理、知识、规划、学习、交流、感知、移动和操作物体的能力等。强人工智能目前仍然是该领域的长远目标。目前比较流行的方法包括统计方法，计算智能和传统意义的AI。目前有大量的工具应用了人工智能，其中包括搜索和数学优化、逻辑推演。而基于仿生学、认知心理学，以及基于概率论和经济学的算法等等也在逐步探索当中。

弱人工智能

弱人工智能是能制造出真正地推理（Reasoning）和解决问题（Problem_solving）的智能机器，这些机器只不过看起来像是智能的，但是并不真正拥有智能，也不会有自主意识。目前通常意义上的人工智能都是属于这一范畴的人工智能。

机器学习

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。主流机器学习算法包括：SVM、朴素贝叶斯、随机森林、KNN、决策树、人工神经网络等等。工业领域机器学习取得了很大的进步，人们利用机器学习训练出了非常多的模型和使用价值的模仿人类的机器作品。可以分为监督学习和非监督学习两种。他们都是建立模型进而让模仿重现的重要手段。机器学习已经有了十分广泛的应用，例如：数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、DNA序列测序、语音和手写识别、战略游戏和机器人运用。

Sklearn

（scikit-learn）是基于python的机器学习库，可以方便进行机器学习算法的实施，包括：分类、回归、聚类、降维、模型选择和预处理等数据挖掘的相关算法。

网址 http://scikit-learn.org/stable/index.html

它对一些常用的机器学习方法进行了封装，在进行机器学习任务时，并不需要每个人都实现所有的算法，只需要简单的调用sklearn里的模块就可以实现大多数机器学习任务。机器学习任务通常包括分类（Classification）和回归（Regression），常用的分类器包括SVM、KNN、贝叶斯、线性回归、逻辑回归、决策树、随机森林、xgboost、GBDT、boosting、神经网络。常见的降维方法包括TF-IDF、主题模型LDA、主成分分析PCA等等。

深度学习

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值（例如一幅图像）可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务（例如，人脸识别或面部表情识别）。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。

卷积神经网络

（Convolutional neural networks，简称CNN）就是一种深度的监督学习下的机器学习模型。是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。它包括卷积层(convolutional layer)和池化层(pooling layer)。受Hubel和Wiesel对猫视觉皮层电生理研究启发，发现大脑中的部分神经元只对一定的方向的边缘做出回应。有人提出卷积神经网络（CNN），Yann Lecun 最早将CNN用于手写数字识别并一直保持了其在该问题的霸主地位。近年来卷积神经网络在多个方向持续发力，在语音识别、人脸识别、通用物体识别、运动分析、自然语言处理甚至脑电波分析方面均有突破。卷积神经网络由三部分构成。第一部分是输入层。第二部分由n个卷积层和池化层的组合组成。第三部分由一个全连结的多层感知机分类器构成。下图输入一张图片，经过卷积神经网络之后，获得一个输出是鸟类的概率值。

RNN

（Recurrent neural Network、循环神经网络）是一种节点定向连接成环的人工神经网络。这种网络的内部状态可以展示动态时序行为。不同于前馈神经网络的是，RNN可以利用它内部的记忆来处理任意时序的输入序列，这让它可以更容易处理如不分段的手写识别、语音识别等。

TensorFlow

是谷歌开源的一款人工智能学习系统框架。Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。TensorFlow支持CNN、RNN和LSTM算法，这都是目前在Image，Speech和NLP最流行的深度神经网络模型。

Caffe

全称Convolutional Architecture for Fast Feature Embedding。是一种常用的深度学习框架，在视频、图像处理方面应用较多。官方网址：http://caffe.berkeleyvision.org/

语音识别

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。中国物联网校企联盟形象得把语音识别[1] 比做为“机器的听觉系统”。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。　语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

自然语言处理

（NLP）用自然语言与计算机进行通信，这是人们长期以来所追求的。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。

计算机视觉

是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所指的信息指Shannon定义的，可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

模式识别

（Pattern Recognition）是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析，以对事物或现象进行描述、辨认、分类和解释的过程，是信息科学和人工智能的重要组成部分。模式识别就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说，特别重要的是对光学信息（通过视觉器官来获得）和声学信息（通过听觉器官来获得）的识别。

人脸识别

是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部的一系列相关技术，通常也叫做人像识别、面部识别。人脸识别系统的研究始于20世纪60年代，80年代后随着计算机技术和光学成像技术的发展得到提高，而真正进入初级的应用阶段则在90年后期，并且以美国、德国和日本的技术实现为主；人脸识别系统成功的关键在于是否拥有尖端的核心算法，并使识别结果具有实用化的识别率和识别速度；“人脸识别系统”集成了人工智能、机器识别、机器学习、模型理论、专家系统、视频图像处理等多种专业技术，同时需结合中间值处理的理论与实现，是生物特征识别的最新应用，其核心技术的实现，展现了弱人工智能向强人工智能的转化。

物体检测

通过深度神经网络的CNN或其他模型训练，得到相关的物体在图片中的位置和名称，并标注出它的内容。这种技术随着深度神经网络的发展，变得越来越成熟了，目前比较有代表性的有YOLO物体检测方法等。

Kaggle大赛

Kaggle是由联合创始人、首席执行官安东尼·高德布卢姆（Anthony Goldbloom）2010年在墨尔本创立的，主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台已经吸引了80万名数据科学家的关注，这些用户资源或许正是吸引谷歌的主要因素。

文本搜索与推荐

机器学习的一个重要应用分支就是搜索和文本分类与推荐，我们目前在深度学习的CNN等模型框架下，文本的分类与语言语义理解已经被广泛应用于新闻推荐、网购推荐等场景中。

环境准备

通过在Ubuntu16.04下的linux系统来训练一个卷积神经网络的猫狗识别的模型。PC要求独立显卡8G以上，CPU i7及以上最佳。测试模型可以在Yanshee机器人身上获得验证。

实践项目

用TensorFlow来训练猫狗大战数据模型来识别猫和狗。本项目旨在通过一个实实在在的例子来说明下通常的深度学习神经网络是如何通过特定的机器学习框架实现模型训练并用于实际图片的测试的。训练好的模型都可以放到我们的Yanshee机器人身上进行使用了。猫狗数据集来源于Kaggle，数据集有12500只猫和12500只狗。数据集下载地址：kaggle官方地址：https://www.kaggle.com/c/dogs-vs-cats/data 百度网盘地址：https://pan.baidu.com/s/1H0GCLMyOUMxLwo6tzgo-tg

项目整体思路

在这里简单介绍下项目整体思路分四个步骤： 1、数据预处理2、设计神经网络 3、进行训练模型 4、图片模型评估首先建立工程目录文件夹Cat_vs_Dog：包含data/train/和data/test放数据集，logs/input_data.py logs/models.py logs/training.py logs/evaluate_catordog.py 四个文件分别代表思路的四个步骤。

数据预处理

将图片数据处理为 tf 能够识别的数据格式，并将数据设计批次。

第一步get_files() 方法读取图片，然后根据图片名，添加猫狗 label，然后再将 image和label 放到数组中，打乱顺序返回
将第一步处理好的图片和label 数组转化为 tensorflow 能够识别的格式，然后将图片裁剪和补充进行标准化处理，分批次返回。

import tensorflow as tf
import os 
import numpy as np

def get_files(file_dir):
	cats = []
	label_cats = []
	dogs = []
	label_dogs = []
	for file in os.listdir(file_dir):
		name = file.split(sep='.')
		if 'cat' in name[0]:
			cats.append(file_dir + file)
			label_cats.append(0)
		else:
			if 'dog' in name[0]:
				dogs.append(file_dir + file)
				label_dogs.append(1)
		image_list = np.hstack((cats,dogs))
		label_list = np.hstack((label_cats,label_dogs))
			print('There are %d cats\nThere are %d dogs' %(len(cats), len(dogs)))
	# 多个种类分别的时候需要把多个种类放在一起，打乱顺序,这里不需要
	# 把标签和图片都放倒一个 temp 中 然后打乱顺序，然后取出来
	temp = np.array([image_list,label_list])
	temp = temp.transpose()
	# 打乱顺序
	np.random.shuffle(temp)
	# 取出第一个元素作为 image 第二个元素作为 label
	image_list = list(temp[:,0])
	label_list = list(temp[:,1])
	label_list = [int(i) for i in label_list]  
	return image_list,label_list
# image_W ,image_H 指定图片大小，batch_size 每批读取的个数 ，capacity队列中 最多容纳元素的个数
def get_batch(image,label,image_W,image_H,batch_size,capacity):
	# 转换数据为 ts 能识别的格式
	image = tf.cast(image,tf.string)
	label = tf.cast(label, tf.int32)

	# 将image 和 label 放到队列里 
	input_queue = tf.train.slice_input_producer([image,label])
	label = input_queue[1]
	# 读取图片的全部信息
	image_contents = tf.read_file(input_queue[0])
	# 把图片解码，channels ＝3 为彩色图片, r，g ，b  黑白图片为 1 ，也可以理解为图片的厚度
	image = tf.image.decode_jpeg(image_contents,channels =3)
	# 将图片以图片中心进行裁剪或者扩充为 指定的image_W，image_H
	image = tf.image.resize_image_with_crop_or_pad(image, image_W, image_H)
	# 对数据进行标准化,标准化，就是减去它的均值，除以他的方差
	image = tf.image.per_image_standardization(image)
	# 生成批次  num_threads 有多少个线程根据电脑配置设置  capacity 队列中 最多容纳图片的个数  tf.train.shuffle_batch 打乱顺序，
	image_batch, label_batch = tf.train.batch([image, label],batch_size = batch_size, num_threads = 64, capacity = capacity)
	
    # 重新定义下 label_batch 的形状
	label_batch = tf.reshape(label_batch , [batch_size])
	# 转化图片
	image_batch = tf.cast(image_batch,tf.float32)
	return  image_batch, label_batch

设计神经网络

#coding=utf-8  
import tensorflow as tf  
# 结构
# conv1   卷积层 1
# pooling1_lrn  池化层 1
# conv2  卷积层 2
# pooling2_lrn 池化层 2
# local3 全连接层 1
# local4 全连接层 2
# softmax 全连接层 3
def inference(images, batch_size, n_classes):  
  
    with tf.variable_scope('conv1') as scope: 
     # 卷积盒的为 3*3 的卷积盒，图片厚度是3，输出是16个featuremap
        weights = tf.get_variable('weights',  
                                  shape=[3, 3, 3, 16],  
                                  dtype=tf.float32,  
                                  initializer=tf.truncated_normal_initializer(stddev=0.1, dtype=tf.float32))  
        biases = tf.get_variable('biases',  
                                 shape=[16],  
                                 dtype=tf.float32,  
                                 initializer=tf.constant_initializer(0.1))  
        conv = tf.nn.conv2d(images, weights, strides=[1, 1, 1, 1], padding='SAME')  
        pre_activation = tf.nn.bias_add(conv, biases)  
        conv1 = tf.nn.relu(pre_activation, name=scope.name)  
  
    with tf.variable_scope('pooling1_lrn') as scope:  
            pool1 = tf.nn.max_pool(conv1, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1], padding='SAME', name='pooling1')  
            norm1 = tf.nn.lrn(pool1, depth_radius=4, bias=1.0, alpha=0.001 / 9.0, beta=0.75, name='norm1')  
  
    with tf.variable_scope('conv2') as scope:  
                weights = tf.get_variable('weights',  
                                          shape=[3, 3, 16, 16],  
                                          dtype=tf.float32,  
                                          initializer=tf.truncated_normal_initializer(stddev=0.1, dtype=tf.float32))  
                biases = tf.get_variable('biases',  
                                         shape=[16],  
                                         dtype=tf.float32,  
                                         initializer=tf.constant_initializer(0.1))  
                conv = tf.nn.conv2d(norm1, weights, strides=[1, 1, 1, 1], padding='SAME')  
                pre_activation = tf.nn.bias_add(conv, biases)  
                conv2 = tf.nn.relu(pre_activation, name='conv2')  
  
    # pool2 and norm2  
    with tf.variable_scope('pooling2_lrn') as scope:  
        norm2 = tf.nn.lrn(conv2, depth_radius=4, bias=1.0, alpha=0.001 / 9.0, beta=0.75, name='norm2')  
        pool2 = tf.nn.max_pool(norm2, ksize=[1, 3, 3, 1], strides=[1, 1, 1, 1], padding='SAME', name='pooling2')  
  
    with tf.variable_scope('local3') as scope:  
        reshape = tf.reshape(pool2, shape=[batch_size, -1])  
        dim = reshape.get_shape()[1].value  
        weights = tf.get_variable('weights',  
                                  shape=[dim, 128],  
                                  dtype=tf.float32,  
                                  initializer=tf.truncated_normal_initializer(stddev=0.005, dtype=tf.float32))  
        biases = tf.get_variable('biases',  
                                 shape=[128],  
                                 dtype=tf.float32,  
                                 initializer=tf.constant_initializer(0.1))  
    local3 = tf.nn.relu(tf.matmul(reshape, weights) + biases, name=scope.name)  
  
    # local4  
    with tf.variable_scope('local4') as scope:  
        weights = tf.get_variable('weights',  
                                  shape=[128, 128],  
                                  dtype=tf.float32,  
                                  initializer=tf.truncated_normal_initializer(stddev=0.005, dtype=tf.float32))  
        biases = tf.get_variable('biases',  
                                 shape=[128],  
                                 dtype=tf.float32,  
                                 initializer=tf.constant_initializer(0.1))  
        local4 = tf.nn.relu(tf.matmul(local3, weights) + biases, name='local4')  
  
    # softmax  
    with tf.variable_scope('softmax_linear') as scope:  
        weights = tf.get_variable('softmax_linear',  
                                  shape=[128, n_classes],  
                                  dtype=tf.float32,  
                                  initializer=tf.truncated_normal_initializer(stddev=0.005, dtype=tf.float32))  
        biases = tf.get_variable('biases',  
                                 shape=[n_classes],  
                                 dtype=tf.float32,  
                                 initializer=tf.constant_initializer(0.1))  
        softmax_linear = tf.add(tf.matmul(local4, weights), biases, name='softmax_linear')  
  
    return softmax_linear  
  
  
  
def losses(logits, labels):  
    with tf.variable_scope('loss') as scope:  
        cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits \
                        (logits=logits, labels=labels, name='xentropy_per_example')  
        loss = tf.reduce_mean(cross_entropy, name='loss')  
        tf.summary.scalar(scope.name + '/loss', loss)  
    return loss  
  
def trainning(loss, learning_rate):  
    with tf.name_scope('optimizer'):  
        optimizer = tf.train.AdamOptimizer(learning_rate= learning_rate)  
        global_step = tf.Variable(0, name='global_step', trainable=False)  
        train_op = optimizer.minimize(loss, global_step= global_step)  
    return train_op  
  
def evaluation(logits, labels):  
    with tf.variable_scope('accuracy') as scope:  
        correct = tf.nn.in_top_k(logits, labels, 1)  
        correct = tf.cast(correct, tf.float16)  
        accuracy = tf.reduce_mean(correct)  
        tf.summary.scalar(scope.name + '/accuracy', accuracy)  
    return accuracy

进行训练模型

import os  
import numpy as np  
import tensorflow as tf  
import input_data     
import model  

  
N_CLASSES = 2  # 2个输出神经元，［1，0］ 或者 ［0，1］猫和狗的概率
IMG_W = 208  # 重新定义图片的大小，图片如果过大则训练比较慢  
IMG_H = 208  
BATCH_SIZE = 32  #每批数据的大小
CAPACITY = 256  
MAX_STEP = 15000 # 训练的步数，应当 >= 10000
learning_rate = 0.0001 # 学习率，建议刚开始的 learning_rate <= 0.0001
  

def run_training():  
      
    # 数据集
    train_dir = '/home/shaoyi/Cat_vs_Dog/data/train/'   #My dir  
    #logs_train_dir 存放训练模型的过程的数据，在tensorboard 中查看 
    logs_train_dir = '/home/shaoyi/ Cat_vs_Dog /saveNet/'  

    # 获取图片和标签集
    train, train_label = input_data.get_files(train_dir)  
    # 生成批次
    train_batch, train_label_batch = input_data.get_batch(train,  
                                                          train_label,  
                                                          IMG_W,  
                                                          IMG_H,  
                                                          BATCH_SIZE,   
                                                          CAPACITY)
    # 进入模型
    train_logits = model.inference(train_batch, BATCH_SIZE, N_CLASSES) 
    # 获取 loss 
    train_loss = model.losses(train_logits, train_label_batch)
    # 训练 
    train_op = model.trainning(train_loss, learning_rate)
    # 获取准确率 
    train__acc = model.evaluation(train_logits, train_label_batch)  
    # 合并 summary
    summary_op = tf.summary.merge_all()  
    sess = tf.Session()
    # 保存summary
    train_writer = tf.summary.FileWriter(logs_train_dir, sess.graph)  
    saver = tf.train.Saver()  
      
    sess.run(tf.global_variables_initializer())  
    coord = tf.train.Coordinator()  
    threads = tf.train.start_queue_runners(sess=sess, coord=coord)  
      
    try:  
        for step in np.arange(MAX_STEP):  
            if coord.should_stop():  
                    break  
            _, tra_loss, tra_acc = sess.run([train_op, train_loss, train__acc])  
                 
            if step % 50 == 0:  
                print('Step %d, train loss = %.2f, train accuracy = %.2f%%' %(step, tra_loss, tra_acc*100.0))  
                summary_str = sess.run(summary_op)  
                train_writer.add_summary(summary_str, step)  
              
            if step % 2000 == 0 or (step + 1) == MAX_STEP:  
                # 每隔2000步保存一下模型，模型保存在 checkpoint_path 中
                checkpoint_path = os.path.join(logs_train_dir, 'model.ckpt')  
                saver.save(sess, checkpoint_path, global_step=step)  
                  
    except tf.errors.OutOfRangeError:  
        print('Done training -- epoch limit reached')  
    finally:  
        coord.request_stop()
    coord.join(threads)  
    sess.close()  

# train
run_training()

图片模型评估测试

#coding=utf-8  
import tensorflow as tf 
from PIL import Image  
import matplotlib.pyplot as plt
import input_data 
import numpy as np
import model
import os 
  
#从训练集中选取一张图片 
def get_one_image(train): 
    files = os.listdir(train)
    n = len(files)
    ind = np.random.randint(0,n)
    img_dir = os.path.join(train,files[ind])  
    image = Image.open(img_dir)  
    plt.imshow(image)
    plt.show()
    image = image.resize([208, 208])  
    image = np.array(image)
    return image  
  
  
def evaluate_one_image():  
    test = '/home/shaoyi/Cat_vs_Dog/data/test/'  
  
    # 获取图片路径集和标签集
    image_array = get_one_image(test)  
      
    with tf.Graph().as_default():  
        BATCH_SIZE = 1  # 因为只读取一副图片 所以batch 设置为1
        N_CLASSES = 2  # 2个输出神经元，［1，0］ 或者 ［0，1］猫和狗的概率
        # 转化图片格式
        image = tf.cast(image_array, tf.float32)  
        # 图片标准化
        image = tf.image.per_image_standardization(image)
        # 图片原来是三维的 [208, 208, 3] 重新定义图片形状 改为一个4D  四维的 tensor
        image = tf.reshape(image, [1, 208, 208, 3])  
        logit = model.inference(image, BATCH_SIZE, N_CLASSES)  
        # 因为 inference 的返回没有用激活函数，所以在这里对结果用softmax 激活
        logit = tf.nn.softmax(logit)  
        
        # 用最原始的输入数据的方式向模型输入数据 placeholder
        x = tf.placeholder(tf.float32, shape=[208, 208, 3])  
        
        # 我门存放模型的路径
        logs_train_dir = '/home/shaoyi/ Cat_vs_Dog /saveNet/'   
        # 定义saver 
        saver = tf.train.Saver()  
          
        with tf.Session() as sess:  
              
            print("从指定的路径中加载模型")
            # 将模型加载到sess 中 
            ckpt = tf.train.get_checkpoint_state(logs_train_dir)  
            if ckpt and ckpt.model_checkpoint_path:  
                global_step = ckpt.model_checkpoint_path.split('/')[-1].split('-')[-1]  
                saver.restore(sess, ckpt.model_checkpoint_path)  
                print('模型加载成功, 训练的步数为 %s' % global_step)  
            else:  
                print('模型加载失败，，，文件没有找到')  
            # 将图片输入到模型计算
            prediction = sess.run(logit, feed_dict={x: image_array})
            # 获取输出结果中最大概率的索引
            max_index = np.argmax(prediction)  
            if max_index==0:  
                print('猫的概率 %.6f' %prediction[:, 0])  
            else:  
                print('狗的概率 %.6f' %prediction[:, 1]) 
# 测试
evaluate_one_image()

输出结果

从指定的路径中加载模型
模型加载成功, 训练的步数为 11999
狗的概率 0.974023
[Finished in 6.3s]

本代码的Github地址:

https://github.com/shaoyiwork/My-TensorFlow-tutorials/tree/master/

拓展阅读

人工智能的应用领域非常广泛，我们的生活的方方面面都会用到它们，从日常生活的新闻推荐、网络购物到各种家庭机器人，从无人机到智能人脸识别，从基础农业到智慧城市建设，从医疗行业到教育行业，从各种云服务的蓬勃发展到工业机械臂的大力使用，从自动化流水线检测到无人驾驶汽车领域等等。无处不在的人工智能正在改变着我们生活的方方面面。我们的日常生活或多或少的都用到了聪明的机器人的某个特性。后续的迁移学习、强化学习等机器学习的新方法层出不穷，支持高速GPU的SoC硬件厂商正在更新支持深度学习。整个世界都在快速发展人工智能的推广和应用。在后面的课程里，我们将陆续讲解Yanshee身上的人工智能特性，包括语音识别、NLP、TTS、机器视觉人脸识别、物体识别等多方面的使用例子。祝您学习愉快！