引论:我们为您整理了13篇神经网络文本分类范文,供您借鉴以丰富您的创作。它们是您写作时的宝贵资源,期望它们能够激发您的创作灵感,让您的文章更具深度。
篇1
The Researching of Web Text Classification Based on RBF Neural Network
XU Chun-yu
(Information Engineering Department, Liaoning Provincial College of Communications, Shenyang 110122, China)
Abstract:Web text classification is the automatic classification for Web information and it makes the use of text classification technology. The technology makes user find resource that they want quickly. The data from the Web is divided into sample data set and test data set after feature extraction in the process of text classification. Sample data set is inputted to the RBF network and the RBF network is trained. Test data set is inputted the RBF to validate after training the network. Experimental results show that RBF network achieved better classification results.
Key words: web text classification; RBF network; gauss Function; gradient descent algorithm
近年来,web已经成为拥有数十亿个异构的、半结构化的、动态的分布式信息空间,这些web信息源中有80%以上的信息是以web文本的形式出现的,如何从这些海量的web信息资源中寻找并获取有价值的信息和知识模式,已经成为信息处理的一个关键问题,web文本分类有助于人们完成这个目标[1]。
1 web文本分类
文本分类就是先根据已有的样例文本找出能描述并区分文本类别的分类器,然后利用该分类器对新的未分类的文本进行分类。根据机器学习的观点,文本自动分类问题可以归结为一个机器学习任务:假定全体文本空间为D,预定义的文本类别集合为C{c1,c2,…,c3}。待学习分类法称为目标分类器,记作y,一般来说,y是从文本集到类别集的一个映射,即y:DC,通常情况下该映射存在,但没有解析表达式。文本分类中机器学习的目的就是找到映射y的一个近似表达式或估计:y:DC,使对于D中所有文本d有h(d)=y(d),或使得h(d)≠y(d)的概率最小。其中h为分类器[3]。
随着web上海量文本信息的增加,文本分类技术的处理对象从普通的文档扩展到了web文本,即形成了web文本分类技术,显然,文本分类技术是web文本分类技术的基础。
2 RBF神经网络
径向基函数(Radial Basis Function,简称RBF)神经元网络是在借鉴生物局部调节和交叠接受区域知识的基础上提出的一种采用局部接受域来执行函数影射的人工神经元网络。在人的大脑皮层区域中,局部调节及交叠的感受是人脑反映的特点。RBF网络同BP网络类似,也是一种三层前馈式神经网络,输入层节点传递输入信号到隐含层,隐含层节点由像高斯函数那样的辐射状作用函数构成,而输出层节点通常是简单的线性函数。网络模型如图1所示。
从RBF的网络模型图可以看出,RBF网络由两部分组成,第一部分为非线性变换层,它的输出公式如公式(1)所示:
(1)
其中X={x1,x2,…xn}为输入向量,Ci={Ci(1),Ci(2),…Ci(N)}为第i个非线性变换单元的中心向量,Ct(q)表示第t个中心的第q个分量,σi为第i个非线性变换单元的宽度,||・||表示的是范数,通常情况下取2范数,g(・)表示的是非线性函数关系,一般取Gauss函数,Gauss函数的函数关系如公式(2)所示:
(2)
第二部分:线性合并层,它的作用是将变换层的输出线性加权合并,公式如(3)所示,其中l为隐含层神经元的个数,m为输出层神经元的个数。
(3)
RBF网络通过径向基函数能够更确切的描述人类神经元的活动特性。在中心附近的区域内网络的输出最大,网络的输出随着中心距离的增大,逐渐减小,而这个过程的快慢则是由σ参数来决定的,σ越大则函数输出曲线越平缓,对输入的变化就越不敏感,因此,可以通过调节σ来进一步模拟人类的神经元。RBF网络最常用的算法是梯度下降法,常用的训练就是选定某种性能指标,然后采用梯度下降的方法来校正网络参数,使该网络性能指标取得最优值,因此RBF网络的学习实质上就是一个最优化问题。具体的训练算法为:对于一般的RBF网络结构,取性能指标如公式(4)所示。
(4)
其中,i为网络的输出,具体关系式如下面的(5)式、(6)式和(7)式所示:
(5)
(6)
(7)
由上面的三个公式可以看出, J是关于Cj,wjt和σj的函数。网络的训练过程就是调整以上三组参数,使J趋于最小。求取J对各网络参数wts,ct(q),σt的偏导数,其中1≤t≤P(P是隐含层单元的个数),1≤s≤M(M是输出层单元的个数),1≤q≤N(N是输出层单元的个数),得到参数的校正方法。具体的校正方法为:权值wts的校正方向如公式(8)所示:
(8)
中心ct(q)的校正方向如公式(9)所示:
(9)
宽度σt的校正方向如公式(10)所示:
(10)
由此,可以得到RBF网络的梯度下降法校正公式如(11)所示:
(11)
其中,1≤t≤P,1≤s≤M,1≤q≤N,P为隐含层单元个数,N为输入层单元个数,M为输出层单元个数,λ为步长,通常λ=0.05左右。
隐含层到输出层之间的变换是线性变换,所以采用的是比较成熟的RLS算法。给定样本输入,则在当前的网络隐含层单元中心Cj及宽度σj(1≤j≤P)参数下,隐含层单元输出向量为HT=[h1,h2,…,hP],P为隐含层单元个数。
Y=HTW (12)
其中,Y=[y1,y2,…,yM],W=[w1,w2,…,wM],wi=[w1i,…,wpi],这样,根据RLS算法有权值的修正递推公式如公式(13)所示:
(13)
这样,按照上面的公式对网络参数不断地进行循环校正,最终网络性能将达到所要求的性能指标[5]。
3 实验
实验过程中,首先设计网络拓扑结构,确定RBF网络输出层神经元个数,根据类别的个数来确定输出层神经元的个数,实验数据分别属于10个类别,因此网络输出层神经元个数为10。输入层神经元的个数为文档在进行特征提取之后向量的维数,实验中,经过降维以后的每篇文档特征向量的维数为30,所以将网络的输入层神经元的个数选取为30。由于输入样本空间是确定的,可以预先给定一个隐含层节点数,只要与输入样本的实际类别数相差不是很大时,就可以使用梯度下降法来不断修正网络的中心值,使网络的特性逼近于实际系统,这种方法比较简单,也是一种比较常用的方法,因此,实验中隐含层神经元的个数取值为9。
RBF网络结构设计完成之后就可以对网络进行训练了,实验数据来自中国期刊网上下载的600篇文档,涵盖了政治、经济、教育、娱乐等10个类别,每个类别包含60篇文档,选取其中的500篇文档作为样本训练集,每个类别选择50篇,另外100篇文档作为网络的测试集。首先需要对实验数据进行文本特征提取、降维等过程。其次采用的是Matlab软件进行编程以实现网络的训练,网络训练完成以后,输入测试集中的数据,测试网络能否正确地将相关的文档区分到各个类别中。表1是RBF网络的分类结果。
4 结论
从上面的训练结果分析,RBF网络能够将大部分的文本正确地划分到所属类别,对于体育、娱乐、外语方面的文档能够取得较高的识别率,对于政治、经济、军事等方面的文档的识别率较低,主要原因是这些类别的文档中互相包含着相关的特征信息,这种类型的文档在进行文本分类的时候,需要在文本特征提取的时候进行相应的处理,以使得在输入神经网络的时候能够得到正确的分类结果。从实验结果可以看出,RBF网络完全可以应用到文本分类中来,并且能够取得较好的分类效果。
参考文献:
[1] 蒲筱哥.Web自动文本分类技术研究综述[J].情报科学,2009:233.
[2] Crimmins F, Smeaton A, Dkaki T, et al.Information discovery on the internet[J].IEEE Intell.Syst.,1999(14):55-62.
[3] 王晓庆. 基于RBF网络的文本自动分类的研究[D].南昌:江西师范大学,2003:9.
[4] Abhijit S, Rober B. 神经网络模式识别及其实现[M].徐勇,荆涛,译.北京:电子工业出版社,1999:30-32,57-114.
[5] 柯慧燕. Web文本分类研究及应用[D].武汉:武汉理工大学,2006:14-15,16-17.
篇2
申明:本网站内容仅用于学术交流,如有侵犯您的权益,请及时告知我们,本站将立即删除有关内容。 摘 要:本文提出了一种新的基于改进的AD址INE神经网络DTMF信号检测算
篇3
随着设备复杂化程度的提高,对故障诊断的快速性和准确性提出了更高的要求。将神经网络应用于故障诊断中已成为一个非常活跃的研究领域。利用神经网络强大的分类能力,进行故障模式的分类与学习,诊断出故障。
Huang在前人研究的基础上提出了一种称为极限学习机(Extreme Learning Machine,ELM)的学习方法,在保留计算精度的同时可以大幅度的缩减训练的时间。将ELM运用到设备故障诊断中,极大提高了诊断的快速性和准确性。
一、极限学习机研究现状
ELM自2004年提出就一直受到学者的极大兴趣。我们从ELM的理论和应用两方面进行阐述。
1.1 ELM的理论
对于传统ELM算法,网络结构、激活函数类型以及隐层神经元的选择对其泛化性能都有重要的影响。为了提高计算效率,使得ELM适用于更多应用领域,研究者提出了许多ELM扩展算法。
1.2 ELM的应用
研究人员已尝试利用ELM方法解决现实中各种模式分类问题。随着ELM自身理论的进一步发展和完善,在人脸识别、文本分类、医疗诊断等领域中应用广泛。
二、故障诊断技术研究现状
故障诊断技术是由于建立监控系统的需要而发展起来的。其发展至今经历了3个阶段。新的诊断技术带来了领域内算法的革新,设备精密程度的提高也对诊断实时性提出了更高的要求。如何保证故障的快速准确诊断成了诊断技术发展重要内容。
基于神经网络的故障诊断运用广泛,然而传统的神经网络学习方法存在许多问题。与传统的神经网络相比,极限学习机方法通过随机选取输入权值及隐层单元的偏置值,可以产生唯一的最优解,并具有参数易于选择以及泛化能力好等特点,在众多领域有着广泛应用。
三、基于极限学习机的故障诊断方法研究
3.1基于ELM的故障诊断流程
(1)数据预处理。按照选取的特征向量和故障类型对故障样本进行预处理,并将处理后的样本按比例分为训练样本集和测试样本集。
(2)ELM的学习算法主要有以下3个步骤:确定隐含层神经元个数;随机设定输入层与隐含层间的连接权值和隐含层神经元的偏置;选择隐含层神经元激活函数,进而计算隐含层输出矩阵计算输出层权值。
(3)用训练好的ELM模型对测试样本集进行分类,并输出分类结果。
3.2基于改进ELM的故障诊断
篇4
学号:XX
姓名:XX
2020年10月25号
基于深度神经网络的标题分类研究
XX
摘要:新闻是人们对时事、最新行业相关消息了解的重要途径,本文将新闻标题作为新闻分类的切入点,由于新闻标题属于文本中的短文本类别,所以本文主要通过利用深度学习相关方法对新闻标题短文本进行分类,针对前期分类出现过的问题,结合深度学习网络并引入的SVM 模型,解决新闻分类以及短文本分类过程中的常见困难问题。
关键词:深度学习;SVM;标题分类
1 引言
随着大数据时代的来临,我们日常的信息规模呈现出爆炸式增长的趋势。数据挖掘和人工智能逐渐成为时代的主题。缩小信息规模的方法有很多种,而分类就是其中一种极其有效的方式,所以它当前仍是吸引国内外学者研究的重点问题和热点问题。文本分类是在自然语言处理领域广泛研究的问题,在工业领域内,现在已经有着较为成熟的应用,无论是朴素贝叶斯还是决策树又或是最大熵以及神经网络都在工业领域有着相关应用。而文本分类技术在新闻分类领域的应用仍然有限,当前的文本分类系统大多基于统计学原理再结合相关机器学习方法训练相关数据集,从而得到所需的分类器并使用其达成对无标签数据进行分类的目的。在2017 年自然语言处理及中文计算会(NLPCC)也曾对新闻分类相关问题设立相关课题,这也间接表现出了其可能为文本分类领域的发展研究做出较大的贡献。
由于中文新闻文本分类起步较晚,再加以复杂精深的汉语语法的影响,使得之前关于中文新闻文本分类的研究相比于英文显得稍微落后,但现在伴随各种中文新闻语料库的出现和完善,中文新闻文本分类渐渐走上正轨。以往对新闻进行分类时通常是解析新闻的正文,由于部分新闻的篇幅较长,往往导致了新闻分类时的效率低下。而通过中文新闻标题对中文新闻文本进行分类,相比与传统的新闻分类来说在分类效率上可以得到很大的优化。除此之外,新闻标题往往是对新闻主题的高度概括,以有限的字数对全文内容进行凝炼,所以这属于一个短文本分类领域的相关问题。通过对中文新闻标题分类的研究,对短文本分类领域的部分问题有着借鉴意义。
2 算法原理与系统设计
2.1 算法原理
支持向量机(Support Vector Machine ,SVM)的主要思想是:建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力。对于一个多维的样本集,系统随机产生一个超平面并不断移动,对样本进行分类,直到训练样本中属于不同类别的样本点正好位于该超平面的两侧,满足该条件的超平面可能有很多个,SVM正式在保证分类精度的同时,寻找到这样一个超平面,使得超平面两侧的空白区域最大化,从而实现对线性可分样本的最优分类。支持向量机中的支持向量(Support Vector)是指训练样本集中的某些训练点,这些点最靠近分类决策面,是最难分类的数据点。SVM中最优分类标准就是这些点距离分类超平面的距离达到最大值;“机”(Machine)是机器学习领域对一些算法的统称,常把算法看做一个机器,或者学习函数。SVM是一种有监督的学习方法,主要针对小样本数据进行学习、分类和预测,类似的根据样本进行学习的方法还有决策树归纳算法等。
2.2 详细设计
简单的Python机器学习实现新闻标题自动分类,爬虫获取的新浪新闻的分类,先对新闻进行分词,手动分类一些分词后的标题,然后以它为输入做SVM模型训练,然后用训练好的SVM模型对其他标题做预测。
3 系统实现
#news_classify.py
import xlrd
import xlwt
import jieba
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.svm import SVC
def read_data(file, sheet_index=0):
"""读取文件内容"""
workbook = xlrd.open_workbook(file)
sheet = workbook.sheet_by_index(sheet_index)
data = []
for i in range(0, sheet.nrows):
data.append([x for x in sheet.row_values(i) if x.strip()])
return data
def get_classified_sample():
"""返回手动分类的新闻"""
data = read_data('test.xls')
return {
'经济': data[1] + data[14] + data[20],
'社会': data[2] + data[3] + data[4] + data[9] + data[17] + data[18],
'政法': data[5] + data[6] + data[7] + data[8] + data[11] + data[13] + data[15] + data[16] + data[19],
'军事': data[10],
'娱乐': data[12],
}
def classify():
"""进行分类"""
# 一共分成5类,并且类别的标识定为0,1,2,3,4
category_ids = range(0, 5)
category = {}
category[0] = '经济'
category[1] = '社会'
category[2] = '政法'
category[3] = '军事'
category[4] = '娱乐'
corpus = []# 语料库
classified_sample = get_classified_sample()
for k, v in classified_sample.items():
line = ' '.join(classified_sample[k])
corpus.append(line)
data = read_data('test.xls')
# 把未分类的文章追加到语料库末尾行
# 21开始是因为我手动分类了前20条
for lst in data[21:]:
line = ' '.join(lst)
corpus.append(line)
# 计算tf-idf
vectorizer = CountVectorizer()
csr_mat = vectorizer.fit_transform(corpus)
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(csr_mat)
y = np.array(category_ids)
# 用前5行已标分类的数据做模型训练
model = SVC()
model.fit(tfidf[0:5], y)
# 对5行以后未标注分类的数据做分类预测
predicted = model.predict(tfidf[5:])
# 结果
# print(len(predicted))
for i in range(len(predicted) - 1):
print(corpus[i + 5], '============》', category[predicted[i]])
if __name__ == '__main__':
classify()
4 实验或测试结果
程序运行后出现如下界面(一部分):
中巴经济走廊“围堵”印度?新华社: 印度想太多了============》娱乐
央行报告:上海已经基本确立国内金融中心地位============》社会
国网北京电力: 北京地区煤改电今年累计破100 万户============》娱乐
湖南沅江原市长肖胜利犯三罪判5 年: 为升迁送13 万============》娱乐
颜宁为何从清华跳槽去普林斯顿?她终于说出原因============》娱乐
国家文物局公布346 万件全国馆藏文物信息供监督============》娱乐
里皮首次对续约中国男足表态:我说了我愿意( 图) ============》经济
5 结论
本项目实现的是以标题分类为核心的Python程序的一个简单尝试,本项目采用爬虫获取的新浪新闻的分类,利用机器学习,深度学习的方法完成了标题分类任务,但模型还有待改进。
参考文献
篇5
Research on vegetables Disease Diagnosis Model Based on Fuzzy Neural Network
WEI Qing-feng,LUO Chang-shou,CAO Cheng-zhong,GUO Qiang
(Institute of Agriculture Science and Technology Information, Beijing Academy of Agriculture and Forestry Sciences, Beijing, 100097)
Abstract: To explore the effective method for the diagnosis of vegetables diseases, through reasonable division of symptoms, using input vector construction method which contained characteristics of symptoms and membership grade, a vegetables disease diagnosis of fuzzy neural network model was constructed. The experimental results showed that the input vector construction method had effectively expressed the disease diagnosis rule, the model had strong fault tolerant ability, and the average diagnostic accuracy was 85.5%.
Key words: fuzzy neural network; vegetable; disease; diagnosis
收稿日期:2013-01-30
基金项目:国家现代农业科技城综合信息“三农”服务平台建设项目(PT01);北京市自然科学基金项目(9093019);北京农业科学院信息所
创新基金项目(SJJ201203)
作者简介:魏清凤(1983-),女,湖北武汉人,助理研究员,硕士,主要从事农业信息技术的研究工作,(电话)13439026360(电子信箱)
;通讯作者,罗长寿,副研究员,(电话)010-51503387(电子信箱)。
病害是影响蔬菜优质生产的重要制约因素之一。我国农村基层还相对缺乏有经验的病害诊断专家,对蔬菜病害不能正确判断,不但延误了防治最佳时机,还严重降低了蔬菜品质。
当前农业病害诊断技术方法主要有图像分析诊断[1-4]、专家系统诊断[5-7]以及人工神经网络诊断[8]等。基于图像分析的病害诊断方法其图像的获取受环境光照的影响较大,且需要专业人员在室内进行数据分析和识别,时效性差,无法实时满足具体生产实践的要求。基于专家系统的诊断方法,采用 IF-THEN产生式推理,存在诊断知识获取有瓶颈、推理规则更新难、容错能力差、串行搜索运行效率低等不足。近年基于人工神经网络的方法无需建立推理规则,具有自学习及并行处理能力,较引人注目,但存在对病害症状的典型性、非典型性模糊特点无法区分度量,样本诊断规律学习不充分等问题。模糊神经网络可以将不确定的症状信息通过模糊隶属集来表示,能解决诊断系统中的不确定性知识表示、并行推理等问题,对具有模糊性复杂性的蔬菜病害诊断非常适用。此文利用模糊系统和神经网络相结合的方法,在对病害特征模糊量化方法研究的基础上,建立能够实际应用的蔬菜病害模糊神经网络诊断模型,为蔬菜病虫害防治提供依据。
1 蔬菜病害诊断知识整理
一般研究中,将植株的发病部位划分为根、茎、叶、花、果5个部分[9]。由于部分蔬菜病害(如猝倒病)在苗期即表现出典型症状,因此,为提高诊断的全面性和准确性,将蔬菜植株发病表现最终划分为根、茎蔓、叶、花、果、苗6个部分。表示如下:
S={Si | i=1,2,3,4,5,6}
式中,Si表示根、茎蔓、叶、花、果、苗6个部分中的1个。
以“北京农业数字资源中心”中蔬菜病害数据库的知识为基础,结合文献资料、植保专家咨询及案例分析,对病害特征知识根据根、茎蔓、叶、花、果、苗6个部分进行分别提取,建立二维知识表。
2 病害症状重要性划分及隶属函数
不同症状对病害诊断的贡献程度不同,一些特征明显的症状表现往往是确定某种病害的重要依据。通常用模糊的自然语言来描述症状对于病害识别的重要程度,这里将其划分为典型症状、主要症状、一般症状3个层次(表1)。
将症状重要性隶属函数定义为模糊语言值,根据专家经验法,确定不同层次的隶属度如下:
L(Si)=1.0 Si∈a0.7 Si∈b0.4 Si∈c i={1,2,3,4,5,6}
L为Si的隶属度,a、b、c为症状类型。
3 基于术语统一描述的病害症状向量构建
一般方法中,直接利用诊断资料的原始文本,以症状表现部位为单元赋权值(或隶属度)作为样本分量构建输入向量[10],不仅存在向量携带信息量少、向量模长短不一、诊断规律体现不明显等问题,还容易产生相同的样本向量对应不同病害种类的错误情况,不能较好地对病害原因进行区分,这也势必影响到诊断的准确性。对此,本方法将原始资料的自然语言样本映射到共同语义空间中,统一利用病状病症的相关术语对症状资料的原始文本进行描述,并根据术语的定义值以及症状重要性隶属度来确定语义样本的样本值,从而构建输入向量,能有效丰富向量信息承载量,充分表达诊断规律,具体如下。
3.1 自然语言症状的术语映射
本环节即是对原始自然语言病害症状资料在共同语义空间中利用相关术语进行统一描述。根据植物学知识,感病植株的外观病态表现可分为病状和病征两大类。共同语义空间的病害症状术语如表2所示。
根据病害症状表,症状的自然语言描述转化为术语描述。如辣椒枯萎病茎蔓部自然语言症状={水浸状腐烂,后全株枯萎,病部白色霉状物},经语义空间映射后,S2={湿腐,枯死,霉状物},其样本定义值D(S2)为{0,0,2,2,0,1}。
3.2 输入向量的构建
综合样本定义值和症状重要性隶属度,形成具有症状特征和症状重要性信息的向量。为了降低输入向量维度,对矩阵中同列均为0值的列进行简约,形成最终输入向量矩阵。输入向量表示为:
Xi={D(S1)×L(S1),D(S2)×L(S2),……,D(Si)×L(Si)}
其中,D(Si)为Si症状的样本定义值,L(Si)为Si症状的重要性隶属度。
4 蔬菜病害诊断模型建立
蔬菜病害诊断神经网络模型采用模糊BP神经网络构建(图1)。模糊系统和神经网络按串联方式连接,用模糊系统对原始知识进行前处理,用神经网络进行病害诊断。
第一层为输入层,其每一个节点代表一个输入变量,它将样本定义值传递到模糊层。
第二层为模糊层,基于症状样本定义值和症状隶属度构建输入向量。
第三层为隐含层,实现输入变量模糊值到输出变量模糊值映射。隐含层节点数确定方法如下:
l=■+a 0
式中,l为隐含层神经元个数,n为输入层神经元个数,m为输出层神经元个数,a为取值0~10之间的常数。
第四层为输出层,输出向量采用“n中取1”的二进制编码法。其中n为编码长度,即病害总数。每组编码中仅有1位为1,其余n-1位为0,表示某一种病害。诊断过程中,最大向元值对应着可疑病害。该最大值若接近0, 则表示发生相对应病害的可能性很小;若接近1,则表明发生相对应病害的可能性极大。
5 诊断测试分析
以番茄白绢病、番茄猝倒病、番茄根霉果腐病、番茄青枯病等19种病害为例,经上文方法构建20维输入向量(部分输入如表3),19维输出向量(部分输出向量如表4)。设隐层单元15个,目标误差0.000 1,循环1 000次,采用Levenberg-Marquardt 算法进行训练,并开发系统界面,对训练好的模型从诊断容错性和诊断准确性两个角度进行分析。
5.1 模型诊断容错性测试
在实际应用过程中,用户提供的病害症状无法与样本完全一致,病害典型症状被选的可能性最大,但部分主要症状和一般症状存在A-误选(提供症状与样本症状不一致)、B-多选(提供症状多于样本症状)、C-少选(提供症状少于样本症状)、A+B-多选及误选、A+C-少选及误选的情况,据此选取用户5组具有代表性测试数据(表5),以番茄溃疡病为例来检验模型的容错性,输出结果如表6。
样本输出向量中第17位为向元最大值,则表明该输出结果为番茄溃疡病。在5组具有代表性的用户测试数据中,输出向量的向元最大值始终在第17位,说明诊断模型具有较强的容错能力。同时,当用户“误选”、“多选”,以及“多选+误选”时,输出向量第17位向元值分别为0.999 9、0.987 6、0.921 6,接近样本模拟值1;当用户“少选”以及“少选+误选”时,输出向量第17位向元值分别为0.778 6、0.594 6,较之其他组测试数据,较远离样本模拟值1,说明用户提供的病害症状信息越多,进行正确诊断的可能性越大。
5.2 模型诊断准确性测试
将本研究与一般方法中直接利用症状权值作为输入向量的一般神经网络诊断模型进行准确性比较。测试数据包括两类,即实验室根据田间数据资料生成的数据,以及涉农用户根据实际生产情况进行症状选择操作生成的数据。经植保专家验证,获得测试结果平均值见表7。
统计结果显示,室内室外测试中,基于模糊神经网络的诊断方法较一般神经网络在正确率方面均有所提高,说明本研究的思路方案是有效的。其中,实验室所利用的田间数据资料测试结果好于农户实际应用。其原因在于,实验室所使用的田间数据资料较接近文献资料中的诊断知识,且基于模糊神经网络的蔬菜病害模型具有较好的容错性,因此诊断正确率较高。外部基层农户则完全按照自己在生产中见到的症状表现进行选择操作而形成测试数据,更为真实地反映了模型的实际应用情况。由于实际生产中存在多个病害夹杂同时表现的复杂情况,这一定程度上影响了诊断正确率,因此也说明在该方面努力能进一步提高模型的实用性。
6 小结
利用基于术语统一描述的病害症状量化方法,能构建既能描述症状特征又能反映症状重要性的输入向量,更能有效地体现病害诊断规律。经过误选、多选、少选、多选+误选、少选+误选的5组测试中,诊断结果仍然能指向正确的病害,模型容错推理能力较强。将模糊数学方法引入神经网络中,结合基于术语统一描述的病害症状量化方法,建立基于模糊神经网络的蔬菜病害诊断模型,较之一般基于神经网络的病害模型,诊断准确性得到了有效提高。
由于农业生产中病害作用的复杂性,今后将在多个病害同时作用的诊断方面进一步努力探索,以提高模型的生产实用性。同时,随着移动网络技术的迅猛发展以及移动设备终端的日益普及,将进行蔬菜病害诊断系统的研究,以期为蔬菜病虫害防治咨询提供更加便捷、灵活、有效的服务。
参考文献:
[1] LAI J C, MING B, LI S K, et al. An image-based diagnostic expert system for corn diseases[J]. Agricultural Sciences in China,2010(8):1221-1229.
[2] 李 旺,唐少先.基于图像处理的农作物病害识别研究现状[J].湖南农机(学术版),2012,39(1):176-178.
[3] 刘连忠,张 武,朱 诚. 基于改进颜色特征的小麦病害图像识别技术研究[J]. 安徽农业科学,2010,40(26):12877-12879.
[4] 邹修国. 基于计算机视觉的农作物病虫害识别研究现状[J]. 计算机系统应用,2011,20(6):238-242.
[5] MANSINGH G, REICHGELT H, BRYSON K O. CPEST: An expert system for the management of pests and diseases in the Jamaican coffee industry[J]. Expert Systems with Applications,2007,32(1):184-192.
[6] 林 潇,李绍稳,张友华,等.基于本体的水稻病害诊断专家系统研究[J].数字技术与应用,2010(11):109-111.
[7] GHOSH I, SAMANTA R K. Teapest:An expert system for insect pest management in tea[J].Applied Engineering in Agriculture,2003,19(5):619-625.
篇6
MSTN基因的研究进展及其应用
制备条件对Ru/ZrO_2·xH_2O催化酯加氢制备醇活性的影响
微波萃取法制备桔梗总皂苷
基于DSP的红外成像电力在线检测系统的研究
LBG与SOFM应用于矢量量化的比较研究
超宽带高功率脉冲辐射源气体开关的研究
高压直流牵引供电网的初步研究
智能医用超声波雾化器的设计
基于Wincc的炭黑装置监控系统
定点CORDIC算法的误差控制
基于各向异性扩散的多细节图像消噪方案
基于S7-300和ACS800的桥式起重机控制系统改造
LiH薄膜制备技术进展
拉普拉斯方程有限差分法的MATLAB实现
关于不定方程组y~2-10x~2=9,z~2-17x~2=16
关于不定方程x~2+49~n=y~3的唯一整数解
基于非单调线搜索的无记忆拟牛顿法的全局收敛性
不动点、压缩映射原理的进一步研究
弱横向扰动下的热尘埃等离子体中的尘埃声孤波
时间域上抛物型方程正反演解的稳定性分析
Frattini子群的一些推广
不动点定理在微分方程中的应用
超空间F_1(X)的可缩性
热传导方程反问题的数值解法
一类时滞广义系统的鲁棒控制
距离矢量路由算法的改进方案
基于JSP的电子邮件系统设计与实现
基于web的自适应学习系统的研究与设计
一种改进的基于分布式Caching的自适应搜索机制
Linux下嵌入式动态Web技术设计实现
基于窗函数的FIR滤波器的设计
力学试题库管理系统的开发
单片机C51与汇编语言混合调用的实现
基于P2P覆盖树网络的流媒体传输技术
数字校园信息显示系统建设方案研究温度对长链α-烯烃溶液聚合法合成原油减阻剂的影响
β-环糊精与常用的两种光谱探针包络作用对比研究
微波技术在竹浆漂白中的应用
基于蚁群寻路的图像分割算法
公交车自动报站系统的设计
基于遗传BP神经网络的非平稳时间序列预
基于BP算法的神经网络内模控制器
基于51单片机的可变调音乐演奏系统
基于神经网络对光纤智能结构的损伤评估
基于改进互信息的特征提取的文本分类系统
CTIA型读出电路的噪声抑制
离心流化床的基本原理及发展趋势
电驱微差6R关节型开链机械手工作空间运动学逆解
焦磷酸盐镀铜工艺研究
篇7
1.1 流程分析
本文需求并不要求更智能化的识别方式,而是通过语义分析法,通过对特殊关键词和关键词组合的方式进行识别得到文本分类结果。本文的研究内容主要用于识别和分析500字符之内的自然文本。这部分自然文本主要应用在对网络页面文本进行分析,同时用于对捕捉到的超文本标识代码进行内容文本和代码段的识别,业务流程图如图1所示。
1.2 模块分析
传统语义分析算法来自人工输入的特定文本之间的判断,一般语义分析算法只能识别80~120个关键词[5]。但此种规模的识别字典完全不能适应本文要求对自然文本的识别,所以本文采用三层识别方法见图2。
P1.1:根据固定关键词,识别超文本标识语言中的标识段数据,并将其剔除。
P1.2:根据自学习关键词,识别自然文本中的关键词,根据词频和关联度进行价值估计。
P1.3:根据自学习关键词,识别自然文本的含义,评估不同文本段之间的相似度,对文本段进行归纳整理。
而本软件的自学习部分(P2)不从传统的人工智能算法中得到关键词字典,而是采用语义分析中常用的联系算法进行关键词管理[6]。自学习部分放在云端服务器上,自学习结果采用软件更新的方式发送到客户端。自学习产生的流量来自服务器与互联网之间的联系,并不占用GPRS通道。
软件的移动端部分(P3)通过相对固定的关键词字典集合,根据实际分析得到的数据匹配结果进行远端比较,但大部分数据需要提交到P1模块进行局端比较。在移动端形成比较字符串后,可以较大程度地实现GPRS链路的数据最小化。
1.3 数据流分析
P1模块输入数据D1.1为P1.1的关键词字典数据,该数据以数据库表的形式保存在数据库中,形成表dataPinSOL。该数据主要用于辅助识别字段中的无信息量字符串,如超文本标识语言中的标识字符串等。
P1模块输入数据D1.2为P1.2的关键词字典数据,该字典数据来自自然文本中经常出现的字符串,以及用户易搜索的字符串。这部分字符串来自对海量信息的比较,海量信息来自互联网遍历捕捉文本和搜索引擎的采集文本。
P1模块输入数据D1.3为P1.3的关键词字典数据,该字典数据来自对D1.2数据进行进一步挖掘得到的与D1.2数据经常合并出现的字典数据。这部分字典数据同样来自语义分析的分析法。
因为本文算法不采用无限递归法[7],而是采用了三层计算的架构,而将语义分析段代码用于多层不限制递归。所以P1模块的数据流相对简单。P1模块的输出数据流为DL1,定义为比较结果字符串。该字符串作为搜索引擎对语义识别的结果字符串,不具备人脑识别的功能,但可以在计算机论文中给自然语言提供镜像,可以让较为模糊的自然语言在计算机中得到识别和模糊对比。
P2有两个输入量,P2.1来自合作搜索引擎的搜索字符串数据,该数据运行在光纤数据干线上,数据量较大,不会在GPRS链路中出现。此部分合作搜索引擎的数据采集内容主要包括搜索字符串,搜索时间,发生IP,发生IP地域,捆绑账号等。P2.2来自网络随机遍历采集的各种超文本,这些超文本数据采用单字段采集和多关键词分析的方式进行挖掘,所以数据结构较为简单。
2 算法设计
因为篇幅限制,本文仅讨论和展示部分核心代码和算法的设计,较复杂的算法过程不再给出伪码。P1.1是超文本对比算法,超文本对比算法使用了最经典的语义分析算法。而P1.2和P1.3采用的算法是在经典的语义分析算法的基础上做的扩增[8],这部分扩增可以让语义分析算法更加适用于自然语言下的文本分类。
本文算法的最主要成果是使用最小的CPU和RAM资源,对自然语言文本进行比较,从而获得更高效的适应当前互联网云服务市场的软件[9]。
2.1 超文本对比函数算法(P1.1局部)
读字典数据表,做对比循环函数。
对比循环函数伪码如下:
OPEN TABLE DICT
DO WHILE DICT NOT EOF
GET DIG_DICT RECORDSET FORM DICT
OPEN TEXTFILE
GET L_DIG_DICT LENTH DIG_DICT
FOR I 0 TO LENTH TEXTFILE
GET T_TEXTFILE MIDDLE TEXTFILE I L_DIG_DICT
GET SUMSHOW COMPARE DIG_DICT T_TEXTFILE
NEXT I
LOOP
RETURN SUMSHOW
2.2 数据逻辑网络的实现(P1.2局部)
数据逻辑网络主要是在数据库中使用数据结构实现数据的逻辑网络,每个数据都有若干个上级数据和若干个下级数据[10]。每个单个数据一般不超过15个汉字(32字符)。上级数据和下级数据使用专用字段存储,每个字段使用二维数组的方式进行管理。二维数组包括目标字符串(32字符),响应频率,最后响应时间3项。
为了充分调动数据逻辑网络,采用了全新的遍历算法,对每个记录下的两个二维数组字段进行分别遍历,以对文章内容进行逐一比较和计算。在比较中同时记录其他词语的词频,进一步对两个二维数组字段进行维护和更新。因为篇幅限制,只在本文模型下进行设计分析。
2.3 文本相似度评估算法(P1.3局部)
本文采用的文本相似度评估算法分为两段:
第一段对输入文本进行比较评估,对字典中每个关键词进行词频分析,同时对关键词出现的位置进行[t]检验和[χ2]检验,将结果使用Minmax处理为(0,1)值域。将每个处理结果进行汇总制表。与此同时,将输入文本与每个关键词的关联词进行词频分析,同时对关键词的关联词位置进行[t]检验和[χ2]检验,将结果同样使用Minmax处理为(0,1)值域。Minmax结果设计为小数点后12位小数。将每个处理结果进行汇总制表。
第二段将第一段中形成的两个数据表与系统中存储的数据表进行[t]检验和[χ2]检验,获取检验结果的[P]值。当[P<]0.05时,认为两篇文章具有相似度,且[P]值越小,文章的相似度越高。本文算法经过检验,完全相同的两篇自然语言文章输入系统后,两篇文章的[P]值接近于0,表示本文算法拥有较高的识别性。
3 结 语
本文就基于语义分析在计算机技术文本分类中的应用进行了软件工程分析和设计,在面向对象的设计模型中,本文实现了不使用任何神经网络递归算法就可以得到高效率的软件系统。这个算法系统可以在移动互联网设备中得到较广泛的应用。
篇8
篇9
中图分类号:TP319
文献标识码:A 文章编号文章编号:16727800(2016)011013403
0 引言
中国是世界上最大的烟草生产国和消费国[1]。烟草销售是烟草行业管理中最为关键的部分,准确的烟草销售预测能为烟草生产、运输、配送提供指导,而要进行准确的烟草销售预测必须找到合适的预测方法。因此,如何设计高精度的烟草销售预测方法是烟草行业管理的重要课题。
传统烟草销售量预测方法的研究主要集中在对烟草零售经营者订单的管理分析中,而且采用销售人员意见汇总法、德尔菲法(经理及员工的意见)等为主的人工预测方法[2]。这种人工预测方法业务流程较多,浪费大量的人力、物力,并且还可能引起烟草资源分配的不公平,难以满足市场需求。从机器学习的角度上看,烟草销售量的预测属于回归问题[3],而回归包括线性回归和非线性回归。文献[4]在对烟草销售量数据进行分析的基础上,提出了一种线性预测模型,但由于烟草销售量受季节、人口、市场、节假日等一系列因素的共同影响,并不适合采用线性回归方法进行预测。在非线性回归方法中,较为常用的有神经网络和支持向量机(SVM)。文献[5]基于BP神经网络对烟草销售量进行建模并预测,而神经网络是基于经验风险最小化,不仅泛化能力较差,而且存在局部极小点问题[6],因此神经网络虽然对原始数据的拟合能力较强,但对未来数据的推广能力较差,而对未来数据的推广能力往往更能反映学习机器的实用价值。支持向量机基于结构风险最小化,泛化能力强且预测精度高。因此,本文采用支持向量机方法对烟草销售量进行建模预测。
1 支持向量回归机
2 预测方法
2.1 数据预处理
本文收集到了云烟品牌一个品类2006年1月~2011年10月共6年的销售数据,销售数据信息中包括销售量、销售日期(年月日)、仓库编号、发票信息、审核人信息等,其中对销售量预测影响最大的是销售日期及对应的销售量。由于中国的香烟销售对阴历呈现出更强的规律性,因此将销售统计数据转换为以阴历月为标准。
2.2 数据归一化处理
由表1可以看出,各列数据属性不同,数值范围相差较大。为避免数值范围较大的属性控制数值范围较小的属性,使数据具有统一性和可比性,将属性值都归一化[10]为[0,1]之间。归一化所用公式为:
2.3 模型定阶
由于烟草销售量预测属于经济预测,因此它不仅与当前日期有关,更与之前的销售信息有关。为确定当前销售量与前多少个月的销售信息关系最大,需要通过拓阶[11]的方法来确定。
设烟草销售量数据的一个样本为{yi,yeari,monthi},yi为第i个样本中的烟草销售量,yeari为当前年份,monthi为当前月份。其中,yeari和monthi为样本的自变量,yi为样本的因变量。通过拓阶能够更为准确地得到自变量和因变量的函数依赖关系。当阶数为n时,表示将前n个样本中的信息添加到当前样本中的自变量中。即用前n个月的销售信息和当前年月来预测当前销售量。此时,自变量总数为(3×n+2),其中n为阶数。通过SVM由低阶到高阶逐步进行拓阶,模型每拓一阶,自变量相应地增加 3个。对于每一次的拓阶,以MSE最小为标准决定是否接受拓阶。设SVM(n)为拓阶n次后的模型,SVM(n+1)为拓阶n+1次后的模型,比较两者的MSE大小,如果SVM(n+1)的MSE小于SVM(n)的MSE,表示接受本次拓阶,并进行下一步拓阶;如果SVM(n+1)的MSE大于SVM(n)的MSE,表示不接受本次拓阶,并停止拓阶,最终得到最优阶数n。通过对烟草数据的拓阶,得到拓阶结果如图2所示。
2.4 回归模型的参数选择
当训练模型确定后,通过支持向量回归机进行预测。由于径向基核函数的准确率较高,并且大多数SVM默认的核函数也是径向基核函数[12],本文亦采用径向基核函数。
3 实验结果与分析
以云烟数据集为例,选择2006年1月-2010年12月的销售量数据为训练样本,以2011年1-10月的销售量数据为测试样本。在本文算法实现过程中,实验环境配置如表2所示。
4 结语
通过预测烟草销售量可以提前了解烟草的销售动态,为烟草物流、仓储等部门提供决策依据。本文基于支持向量机建立烟草销售预测的多维时间序列模型。实验证明,根据本文方法建立的模型所预测的结果与实际结果基本一致,能够比较准确地反映烟草销售量的变化趋势。对比实验也证明,与其它几种方法相比,本文方法预测误差最小。综上,本文所述方法是合理有效的,可以应用到实际烟草销售量预测中。
参考文献:
[1] 蒋德B.我国烟草业国际化战略研究[J].北方经济,2012(14):9495.
[2] 利普・科特勒,洪瑞云,梁绍明,等.市场营销管理 [M].亚洲版・2版.北京:中国人民大学出版社,2001.
[3] 郑逢德,张鸿宾.拉格朗日支持向量回归的有限牛顿算法[J].计算机应用,2012,32(9):25042507.
[4] 张素平.基于乘法模型的内蒙古乌兰察布市卷烟总销量预测研究[J].内蒙古科技与经济,2012(21):3335.
[5] 仲东亭,张h.BP神经网络对烟草销售量预测方法的改进研究[J].工业技术经济,2007,26(9):115118.
[6] 刘苏苏,孙立民.支持向量机与RBF神经网络回归性能比较研究[J].计算机工程与设计,2011,32(12):42024205.
[7] 邓乃扬,田英杰.数据挖掘的新方法――支持向量机[M].北京:科学出版社,2004
[8] 肖建,于龙,白裔峰.支持向量回归中核函数和超参数选择方法综述[J].西南交通大学学报,2008,43(3):297303.
[9] 单黎黎,张宏军,张睿,等.基于主导因子法的装备维修保障人员调度值预测[J].计算机应用,2012,32(8):23642368.
[10] 彭丽芳,孟志青,姜华,等.基于时间序列的支持向量机在股票预测中的应用[J].计算技术与自动化,2006,25(3):8891.
[11] 向昌盛,周子英.基于支持向量机的害虫多维时间序列预测[J].计算机应用研究,2010,27(10):36943697.
[12] 谭征,孙红霞,王立宏,等.中文评教文本分类模型的研究[J].烟台大学学报:自然科学与工程版,2012,25(2):122126.
[13] CHERKASSKY V,MULIER F.Learning from data: concepts,theory and methods[M].NY:JohnViley&Sons,1997.
[14] YONG M,XIAOBO Z,DAOYING P,et al.Parameters selection in gene selection using Gaussian kernel support vector machines by genetic algorithm[J].Journal of zhejiang university science B,2005,6(10):961973.
篇10
自动找到视频中异常的行为(比如,醉酒的行人或者逆行的车辆),并及时发出带有具体地点方位信息的警报。
自动判断人群的密度和人流的方向,提前发现过密人群带来的潜在危险,帮助工作人员引导和管理人流。
医疗
对医学影像进行自动分析的技术。这些技术可以自动找到医学影像中的重点部位,并进行对比比分析。
通过多张医疗影像重建出人体内器官的三维模型,帮助医生设计手术,确保手术
为我们每个人提供康建议和疾病风险预警,从而让我们生活得更加健康。
智能客服
智能客服可以像人一样和客户交流沟通。它可以听懂客户的问题,对问题的意义进行分析(比如客户是询问价格呢还是咨询产品的功能呢),进行准确得体并且个性化的回应。
自动驾驶
现在的自动驾驶汽车通过多种传感器,包括视频摄像头、激光雷达、卫星定位系统(北斗卫星导航系统BDS、全球定位系统GPS等)等,来对行驶环境进行实时感知。智能驾驶系统可以对多种感知信号进行综合分析,通过结合地图和指示标志(比如交通灯和路牌),实时规划驾驶路线,并发出指令,控制车子的运行。
工业制造
帮助工厂自动检测出形态各异的缺陷
3. 概念什么是人工智能?
人工智能是通过机器来模拟人类认知能力的技术。
人工智能的三种训练方式分别是监督学习、非监督学习、强化学习。下文会一一介绍。
二、这是不是鸾尾花(分类器)1. 特征提取人类感官特征
花瓣数量、颜色
人工设计特征
先确定哪些特征,再通过测量转化为具体数值
深度学习特征
这里先不提及,文章后面会说
2. 感知器
老师给了一道题:
要区分两种鸾尾花,得画出一条直线区分两类花,你可以画出无数条直线,但是哪条才是最好的呢?
怎么办呢?我可是学渣啊,靠蒙!
随便找三个数a=0.5、b=1.0、c=-2 带入 y = ax[1] + bx[2] + c,
每朵花的两个特征也代入x[1]、x[2],比如带入(4, 1) 得出 y[预测] = 1,此时 y[实际] = 1 (样本设定变色鸾尾花为 1,山鸾尾为 -1 ),所以y[实际] – y[预测] = 0.
重复以上两步,得出所有的『实际值和预测值的差距的综合,记为 Loss1
可怎么知道是不是最优的直线呢?继续猜啊!继续懵!像猜世界杯一样猜就好了。
通过沿 y = ax[1] + bx[2] + c 梯度(梯度就是求导数,高中有学的!)下降的方向继续猜数字,具体过程大概是这样子的:
上述所属的实际值和预测值的差距 实际上是一种损失函数,还有其他的损失函数,比如两点间直线距离公式,余弦相似度公式等等可以计算预测结果和实际结果之间的差距。
划重点:损失函数就是现实和理想的差距(很残酷)
3. 支持向量机
*判断依据的区别也导致了损失函数的不同(但依旧是猜)
直观的说,缝隙(上图的分类间隔)越大越好
4. 多分类
如果有多种花怎么办?
一趟植物课上,老师请来了牡丹鉴别专家、荷花鉴别专家、梅花鉴别专家。老师拿出了一盘花给各个专家鉴定,牡丹角色这是牡丹的概率是0.013、荷花专家角色这是荷花的概率是0.265、梅花专家角色这是梅花的概率是0.722。
老师综合了各位专家的意见后,告诉同学们,这是一盘梅花。
小明:这老师是不是傻,一朵花是啥都不知道,还要请三个专家
老师:你给我滚出去
实际计算过程就是通过用 2.2 和 2.3 等方法训练的二分类器,分别输出对应的分类值(比如三种花的分类器分别输出-1,2,3),那怎么把这些分类值转化成概率呢?这就要用到归一化指数化函数 Softmax(如果是二分类就用 Sigmoid函数),这里就不拿公式来说,可以直观的看看书中这个表格就懂了:
5. 非监督学习第 2.2 能从预测值和实际值的差别判断”是否猜对了”,是因为生物老师告诉了学渣,哪些样本是山鸾尾花,哪些变色鸾尾花。但如果老师连样本实际的类别也不告诉学渣(非监督式学习),学渣不知道样本分别是什么花。
那该怎么办呢?
机器学习的入门课程总是在讲鸾尾花,也是够烦的。
这里我们换个场景:
假如你是某直播老板,要找一堆小主播,这时候你有一堆应聘者,然而你只有她们的胸围和臀围数据。一堆8份简历摆在你面前,你是不知道哪些更加能干( capable啊 ! ) 的,更能吸引粉丝。你也没空全部面试,那应该怎么挑选呢?
这时候你把她们的胸围和臀围都标准在一张二维坐标图上:
这是你随手一划,把她们分成两组,可以说“聚成两类了”。
用某种计算方式(比如平均值)找到这个聚类的中心。点离聚类中心越近,代表越相似。
求出每个聚类中的点到蓝色聚类中心点和黄色聚类中心的距离
如果一个点离黄色聚类中心更近却被你随手划到了蓝色分组(上图用红色边框标出的小方块),那么就把它划入黄色分组。
这时因为分组范围和分组内包含哪些小姐姐都发生了变化。这时候你需要以 步骤3 的方法重新计算聚类的中心
重复步骤 4 (算点中心距离)-> 重复步骤 5 (调整黄色小姐姐们和蓝色小姐姐们)-> 重复步骤 3 (算中心),一直循环这个过程直到蓝色和黄色聚类下所包含的小姐姐不再发生变化。那么就停止这一循环。
至此,小姐姐们已经被分为两大类。你可以得出两类小姐姐:
计算机在没有监督的情况下,成功把小姐姐们分成两类,接下来就可以在把两种主播各投放2个到平台看看谁更能干。效果更好的,以后就以那个聚类的样本特征扩充更多能干的主播。
小明:有什么了不起的,我一眼就能看出黄色小姐姐更能干
老师:你给我滚出去
上面聚类小姐姐的算法就叫做 K 邻近算法,K 为要聚类的数量(这需要人工指定),上述例子 K=2.那么如果分成三类就是 K=3,训练过程可以看下图,有个直观的了解:
三、这是什么物品(图像识别)1. 特征提取人类感官特征
花瓣颜色、花瓣长度、有没有翅膀(区分猫和小鸟)、有没有嘴巴和眼睛(飞机和小鸟)
感官的特征通过量化得到颜色(RGB值)、边缘(圆角、直角、三角)、纹理(波浪、直线、网格)数值特征
人工设计特征
深度学习特征
通过卷积提取图像特征
划重点:卷积的作用就是提取图像有用信息,好比微信把你发出的图片压缩了,大小变小了,但是你依旧能分辨出图像的主要内容。
1维卷积 1*5+2*4+3*3=22、1*4+2*3+3*2=16、1*3+2*2+3*1=10
2维卷积 1*2+3*0+2*4+4*2=28…
通过卷积就可以得到图像的特征信息,比如边缘
垂直边缘检测
水平边缘检测
方向梯度直方图
2. 深度学习和传统模式分类的区别既然有传统模式分类,为什么还要神经网络呢?
区别就在于传统的模式分类需要人为设置特征,比如花瓣长度、颜色等等。而深度学习省略掉人工设计特征的步骤,交由卷积操作去自动提取,分类器的训练也同时融入到神经网络当中,实现了端对端的学习
划重点:端对端学习(End to End)就是从输入直接得出输出,没有中间商,自己赚差价。
3. 深(多)层神经网络存在的问题一般来说,神经网络层数增多,会提高准确率。但是,网络层数加深导致:
过拟合学渣把高考预测试题的答案都背一遍而不理解,考试的时候,如果试题是考生背过的,那么考生就能答对;如果没背过那么考生就不会回答了。我们就可以说,学渣『过拟合了预测试题。
与之对应的是:欠拟合渣得不能再渣的人,连预测试题都背不下来,即使考试试题和预测试题一模一样,他也只能答对30%。那么就可以说这种人~~欠揍~~欠拟合。
有兴趣的还可以了解一下梯度弥散和梯度爆炸下面是网上很火很励志的一个公式,权重在多层网络中相乘,比如每一层的权重都是0.01,传递100层 就是 0.01 的100 次方,变得非常小,在梯度下降 Gradient Descent 的学习过程中,学习将变得非常慢。(好比从一个碗顶部放下一个小球,在底部徘徊的速度会越来越慢)
非凸优化学习过程可能在局部最小值(极小值)就停止了,因为梯度(斜率)为零。在局部最低停止而不是全局最低停止,学习到的模型就不够准确了。
看图感受一下
你说的底不是底,你说的顶是什么顶
解决的办法
均匀初始化权重值(Uniform Initialization)、批归一化(Batch Normalization)、跳远链接(Shortcut)涉及到比较多数学逻辑,这里就不展开说明了。
4. 应用人脸识别
自动驾驶把汽车顶部拍摄到的图片切分层一个个小方块,每个小方块检测物体是车还是行人还是狗,是红灯还是绿灯,识别各种交通标识等等。再配合雷达等判断物体距离。
四、这是什么歌(语音识别)1. 特征提取人类感官特征音量、音调、音色
通过采样、量化、编码。实现声波数字化(声波转电信号)
人工设计特征梅尔频率在低频部分分辨率高,高频部分分辨率低(这与人耳的听觉感受是相似的,即在一定频率范围内人对低频声音比较敏感而对高频声音不敏感)。
关系为:
在每一个频率区间对频谱求均值,它代表了每个频率范围内声音能量的大小。一共有26个频率范围,从而得到26维的特征。倒谱操作后,得到 13 维的梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCCs)
深度学习特征通过 3.1 所介绍的 1维卷积进行特征提取
2. 应用音乐风格分类
输入:音频文件特征:声音特征输出:音乐种类
语音转文字
输入:音频文件特征:声音特征输出:声学模型(比如26个英文字母)
再把声学模型送入另外的学习器
输入:声学模型特征:语义和词汇输出:通顺的语句(可以查看第6点,如何让计算机输出通顺的语句)
听歌识曲通过窗口扫描(把音乐分割成一小段一小段的),然后通过4.1说的方法提取这一段的特征,就得到一个特征向量。对数据库的歌和用户录音的歌做同样的操作得到特征向量,然后两两之间计算相似度(两个向量的距离可以用余弦公式算夹角大小或者两点间距离公式来算)
五、视频里的人在做什么(视频理解,动作识别)1. 介绍视频,本质是由一帧帧图片连续组成的,因为人视觉的暂留效应(Persistence of vision,人眼在观察景物时,光信号传入大脑神经,并不立即消失,让人产生画面连续的印象),看上去是连续的,也就是视频。识别视频里面有什么物体,可以用上文说过的图像识别和分类方法去实时分析单帧图像,比如:
但是视频相对于图像有一个更重要的属性:动作(行为)。
怎么从一个连续的视频分析动作呢?
举个例子,像上图那只二哈,腿部的像素点相对于黄色的方框(框和狗相对静止)在左右”移动”,这里的”移动”我们引入一个概念——光流(一个像素点从一个位置移动到另一个位置),通过像素点移动形成的光流作为神经网络的训练特征(X),『奔跑作为训练目标值(Y),经过多次的迭代训练,机器就可以拟合得出一个 Y = f(X) 用于判断视频中的物体(Object)是否在奔跑。
2. 光流假设,1)相邻两帧中物体运动很小2)相邻两帧中物体颜色基本不变
至于神经网络是怎么跟踪某个像素点的,这里不展开说明。
第 t 时刻的点指向第 t+1 时刻该点的位置,就是该点的光流,是一个二维的向量。
整个画面的光流就是这样:
整个视频的光流(轨迹)是这样的
不同的虚线代表图像上某个点移动的轨迹
假设视频宽width、高 height、一共有 m 帧,那么该视频可以用 width * height * m * 2 的张量(就是立体的矩阵)来表示,把向量喂到神经网络即可进行分类训练。
进一步优化,可以把光流简化为8个方向上的,把视频某一帧的所有光流累加到这八个方向上得出某一帧的光流直方图,进一步得出 8 维的特征向量。
六、一段文字在表达什么(自然语言处理)1. 特征提取
这里有4个句子,首先进行分词:
去掉停用词(副词、介词、标点符合等等,一般在文本处理上都有一个停用词表)
编码词表
句子向量化
这样就得到一个句子19 维 的 特征向量,再把这19维的特征向量用普通卷积网络或者 LSTM 循环神经网络作为 X 读入(喂它吃东西),文本的分类(比如积极、消极)作为训练标签值 Y,迭代训练得到的模型可以用于情感分析或文本分类等任务。
2. 进阶词向量化厉害-牛逼、计算机-电脑是同义词。光从上面的步骤,我们可能认为厉害和牛逼是两个完全不一样的词语,但其实他们是近似的意思,怎么才能 AI 学习知道这点呢?需要从多个维度去进一步给词语更丰富的内涵,比如:
举例来说,男性用1表示,女性用0表示,不带性别倾向就是0.5。多个维度扩展之后,就得到“男人”这个词的特征向量(1,0, 0.5,0,1)
逆向文档频率一个词在一类文章出现的多,而在另外分类的文章出现的少,越能说明这个次能代表这篇文章的分类。比如游泳在体育类的文章中出现的多(2次),而在工具类的文章出现的少(0次),相比其他词语(1次)更能代表体育类的文章。
假设句子中有 N 个词, 某个词出现次数为 T,一共有 X 个句子,该词语在 W 个句子出现,则逆向文档频率 TF-IDF 为 T/N * log(X/W)
3. 应用
七、让计算机画画(生成对抗网络)从前有个人,以卖临摹名家的画来赚钱。他开始临摹一副名画:
第一次他画成这样子了:
鉴赏家一眼就看出来是假的,他不得不回去画第二幅画、第三幅画…
经过了10万次”画画-鉴别”的过程,这个临摹者画出来的画,鉴赏家居然认为这是真的原作,以高价买入了这副画。
这种生成(画画)- 鉴别(鉴伪)的模式正是生成对抗网络(GAN)的核心。
通过生成器,把随机像素点有序排列形成具有意义的画面,再通过鉴别器得出生成的画面的分类、和真实画面之间的差距,并告诉生成器要往什么方向去优化。多轮的训练之后,生成器就学会了画『真画了。
计算机是怎么把随机像素点变成有意义的画面的呢?我们通过一个简化的例子来看看。
直线上一些均匀分布的点,经过 y=2x+1变换后变成了非均匀分布。一张随机排布的像素点画面,经过某个f(x) 变换后就会变成具有某种意义的画面,而生成器就是不停地去近似f(x), 就像 2.2 感知器拟合一条直线那样。
下图为计算机生成手写数字的过程
划重点:函数可以变换数据分布(库克说:可以把直的变成弯的)
八AlphaGo是怎么下棋的?(强化学习)1. 粗略认知监督/无监督训练:尽可能让每一次任务正确强化学习:多次任务是否达成最终目标
每一次任务都准确,不就是能达成最终目标吗?我们来看一个例子:
一家批发商店的老板爱丽丝要求她的经理比尔增加销售额,比尔指导他的销售员多卖一些收音机,其中一个销售员查尔斯弄到了一个可以获利的大单,但是之后公司因为供应紧缺无法交付这些收音机。
应该责怪谁呢?
从爱丽丝的角度来看,查尔斯的行为让公司蒙羞了(最终任务没完成)。
但是从比尔的角度,查尔斯成功地完成了他的销售任务,而比尔也增加了销量(子任务达成)。——《心智社会》第7.7章
2. AlphaGo下围棋,最古老的办法是决策树,从左上角的位置开始到右下角的位置遍历,每一个空的位置就是一个分支,然后预测每种棋局赢的概率,找出最大概率的走法玩。这就是落子预测器。
但是由于围棋19X19的超大棋盘,空间复杂度高达10的360次方,要穷尽所有的走法几乎是不可能的,如大海捞针。
要降低复杂度,关键是要降低搜索的广度和深度。
我们栽培一颗小盆栽的时候,如果不对枝叶进行修剪,那么养分就会浪费在没长好的枝条上。需要及时对枯萎或者异常的枝条进行修剪以保证养分往正常(或者说我们希望它生长的方向)枝条上输送。
同样的道理,有限的计算机算力如果浪费在穷尽所有围棋走法上,将导致棋局推演非常慢,而且耗费大量的时间也难以找到最优的方案。
是否可以通过 “修剪” 落子选择器这颗庞大的决策树,加快较优落子方案的选择呢?怎么判断哪些是好的”枝条”,哪些是坏的”枝条”呢?这就需要棋局价值评估器(哪个棋盘的赢的概率更大),把没有价值的棋局先去掉不再往下遍历,这就同时减少了搜索的广度和深度。
其中,落子预测器有个名称,叫做政策网络(policy network)价值评估器有个名称,叫做价值网络(value network)政策网络(policy network)利用蒙特卡洛搜索树从当前棋局推演(随机下棋)到最终的棋局,最终胜则回报为正,反之回报为负。之后该算法会反向沿着该对弈过程的落子方案步步回溯,将路径上胜者所选择的落子方案分数提高,与此对应将败者的落子方案分数降低,所以之后遇到相同局面时选择胜者方案的概率就会增加。因此可以加速落子选择,称为快速走子网络。
通过 政策网络 + 价值网络 + 蒙特卡洛搜索树 实现最优落子方案的选择,同时两个机器人互相对弈,这样就不停地训练网络,学习落子方案。
3. 定义接下来说一下枯燥的定义
什么是强化学习?
当我们关注的不是某个判断是否准确,而是行动过程能否带来最大的收益时使用强化学习(reinforeement learning)。比如在下棋、股票交易或商业决策等场景中。
强化学习的目标是要获得一个策略(poliey)去指导行动。比如在围棋博弈中,这个策略可以根据盘面形势指导每一步应该在哪里落子;在股票交易中,这个策略会告诉我们在什么时候买入、什么时候卖出。
一个强化学习模型一般包含如下几个部分:
一组可以动态变化的状态(sute)
对于围棋棋盘上黑白子的分布位置对于股票交易来说,就是股票的价格
一组可以选取的动作(metion)
对于围棋来说,就是可以落子的位置;对于股票交易来说,就是每个时间点,买入或者卖出的股票以及数量。
一个可以和决策主体(agent)进行交互的环境(environment)这个环境会决定每个动作后状态如何变化。
篇11
搜索引擎技术自诞生之日起就成为互联网中最吸引人的技术之一,各种商业化的搜索引擎已经成了人们使用互联网时不可缺少的工具。传统搜索引擎的工作原理是服务提供商利用网络爬虫(Web crawler,也被称作网络蜘蛛(Web spider)或网络机器人(robot),通过一些种子站点按照深度优先或者广度优先的搜索策略对可以爬行到的资源进行扫描、下载,并将下载的信息以快照或全文方式存储在数据库中,建立相关索引,当用户在搜索引擎的用户界面中输入搜索关键字后,搜索引擎访问数据库,返回数据库中与搜索关键字匹配的纪录。随着互联网中网页资源的快速增长,传统的搜索引擎在某些方面的缺陷也越来越明显:①搜索结果不够全面。传统搜索引擎希望镜像整个Web世界,搜索引擎追求的是尽量多的处理及存储网络爬虫爬回的网页,但不同的搜索引擎由于受到服务器位置、网络带宽、爬行算法、服务器容量等因素的影响,服务器中存储的资源是有限的,任何一个搜索引擎不可能存储并索引网络上所有的网页信息。即使是全球最大的搜索引擎Google,其索引的页面数量也仅占Web总量的40%左右。②搜索周期增加,影响信息的实效性。随着Web资源的快速增长,传统搜索引擎网络爬虫的爬行周期不断增加,数据库更新时间越来越长。每一个网页都有自己的生命周期,网页的更新速度可能会快于搜索引擎数据库的更新速度,当搜索引擎把数据库中已经过期的信息反馈给用户时,用户可能根本无法打开相关链接或者打开的是过期的网页。③搜索结果的针对性不强。用户输入一个关键字后返回很多结果,但存在大量重复,很多结果并不是用户需要的。通过对欧洲和美国9个主要的搜索引擎日志的统计分析,认为用户对于搜索结果的查看呈减少趋势。普通用户仅仅会察看搜索引擎返回的前若干条数据,对于其他搜索结果,很多用户没有耐性全部看完。不同专业背景的人,对于同一个关键词的理解可能大相径庭,同样的“苹果”一词,有人可能理解成为食品,有人可能理解成为苹果公司或者其IT产品。
鉴于传统搜索引擎的这些缺陷,一些学者提出了垂直式搜索引擎的概念,即该搜索引擎不以爬行所有的Web页面为目标,仅仅在互联网中快速爬行某一部分Web页面并存储,这样的搜索引擎既可以节约网络带宽资源,又可以缩短搜索引擎数据库的更新周期,使搜索引擎得到实时性更好的网页。De Bra等最先提出的主题爬行(topic crawling)搜索引擎通过限定爬行主题,提高了搜索精度,成为垂直式搜索引擎的代表。主题爬行技术的核心是爬行策略与算法,本文从主题爬行技术的基本原理出发,对其策略进行分类,沿着爬行策略及算法的改进,分析了主题爬行策略与算法的研究热点,为主题爬行技术的进一步研究提供参考。
1 主题爬行原理
主题爬行是在传统网络爬行技术基础上,加入文本分类、聚类以及Web挖掘等相关技术用于捕获特定主题的Web信息。主题爬行技术的应用可以提高搜索精度,降低搜索引擎对网络资源的占用,缩短搜索引擎数据库的更新周期。基于主题爬行技术的搜索引擎与传统搜索引擎最大的区别在于:该搜索引擎的网络爬虫是面向主题的。传统搜索引擎的网络爬虫在爬行过程中采用的是“通吃”策略,不分类别、不分内容全部爬行并下载;基于主题的网络爬虫在爬行前或者爬行过程中根据已经爬行的结果有选择性的进行预测下一步爬行并下载。
主题爬行过程通常由三部分构成:①分类器(clas―sifter),主要对已抓取网页的元素进行计算,判断其主题相关度,确定是否对该网页中所包含的超级链接进一步抓取;②提取器(distilIer),该模块存储待下载队列,并确定待下载队列的优先级;③爬行器(crawler),该模块在分类器和提取器的指导下,执行网页抓取工作。主题爬虫的爬行过程为爬行器根据不同的爬行策略执行爬行操作,抓取网页送人分类器中,分类器对已经抓取的网页进行处理,根据设定主题及其域值判断该网页的主题相关性,结合其他参数,确定是否对该网页包含的超级链接进一步爬行。如果爬行,则送入提取器中的队列,由提取器根据队列规则确定其爬行优先极。Chakrabarti等人 1999年正式提出了个性化主题搜索引擎的概念,该搜索引擎不以传统的关键词作为搜索内容,而是在某一限定范围内,通过计算Web页面内容与主题的相关性,决定主题爬虫是否值得进一步搜索。其中,主题是由一些范例文档来确定的,该主题爬虫实时查找与文档词典有相关性的网页,保证了搜索页面的时效性与针对性。
2 主题爬行基本爬行策略与算法
主题爬行技术的核心是爬行的策略与算法,由于主题爬虫与传统网络爬虫在爬行目标上有很大差别,因此,除了采用传统网络爬虫的爬行策略之外,主题爬虫在爬行过程中还要采用有效爬行策略与算法尽快爬到并抓取与主题相关的网页。Sotiris Batsakis等人将主题爬行策略分成三类:经典主题爬行策略、改进的主题爬行策略、基于语义的主题爬行策略。经典爬行策略主要指主题爬行的“鱼群搜索策略”(fish search),改进的主题爬行策略主要指“鲨鱼搜索策略”(sharksearch)、“最优最先(best first)搜索策略”等。
鱼群搜索策略是以“鱼群搜索算法”(fish algo―rithm)为基础的主题爬行策略,鱼群搜索算法是一种基于群体动物行为的智能优化算法,该算法模仿鱼群在觅食和繁殖时的表现,动态调整种群的个数。在鱼群搜索策略中,每个网页相当于一条鱼,如果遇到满足给定条件的相关网页,则该鱼繁殖小鱼,并对该网页发出的链接进一步探索;否则食物减少,如果一条鱼的食物减为零,则该鱼将停止寻食并放弃对该链接的爬行。鱼群搜索策略中某一超级链接是否放人提取器中待下载,取决于该链接的父链接与主题的相关性。关于待下载链接与主题的相关性,De Bra L”提出了通过比较已下载网页内容与主题关键字是否匹配,引入二元分类方法(1代表相关,O代表不相关)来计量相关性。
改进的主题爬行策略是基于鱼群搜索策略基础的改进,Hersoviei M”。提出采用向量空间模型(vectorspace model)来计量相关性,向量空间模型不以整数0、1来计量相关性,而是通过多个参数比较,采用O一1之间的实数来计量。该方法除了用已下载网页内容和主题关键词是否简单匹配来判断相关性,还通过计算
锚文本(anchor)等其他参数与主题的相关性来计量。这种改进的搜索策略比鱼群搜索策略在爬行的准确率(precision rate)和召回率(recall rate)上有很大的进步,该搜索策略被称之为“鲨鱼搜索策略”(shark search)。在“鲨鱼搜索策略”中,已下载网页中页面内容、锚文本内容、链接内容(URL)及父页(指向包含链接页面的Web页)的相关性等都作为主要参数用来计量待下载网页与主题的相关性,通过计算确定待下载网页是否进人提取器队列中。关于参数向量的选择,Cho J等提出了重要度向量,该重要度向量由几个部分构成:①已下载页面逆文献频率法(inverse document frequency,IDF)的关键词相关度;②已下载Web页的重要链接指向个数(backlink count);③已下载页面指向链接的重要度值(pagerank);⑧URL位置矩阵(10cation metrics)等四个参数作为衡量相关性的向量。
随着研究的不断深入,“鲨鱼搜索策略”也不断完善,该方法中向量空间模型的参数越多,相关性计量越准确,但参数增加使计算量也随之增加,因此,过多的参数对爬行速度有一定影响。但Zhumin Chen等”。对各种主题爬虫的运行时间进行了实验分析比较,该学者认为,相对于网络中的下载等待时间来说,相关性计算的时间很少,有时甚至不到下载时间的十分之一,因此页面相关性的计算对爬行速度的影响是可以忽略的。在“鲨鱼搜索策略”的基础上,Menczer F等提出了“最优最先”(best first)搜索策略,这一策略通过计算向量空间的相关性,把相关性“最好”的页面放入最优先下载的队列,另外,“最优最先”搜索策略采用了术语频度(TF)值计算文本相似度,减少了部分计算量。根据文献,由于只选择与主题相关性很大的链接,而忽略某些当前相关性不高但下级链接中包含很高相关性链接的网页,最优最先算法具有很大的贪婪性,该算法只能找到局部范围内的最优解,难以得到全局范围内的最优解。因此,该搜索策略只适用于小范围内的主题爬行,对于大范围的主题爬行,容易过早地陷入Web空间中局部最优子空间的陷阱。
作为一种有效表现概念层次结构和语义的模型,本体论(ontology)被广泛地应用到计算机科学的众多领域。美国斯坦福大学的知识系统实验室学者TomGruber提出了本体是概念化的显式表示,Studer在Gruber的基础上扩展了本体的概念,提出本体是共享概念模型的明确形式化规范说明。本体具有良好的概念层次结构和对逻辑推理的支持,可以解决信息源之间结构和语义的异构,W3C在2004年提出了Web本体语言(Web ontology language,OWL)的标准。基于本体的网络爬虫认为概念上使用相似术语的页面应具有一定的相关性。M.Ehrig等学者将本体应用于主题爬虫的分离器中,首先通过定义术语的相关性,建立本体术语集合,通过对已下载网页处理并对本体库的比较分析,计算其相关性,确定是否将待下载链接放入分离器,提高了主题爬行的准确度与召回率。Jason J.Jung提出基于语义主题爬行的开放式决策支持系统,该开放系统主要包括基于上下文语义的主题爬虫通过域内链接进行区域内知识发现及知识的处理,为开放式决策支持系统迅速提供知识。基于语义的主题爬行技术中,本体库的构建及完善是一项复杂的工作,因此应用范围有限。
3 爬行策略与爬行算法的改进
虽然鱼群搜索策略、鲨鱼搜索策略、最优最先搜索策略是主题爬虫常用的搜索策略,但由于互联网中网站结构的多样性及复杂性,很多学者在主题爬行算法中尝试采用其他的搜索算法实现较高准确率与召回率。相继提出了采用模糊算法、人工神经网络、遗传算法、粗集理论等方法指导主题爬虫的爬行过程。
作为最优最先搜索策略的改进,李学勇等采用模拟退火算法作为爬行的启发式搜索算法,与爬行中的“隧道技术”结合改进主题爬虫。模拟退火算法从某一较高初温出发,伴随温度参数的不断下降,结合概率突跳特性在解空间中随机寻找目标函数的全局最优解。该算法在选择优化解方面具有非贪婪性,在爬虫搜索过程中,每次除了选择评价值最优的链接,还以一定概率有限度地接收评价值次优的链接,确保有一定价值的链接有机会被选中。“隧道技术”使爬虫有机会穿过相关性低的区域进入相关性高的区域,当页面内容的相关度低于设定的阈值时,通过扩大主题范围,使更多的相关链接加入到链接优先级队列,提高相关网页的召回率。模拟退火算法是一种随机算法,虽然可以比较快地找到问题的近似最优解,但不一定能找到全局的最优解。因此,将模拟退火算法应用于最优最先搜索策略并不能完全保证主题爬行的鲁棒性。
遗传算法(genetic algorithm)是模拟生物进化论与遗传学结合的计算模型,在最优解搜索领域具有一定优势,自从密西根大学的Holland教授提出该算法后,由于其鲁棒性、自组织性强等优点,在很多方面有广泛的应用。Jialun Qin等学者采用遗传算法实现主题爬虫在特定域内的爬行,通过初始化、内容分析选择、链接分析杂交、变异等几个步骤实现主题爬虫在特定域内的爬行。根据文献,该算法的应用在某些Web页的主题爬行中具有较好的准确率与召回率。遗传算法应用于主题爬行技术中存在编码方式的确定、适应性函数的确定等问题,由于网站结构、网页类型的不同需要采取不同的标准。遗传算法也存在局部最优陷阱问题,单纯使用遗传算法进行主题爬行时也会存在无法穿越隧道的问题。
隐马尔柯夫模型(HMM)作为一种统计分析模型,在信号识别等领域有广泛的应用,隐马尔柯夫链在相关性评估应用中具有一定优势。Hongyu Liu等提出基于隐马尔柯夫模型的算法来评估待下载页面与主题之间的相关性。该系统包括三个步骤:①进行数据收集;②依据相关性模式建模;③根据模型对待下载页面评估并进行主题爬行。该算法的应用可以提高主题爬虫在分离器中的处理精度,但由于计算量的增加,会降低处理效率。
人工神经网络近来日益受到人们的关注,因为它特有的非线性、自适应性、自学习性为解决复杂问题提供了一种相对比较有效的简单方法。Hai-Tao Zhengr提出采用基于本体的人工神经网络(ANN)实现自学习爬行,系统框架分为三个步骤:①进行数据准备;②通过现有的数据集对人工神经网络进行训l练;③将训练过的主题爬虫应用于实际爬行,取得较高的准确率与召回率。人工神经网络存在训练时间长、学习算法的通用性低等缺点,所以,将人工神经网络应用于主题爬行中,也存在样本学习时间长,学习算法不具有通用性等缺点。因此,人工神经网络仅仅适用于小范围的主题爬行。
除以上算法的改进,很多学者还尝试采用其他计
算方法改善主题爬虫的搜索性能,Suman Saha等。应用粗集理论对未下载的Web页面进行预测,判断其与主题相关性,该方法提高了爬行页面的准确率,降低了噪声。Huaxiang Zhang等提出利用Q学习及在线半监督学习理论在待访问的URL列表中选择与主题最相关的URL,相关值的计算基于模糊理论及Q值理论。
虽然很多学者尝试通过不同的软计算方法改进主题爬虫,但由于互联网中网站结构与网站内容多样复杂,这些算法往往应用于某些网站时具有较高的准确率与召回率,但是应用于另一些网站时准确率与召回率会下降。主题爬虫的准确率与召回率除了受网站结构、主题爬虫的爬行策略与算法等因素的影响,还受爬行入口位置、Web服务器性能等其他相关因素影响。
4 主题爬行策略与算法的研究热点
篇12
1.在金融学研究中文本大数据的挖掘方法
传统研究方法通常采用人工阅读方法对文本信息进行识别,因为文本数量庞大、信息构成复杂,人工识别效率较低,而且信息识别质量不稳定,信息识别效果受到阅读者专业素养、理解能力等多方面因素影响。计算机技术发展后逐渐被应用于分析文本大数据,利用计算机技术获取语料,对文本资料进行预处理、文本表示、抽取特征等操作。完成上述步骤后,在研究分析中使用文档特征,从而开展深入分析[1]。在分析文本大数据时,主要采取如下流程:(1)从众多信息来源中获取语料,对语料文档进行解析,明确文本定位,清洗数据,获得文本分词,标注词性,将其中停用词清除。(2)构建词云、词嵌入、词袋模型与主题模型。(3)分析文本情绪、可读性、相似性,分析语义关联性。(4)监督机器学习、词典语法处理[2]。
1.1获取语料
获取语料的方法主要分为两种:(1)人工获取;(2)利用网络工具爬取或抓取。其中人工获取语料投入成本较高,耗时较长,需要投入大量人力,因此网络抓取的可行性相对较高[3]。网络抓取方法可有效应对大量文本量,在一定程度上降低文本大数据获取难度。在网络抓取语料时,需要借助编程语言,通过直接抓取或爬取的方法获取文本大数据。采用此种语料获取模式具有两方面显著优势,不仅获取文本信息耗时较短,效率较高,而且可直接使用编程语言整理内容和规范形式,为后续文本分析工作奠定基础[4]。
1.2预处理环节
获取目标语料后,前期需要预处理文本,解析、定位文本,清洗数据,标注分词与词性,最后去除停用词。金融市场通常要求企业采用PDF格式作为信息披露文档格式,文本预处理中首先需要解析富格式文档,获取文档信息。定位文本和清洗数据环节中,利用计算机程序定位文本信息[5]。在该类研究中,MD&A研究热度较高,使用正则表达式进行财务报告正文MD&A定位首尾信息部分,提取上述信息。此外,文本信息中除核心内容结构外,还包括超文本标记语文、脚本语等代码信息、图片信息、广告信息等,该类信息在文本分析中属于噪声内容,需要删除和清洗相关信息,从文本中筛选有价值的核心内容[6]。文本分词处理与文本语言密切相关。英文文本使用空格划分单词,即自然存在分词形式,也可采取提取词干、还原词形等方法划分单词。中文文本中不使用空格分词,根据中文语言习惯,词语为最小语言单位,可独立使用。基于此种背景,分析文本时需要专门分词处理中文文本,例如:使用Python开源“jieba”中的中文分词处理模块处理文本,股票论坛帖子文本、年度业绩说明会以及企业财务报告均可使用该类工具处理,完成分词。在针对中文文本进行分词处理时,其中实施难度较高的部分是识别新词、歧义词与控制切分颗粒度。在处理歧义词时,需要科学选择分词方法,采用“jieba”针对文本进行分词处理时,选择分词模式是否科学直接影响分词精准度。分词处理新词时,需要用户在相应模块中自行添加新词,完善自定义词典,从而使分词软件识别新词[7]。语义信息被识别的关键依据是词性等语法特征,词语切分后标记词语词性操作被称为词性标注。词性标注操作可帮助计算机进行词语种类识别,避免词语歧义,对语法结构进行有效识别,从而促进计算机顺利进行语义分析。词性标注时,中英文操作方法不同,词性划分英文单词要求比较严谨,利用词尾变化反映词性变化。在英文词汇中,许多固定词尾可提示详细词性信息。在处理中文词语中,并无明确词性指示,词性识别依据主要为语法、语义等。简言之,英文词性识别标记注重形式,汉语词性标记以语义为主。在处理文本信息时,需要将文本信息中停用词去除,从而保证文本挖掘信息具有较高精度。所谓停用词,即自身词义表达有限,然而对于句子语法结构完整性而言非常重要的词语。停用词导致文本数据具有更繁琐维度,导致分析文本的成本较高。英文中动词、连词、冠词均为常见停用词。中文处理方法比较复杂,必须结合语言习惯分析停用词,不仅需要处理特殊符号、标点符号,还需要处理连词、俚语。除此之外,应根据具体研究内容确定停用词。在进行文本情绪研究时,特定标点符号、语气词等会影响文本表达的情感信息,对于此类信息需要予以保留,从而保证文本情感程度得到准确分析。
1.3文档表示环节
文本数据为高维度数据,具有稀疏特点,使用计算机处理文本数据时难度较高,预处理实施后,必须通过特定方式表示文档信息,通过此种处理降低后续计算机分析和人工研究难度。词云、词嵌入、词袋模型、主题模型均为核心表示方法[8]。词语技术具有可视化特点,是文本大数据技术之一。所谓本文可视化,即使用视觉符号显示复杂内容,展示文本规律。根据生物特性,人们习惯于通过视觉获取文本信息,实现文本可视化可提高信息提取效率。使用词云技术可有效描述文本中词汇使用频率,采用醒目形式显示高频词汇。词袋模型的构建基础是无严格语序要求的文字词组存在[9],以此种假设为前提,文本相当于众多词语集合,采用向量化方法表达文本,在此过程中只计算各个词语出现频率。在词袋模型中含有两种构建方法:(1)独热表示法;(2)词频-逆文档频率法。前者的应用优势是可行性较高,操作难度较低。例如:现有如下两个文档:(1)文档一:“经济学中文本大数据使用”;(2)文档二:“金融学中文本大数据使用”。以文档一、文档二为基础建设词表,根据词序实施词袋化处理,确定词袋向量。对于出现的词,以“1”表示,未出现的词以“0”表示。但是在实际操作中,不同词语在文档中出现频率存在差异,通常文本中高频词数量较少,许多词汇使用频率较低。为体现文档中不同词语的作用,对单词词语赋予权重。TF-IDF是计算文档定词语权重的有效方法。含有词语i文档数描述为dfi,集合中文档总量描述为N,逆文档频率描述为idfi,第j个文件中词语i频率描述为tfi,j,第j个文档内词语数量描述为aj,第i个文档内词语i权重描述为tf-idfi,j,则公式应表示为[10]其中,的前提条件是不低于1,0定义为其他情况。较之独热表示法,TF-IDF方法的特点是对每个单词赋予不同权重。在赋予其权重的基本方法时文本中该词汇出现频率越高,其重要性越高,与此同时语料库中该词汇出现频率越高,则其重要性相应降低。词嵌入处理中,主要是在低纬度连续向量空间嵌入指定高维空间,该高维空间维数包括全部词数量。在金融学领域中进行文本研究时,词嵌入技术通常采用Word2vec技术,该技术中主要使用CBOW技术与Skip-Gram神经网络模型,针对神经网络进行训练,促使其有效捕获词语中包含的上下文信息,对词语进行向量化映射,得到的向量语义信息更加丰富,信息密度更大,信息维度更低。主题模型中应用频率较高的是LDA模型,应用此种模型进行文本分析属于无监督机器学习法,通过此种方法才能够大量集中语料中提取主题信息。在应用该方法时,将生成文档的过程分为两步,首先假定各文档具有对应主题,从这些主题中抽取一个主题,然后假定文档具有对应词汇,对比之前抽取的主题,从词语中选取一个与主题对应的词语。完成上述迭代后,将其与文档中各词语拟合,从而获得各文档主题、主题中词语分布情况。LDA模型主要优势是,与手动编码相比,该模型性能更完善,可有效分类大规模文档。该模型做出的文本主题分类支持复制,准确性较高,而采用人工手段分类文本时较易受到主观性影响。此外,使用此种模型时,无需人工分类进行关键词、规则设定。LDA模型的缺点是在主题预设个数时,受到研究者主观因素影响,选择主题个数的数量受此影响显著,因此生成主题过程与归类文本主题时较易受到相关影响。
1.4抽取文本特征的方法
文本特征是指文本可读性、相似性、文本情绪以及语义关联性。其中文本可读性即读者在阅读文本时是否可较容易地理解文本信息。在编辑文本时应保证文本具有较高可读性,保证投资者通过阅读文本可有效理解文本信息,即确保文本对投资者投资行为产生积极影响。有研究者在文本分析中使用迷雾指数,该类研究认为,迷雾指数与年报可读性呈负相关。年报文本字数、电子文档规格也是影响年报可读性的重要因素。在使用迷雾指数评价文本可读性时,常见的问题是,随机排序句子中词语将导致文本难以理解,然而正常文本和经过随机排序处理的文本在分析计算时,显示相同迷雾指数。不仅如此,在进行商业文本测量时采用迷雾指数作为依据具有显著缺陷,例如,当对企业披露信息进行可读性分析时,难以有效划分年报可读性与该企业实际复杂性。基于此种背景,在针对年报文本可读性进行评价时,需要结合企业业务复杂性等影响,提出非文本因素[11]。在提取文本情绪时,通常采用有监督机器学习法与词典法进行提取操作。词典法即在文本情绪、语气语调研究中使用情绪词典辅助分析。词典确定后,该类研究即支持复制。不仅如此,建设词典时还需要融合大量金融学专业知识,从而使词典与金融文本分析需求一致。使用现有多种类词典、文献等分析媒体报道情绪,针对财务报告进行语气语调分析,以及进行电话会议等进行语气语调分析等。中文大数据分析时,通常是以英文词典、词库等为模板,构建中文情绪词典。使用该类词典辅助分析股票成交量、收益率,评估股市崩盘风险高低。在词典法应用中需要结合加权法进行文本情绪分析[12]。有监督机器学习法包括支持向量机、朴素贝叶斯等方法。采用此类方法时,重点环节在于对分类效果进行检验和评价。交叉验证法是常见检验方法。有监督机器学习法的缺点是必须人工编码设置训练集,工作量较大,并且人工编码较易受到主观因素影响,分类效果鲁棒性较差,并且研究难以复制。其优点是分类精确度较好。
2.文本大数据分析
大数据分析主要是进行财务报告等公司披露文本信息、搜索指数、社交网络文本以及财经媒体报道等进行分析。通过文本挖掘从海量文本中抽取核心特征,分析其可行性、相似性、语义特征、语气语调等,然后分析股票市场行为与文本特征等相关性。分析披露文本信息时,主要是利用文本信息对企业财务、经营、管理层长效经营信息等进行研究。在进行此类研究时,重点是分析文本可读性、相似性,以及分析语气语调。披露文本可读性较高时,有利于投资者有效获取公司信息,影响投资行为。迷雾指数理论认为,财务报告具有较高可读性的企业通常具有更长久的利润。此外,有研究者提出,财务报告可读性直接影响盈余预测离散性和可靠性。财务报告可读性较低时,公司为减轻此种消极影响,可采取自愿披露措施缓解消极影响。管理者通过控制财务报告可读性可对投资者行为做出影响[13]。在针对企业发展情况和股票市场发展趋势进行分析时,披露文本语气语调具有重要参考价值。相关研究认为,MD&A语气内含有增量信息,该类信息为企业长效经营能力进行预测,同时可根据该类信息分析企业破产风险。管理者情绪状态可表现在电话会议语气中,此种语气分散情况与经营决策具有相关性,同时语气对投资者感知、分析师评价产生影响。分析财经媒体报道时,主要关注媒体情绪,分析媒体报道着眼点,针对经济政策进行分析,了解其不确定性,此外还需要研究媒体报道偏向信息、假新闻等。进行社交网络文本研究时,主要是分析策略性信息披露情况与文本情绪。搜索指数研究方面,主要通过搜索指数了解投资者关注度。
篇13
0 引言
目前,煤矿巷道支护设计很大程度上依赖于工程技术人员的工程判断力和实践经验,具有很大的盲目性,导致有些巷道支护效果不佳,部分巷道出现前掘后修、前修后坏的状况。有些巷道支护设计参数偏于保守,制约着矿井安全高效水平的提高。科学地寻找支护参数设计在安全和经济两方面的最佳结合点,是开展巷道围岩稳定性分类研究的主要目的。据统计,相当一部分巷道失稳的原因是由于基本的支护方案不合理造成的,究其原因是不准确的巷道围岩分类。因此,准确地把握巷道围岩稳定性分类是巷道支护设计的基础,开发出便于现场工程技术人员能够直接使用的可视化围岩分类系统亟待解决。本文以模糊聚类理论基础,建立回采巷道围岩稳定性分类Fuzzy模型,利用matlab语言编写模型程序,实现了回采巷道围岩稳定性分类可视化系统。
1 回采巷道围岩分类Fuzzy模型
影响回采巷道围岩稳定性的因素很多,依照指标选取的重要性原则、独立性原则、明确性原则、易获取原则[1],选取巷道埋深、巷道底板岩层强度、巷道顶板8m范围内综合强度、巷道帮部岩(煤)层强度、直接顶厚度与采高比值N、直接顶初垮步距、巷煤柱宽度7个指标,以神东布尔台矿区为工程背景,收集回采巷道样本。其中顶板岩层的综合强度,采用顶板8m范围内各个岩层的单轴抗压强度的综合平均值。大量的实践经验表明,距离巷道顶部表面的岩层越近对巷道稳定性的影响越大[2]。如图1所示,顶板岩层的强度采用如下公式(1)计算。
(1)
式中:
A――巷道顶板上部三角形区域面积;
a――巷道宽度;Ai为第i分层区域面积;
――第i分层的单轴抗压强度。
1.1 数据无量纲化及单位化处理
样本分类的7个指标的量纲不尽相同,在数据使用必须对原始数据进行无量纲化处理,按照统计学原理,本文采用公式(2)进行无纲量化处理(Z-score)。
(2)
(3)
(4)
式中:
――第i个样本的的第j个指标;
――第j指标的平均值,计算公式(3);――第j指标的标准差,计算公式(4)。
为消除各指标绝对值大小对聚类分析的影响,要对去量纲化的样本数据进行单位化[2],如公式(4)所示,把原始数据压缩在0~1之间。
(5)
式中:
{xij}min――第j个指标实测中最小值;
{xij}max――第j个指标实测中最大值。
1.2 回采巷道分类指标加权处理
数据无量纲化及单位化处理没有改变各指标对分类结果的影响,事实上,各个分类指标对巷道围岩稳定性的影响程度是不同的,有主次之分。如果把这些影响程度不同的指标平等的对待,无疑是要影响分类结果的准确性[3]。因此,在进行模糊聚类分析时,为区分这些指标对围岩稳定性的影响程度,需要对每一个指标进行加权处理。加权的具体实施方法,就是在各指标经标准化处理后的数据上乘以相应的权值。确定权值的途径很多,这是里采用多元回归分析法确定本分类中7个指标的权值,并用层次分析法加以检验[4],最终得到各指标分类权值如表1所示。
1.3 数据标定及聚类
标定就是计算出被分类对象间相似程度的统计量(i,j=1,2,……n。n为被分类对象的个数),从而确定论域上的模糊关系矩阵。常用的方法有:欧氏距离法、数量积法、相关系数法、夹角余弦法等[5]。本文采用欧氏距离法来进行标定。如公式(6)所示。
(6)
式中:
――表示第条回采样本巷道的第k个标准化处理后的指标 ;
――表示第条回采样本巷道的第k个标准化处理后的指标。
聚类就是在已经建立的模糊相似矩阵的基础上[6],以不同的阈值进行截取,从而得到不同的分类。这里采用基于模糊等价关系的聚类法。具体作法是,将加权模糊相似矩阵进行改造,使之具有传递性,转化为加权模糊等价关系矩阵,给出不同的阈值进行聚类[7]。最终把寸草塔二矿回采巷道围岩稳定性分为分为5类:非常稳定;稳定;较稳定;不稳定,极不稳定。上述对围岩稳定性的评语用拉丁字母表示为:I,II,III,IV,V;各指标聚类中心值如表2所示。
1.4 构造单项指标的隶属函数
回采巷道围岩稳定性状态共分为5类,分类指标数为7,Xi (i=1,2,…,7)表示第i分类指标取巷道聚类中心值的集合,论域Xi上模糊子集完全由它的隶属函数所确定,其中为某类别巷道第i指标的聚类中心值,隶属函数中的应当满足[8]:
(1) 当时,,其中为第j级巷道第i分类指标的的聚类中值。显然,第j级标准巷道应100%属于第j级;
(2) 当远离时,隶属函数值应变小。隶属函数种类很多,如正态型、戒上型、戒下型和降半型等。根据巷道各分类指标的分布特征,本文采用如公式(7)的正态型分布函数。
(7)
式中:
――取各级聚类中心值的第i指标的标准差。
1.5 巷道模糊综合评判及顶底板移近量预测
利用上述单项指标隶属函数,计算回采巷道的隶属函数值,得到初始模糊关系矩阵R。因为各分类指标的权值矩阵是单位化的,为方便分类结果的使用,初始模糊关系矩阵R必须单位化。单位化后的模糊关系矩阵为运用模糊单位化后的模糊关系矩阵,与各分类指标所占权值矩阵A进行矩阵相乘运算,权值矩阵由表3中得出,即:
A=(0.122 0.1 0.21 0.03 0.11 0.113 0.3)
运算见下公式(8)。
(8)
得到隶属度矩阵,求得最大隶属度及最大隶属度所在的列向量位置,进而判别巷道稳定性类别。
通过该隶属矩阵可以进一步预测巷道顶底板移近量,目前预测巷道顶底板移近量尚无精确的公式,通过巷道围岩稳定性隶属度矩阵预测巷道顶底板移近量(如表3)不失为一种简单有而又相对准确的方法,如公式(9)。
U=u1×b1+ u2×b2+……+ u5×b5 (9)
上式中:
b1,b2,……b5――巷道围岩稳定性隶属矩阵中各类巷道的隶属度;
u1,u2,……u5――各类巷道围岩移近量的平均值。
2 可视化系统开发
Matlab是一款优秀的面向对象的数值计算软件[11],在GUI编程过程中需要使用变量来实现函数之间的数值传递,借用Eidt Text(编辑文本)及Listbox(下拉类表)的Tag(标签)来定义、使用函数变量;本系统主要有四大功能模块组成:1)求聚类中心;2)顶板综合强度计算;3)数据装载及运算;4)显示模型运算结果;系统运行调试结果如图2所示。
3 系统应用
3.1 应用工程背景
根据某矿43301工作面为工程背景,工作面北部北部为43煤辅运、胶运和回风三大巷,西侧为43301工作面已准备完毕,东侧为43303工作面已回采完毕,南侧为43煤风氧化带边界,43302-1与43302-2工作面南北间隔5条排矸巷相距128m;上部18-28m有42201、42202、42224工作面采空塌陷区。
3.1.1、煤层顶板、底板特征
43302工作面老顶为细砂岩,厚度约为13.7-18.8m,平均15.35m,白色,泥质胶结,水平层理。
直接顶为泥岩,厚度约为0-1.5m,平均1.15m,灰黑色,粉砂质,质软,易冒落,底部含有植物叶碎片化石。
直接底为泥岩,厚度约为0.10-0.70m,平均0.35m,深灰色,含岩屑及植物化石,遇水泥化严重。
3.1.2、地质构造及水文地质特征
工作面地表广覆第四系松散沉积物,地形起伏变化比较大,43302-1回采区上部18-22m有42煤42201、42202综采工作面采空塌陷区。43302-2回采区上部22-28m有42煤42201、42103、42224综采工作面采空塌陷区。工作面内地层总的趋势是以极缓的坡度向北西倾斜的单斜构造,倾角1-3°,断层不发育,后生裂隙发育。
工作面地表广覆第四系松散沉积物,地形起伏变化比较大,43302-1工作面回采区上部18-22m有42煤42201和42202工作面采空塌陷区,43302-2工作面回采区上部22-28m有42煤42201、42103、42224综采工作面采空塌陷区,采空区内有大量积水,施工探放水孔11个,累计疏放积水17800m3,采空区内局部低洼地带可能仍有少量积水,因此必须加大雨季工作面采空塌陷区沟谷地带洪水的管理工作,以确保矿井安全生产。
工作面地表沟壑发育,上覆松散层厚度变化较大,雨季大气降水一方面通过松散层及基岩裂隙直接下渗补给井下,用类比法预测切眼地段初次垮落时的涌水量为30m3/h,工作面正常回采涌水量20m3/h,工作面最大涌水量50m3/h。
3.2 巷道围岩稳定性分类
根据以上地质因素和采矿技术因素,量化各分类指标,如见表4所示,运用建立的模糊聚类模型进行巷道围岩稳定性分类。
代入公式7,得到初始隶属函数矩阵R。由于权值矩阵是单位化的,所以要对初始隶属函数矩阵R单位化,得到单位化的隶属函数矩阵。
把代入公式8,得到隶属度矩阵。从中可以看出该巷道围岩稳定性的隶属度,I类巷道围岩隶属度为0.0973,II类巷道围岩隶属度为0.1679,III类巷道围岩隶属度为0.2145,IV类巷道围岩隶属度0.3059,V类巷道围岩隶属度为0.2144,最大隶属度为0.3059,从而判定该巷道从属于IV类巷道,属于不稳定较难支护围岩。
3.3 预测巷道顶底板移近量
依照表3,建立巷道顶底板移近量单位行向量U=(30,75,250,500,1200),把行向量U与列向量B代入公式9,预测该巷道顶底移近量U为496.3mm。接近IV围岩顶底板平均移近量500mm,处于400-600mm之间,很大程度上证明了该模型的可靠性。
4 结论
利用影响回采巷道围岩稳定性的7个指标因素,采用模糊聚类理论,建立围岩稳定性分类模型,实现分类的综合评判及巷道顶底板移近量预测,为巷道支护设计提供依据;考虑到顶板岩层节理的影响,以巷道宽度、各岩层强度及厚度、8米内岩层数为基本参数,求得顶板综合强度,采动系数以直接顶厚度与采高比值N量化。采用matlab语言编写,完成系统四大功能模块,实现系统的可视化,方便现场工程技术人员使用。
参考文献
[1] 邓福康.基于人工神经网络的巷道围岩分类与支护参数优化研究[D],安徽理工大学,2009,6.
王存文.基于BP人工神经网络的煤巷围岩稳定性分类研究[D],山东科技大学,2005,5.
[2] 李迎富.潘三深井动压回采巷道围岩稳定性分类及其支护设计[D].安徽理工大学,2006,3-5.
[3] Hurt K. New Development in rock bolting[J].Colliery Guardian,2006,27(7):53-54.
[4] 贺超峰.基于BP神经网络的回采巷道围岩分类[J].矿业工程研究,2012,27(3):6-9.
[5] 刑福康,蔡坫,刘玉堂.煤矿支护手册[M]. 北京:煤炭工业出版社,1998:483-487.
[6] bination of The Boundary Element and Finite Element Methods[J] .Prog in Boundary Element Meth,2004,46(1):3-7.
[7] 王广德.复杂条件下围岩分类研究[J].中国煤炭,2010,23(08):27-29.
[8] 黄其芳.人工神经网络对隧道围岩进行分类的应用研究[J].西部探矿工程,2007,38(5):18-22.