本源文秘网为您提供优质参考范文! 思想汇报 党建材料 疫情防控 自查报告 谈话记录 扫黑除恶
当前位置:首页 > 范文大全 > 公文范文 >

基于量子遗传SVM的公共图书馆每日读者流通人次预测模型

时间:2022-12-11 14:00:12 来源:网友投稿

学习算法模型为核心的流通人次预测系统,是人工智能深入参与到图书馆智慧服务中去的一个典型的范例。

1  预测模型

本文所使用的預测模型的主体是支持向量机[1](Support Vector Machines, SVM)。支持向量机的核心内容是从20世纪90年代初开始提出的,是一种较新的基于统计学原理的机器学习算法。SVM相对形成于将近半世纪之前的基于仿生学角度构建的人工神经网络算法,拥有更坚实的数学理论基础,它排除了人工神经网络的“黑盒”问题和先验的模型结构选择问题,不过分依赖样本集的数量及质量,即使在深度神经网络模型得到较大关注的今天,在一些给定条件(如本文所适用的小样本数据)下,仍然具有其独特的优势和价值。

支持向量机的特点[2-3]主要有三个:

(1)遵循结构风险最小化准则

支持向量机是以结构风险最小化(Structural Risk Minimization,SRM)为原则,以训练误差作为优化问题的约束条件,以置信区间的最小化作为优化目标。也即机器学习过程不但要使传统统计学中强调的经验风险最小,还要使VC维尽量小来缩小置信范围,取得较小的实际风险,以此来保证学习机器在解决有限样本的数据分类时具有良好的泛化能力。

(2)支持向量机算法可将一个非凸问题最终转化为一个线性约束条件下的凸优化问题,理论上可保证算法的全局最优性和解的唯一性。

(3)支持向量机在算法内部应用核函数技术,一是将输入空间中的线性不可分问题转化为高维特征空间的线性可分问题,即可求解;二是在一定程度上解决了“维数灾难”问题,其算法复杂度与样本维数无关,而只取决于支持向量的数目。

1.1  标准回归型SVM

SVM是从线性可分情况下的最优分类面算法发展而来的,其基本思想可用两类线性可分情况说明:假设有两类线性可分的数据样本,那么机器学习的结果是得到一个由支持向量划分的超平面,该超平面可将训练样本分为正负两类,即完成了分类。在线性不可分的情况下,可以在约束条件中加入一个松弛项,相应地改变求解目标(分类超平面两类样本中最近样本的距离的和最小),根据核函数存在性定理,找到适合的核函数,即可使训练样本通过该函数映射到高维特征空间的相成为线性可分的。

回归问题[4]和分类问题本质上相同,只是它们的输出的取值范围不同。假定训练样本集为{(,)},i=1,…,}其中∈X=为输入值,∈为对应的目标值,为样本数,表示引入训练集的误差[5]。

=

其中为回归估计函数。为不敏感损失函数,表示允许的训练损失,且:

假设f(x)为如下形式:

f(x)=w+b

其中w为向量w与的内积,w的维数为特征空间的维数,b∈R。根据结构风险最小原则,构造并求解最优化问题:

引入拉格朗日函数,再求解其对偶最优化问题,并引入核函数K:

(2)

核函数K的作用是将训练数据转换到一个足够维度的高维空间中,以此获得线性回归的效果,上式得解:

1.2  量子遗传算法

对一个非线性系统而言,SVM使用泛化能力强的径向基(RBF)核函数是一个常见的选择,此时有两个重要参数的值需要确定:惩罚系数C和径向基核函数中的方差g。

C、g值的确定从本质上来说是一个NP-完全问题,当前有多种方法来进行选取,从比较依赖读图经验的网格搜索法到蚁群算法、粒子群算法、模拟退火算法、遗传算法、引力搜索算法等等。

本文选择的是遗传算法的一种改进型算法:量子遗传算法(Quantum Genetic Algorithm,QGA),算法是将量子计算与遗传算法进行结合,遗传算法中染色体的编码使用量子比特的几率幅来表示,量子比特成为信息的储存单元,再运用量子旋转门实现染色体的更新操作,QGA一般拥有比常规遗传算法更好的局部搜索能力、更小概率的未成熟收敛和随机游走。

2  基于量子遗传SVM的公共图书馆每日读者流通人次预测实验

2.1  影响因素

影响公共图书馆读者流通人次的因素[6]较复杂且有一定的随机性。以嘉定区图书馆为例,观察每日读者流通人次的数据图表,可以发现其一般以7天为一周期,有着明显的周期性波动,且波幅较大,高峰与低谷的数值往往可相差数倍。月度数据以年为周期,同样存在着季节性的波动。

以下,本文将公共图书馆读者流通人次的影响因素按来源划分为馆内因素和外部因素两大类。

馆内因素主要包括了:开放时间长短、存书量、新书上架数量和周期、借阅环境、设施完好度、馆员服务状况、一些突发情况等。

外部因素主要包括了:天气因素(气温、雨雪等)、日期因素(双休日、节假日、寒暑假等)、地理位置因素、读者自身因素、突发事件等。

以上各种因素对读者流通人次的影响,有轻有重,有长期有短期,有直接有间接,还有的随机性较大。

考虑到本文的核心是构建每日读者流通人次预测的通用计算模型,则节日前后、停电等特殊日期应排除在外。一些固定因素如开放时间长短、地理位置等,基本不变,则不应选取。一些难以量化或获取表征数据的因素,如每日馆员服务状况、读者自身因素等,也不应选取。

选取影响因素,一是要与预测目标关联性强且注意本模型短期预测的目的;二是一定要保证能够量化并能获得真实、有效且足够数量的数据。本文最终选择的表征因素为:每日读者流通人次数据、天气(最高气温、最低气温、降水量)、双休日标志。所对应的模型原始数据见下一节数据准备。

2.2  数据准备

本实验所使用的嘉定区图书馆每日读者流通人次(借还书人次)数据,由上海市中心图书馆相关系统平台获取,去除了节日前后等特殊时间段的数据。历史天气(最高气温、最低气温、降水量)数据,由某气象记录网站获取。

經数据检验、清洗后,得到了近3年内共840组每日数据,分为12个字段,先将T+1预测日(明日)的读者流通人次为模型训练、预测的目标:

① 预测日的双休日标志

② 预测日的最高气温

③ 预测日的最低气温

④ 预测日开放时间段的降水量

⑤-⑪ 预测日前1日到前7日的流通人次

⑫ 预测日的读者流通人次

值得指出的是,本实验的目标序列极大值点呈周期性分布,占比较小而与均值之间的相对距离却较大,因此在模型测试集的检验过程中,测试数据数量不宜太少,这样才能更贴近长期预测的真实效果,否则将可能出现预测精度伪高(预测模型精度高、实际预测系统精度低)的情况。同时,如能确保较多组的跨季的测试集数据,则可以检验某些中

长期(季节)因素少量变化后预测模型的适应能力,若日后构建实际应用的预测系统,模型中长期的预测稳定性是至关重要的。为此,本文选用数据集的前740组作SVM模型训练用,而(近期的)后100组作为模型测试数据。

2.3  数据归一化

因数据集中存在奇异样本数据,为消除其量纲影响,使计算结果能较好地回归,必须进行归一   化操作。数据集进行归一化操作的数值范围限定   为[1,3]。图1为每日读者流通人次数据的归一化  图形。

图1  每日读者流通人次数据归一化后图像

Fig.1  Normalized image of daily reader circulation data

2.4  特征选择

本文采用递归特征消除[7][8](RFE:Recursive Feature Elimination)来对数据集的特征进行重要性的排序。方法如下:首先选定一个算法,以此算法训练模型,去掉得分最小的特征,再用剩余的特征再训练模型,如此重复,最终给出特征重要性的排序。

根据经验,相对于特征数,本实验的数据组数足够多而质量较好,则无须经过正则化处理也可获得很好的RFE稳定性,只是可能要注意关联特征的问题。

经过RFE计算,得到数据集11个特征变量重要性的排序(从大到小),见表1。

如表1所示,影响流通人次的各项因素中,预测日的气温状况、当日是否为双休日是两个主要因素,而当日最低气温的影响比最高气温更大。因为存在着周期性因素,7天前的读者流通人次数据是一个很重要的参考指标。预测日之前1到6天的读者流通人次数据的重要性则较低。而预测日开放时间段降水量的影响最小,这表明至少对嘉定区图书馆而言,一般情况下,开放日是否下雨对读者会否到图书馆来借还书的影响性不大。

表1  数据集特征的重要性排序

Tab.1  Sorting the importance of data set features

RFE排序 特征

1 预测日7天前的流通人次

2 预测日的最低气温

3 预测日的双休日标志

4 预测日的最高气温

5 预测日2天前的流通人次

6 预测日1天前的流通人次

7 预测日6天前的流通人次

8 预测日4天前的流通人次

9 预测日3天前的流通人次

10 预测日5天前的流通人次

11 预测日开放时间段的降水量

在之后进一步的模型运算中,尝试对特征消减后的预测效果进行了多次分段实际检验,发现去除预测日之前1到6天的流通人次及降水量的特征会使预测效果略有下降,而保留所有11项特征时,预测效果更佳,对此判断在这7个次要特征中,存在某种形态的隐变量对模型发生轻微作用(可能隐含某些中长期影响模式)。引入这7个特征,并不损伤或可增加模型的鲁棒性,故此最终决定在模型的数据集中保留所有11项特征。

2.5  量子遗传算法(QGA)对SVM超参数的寻优

QGA[9-10]的具体算法如下:

(1)生成包含一定数量个体的初始种群,每个个体有一串染色体,染色体的表达采用量子位的方式。

(2)种群采用概率幅的形式繁衍下一代(染色体),并用评价函数保留最优个体,如满足停止条件则停止计算,否则采用量子旋转门对种群进行更新后循环这一步。

量子遗传算法的参数选择:

本实验在经验参数附近、对数据集进行了多种分段,在此基础上又进行了多次计算,以排除小概率的早熟或停滞现象及确定最佳参数。

最终选定的QGA参数为:最大遗传代数:200,种群大小:160,单个变量的二进制长 [40 40]。

采用以上参数构造的QGA模型的进化过程见图2。

QGA为SVM的超参数C、g寻优的最终计算结果如下:

最优解C = 0.99658,g = 0.11421

2.6  SVM模型训练及测试

将QGA超参数寻优获取到的最优C、g数值代入SVM算法,使用训练集740组数据进行训练后,拟合情况如图3。

图2  进化曲线

Fig.2  Evolution curve

图3  SVM训练集拟合图形

Fig.3  SVM training set fitting graphics

之后,使用训练得到的SVM模型进行测试集100组数据的实际检验。

测试集的预测效果如图4和图5。

模型训练集、测试集总的回归计算检验结果如表2。

可以看到,此次基于量子遺传SVM模型的预测实验,在实际影响因素复杂、目标数据波动幅度较大、测试时间序列较长的情况下,仍获得了较好的预测效果。如图5所示,81%的预测点的百分    比误差在15%以内。此次实验测试集数据的预测   准确率(1-MAPE)为90.44%,平方相关系数R为96.07%。

图4  测试集回归验证图形

Fig.4  Test set regression verification graphics

图5  测试集预测结果的百分比误差

Fig.5  Percentage error of test set prediction results

表2  训练集与测试集的拟合结果

Tab.2  Fitting results of training set and test set

平均绝对百分误差 MAPE(%) 平方相关系

数R(%)

训练集 9.25 95.47

测试集 9.56 96.07

以上是对T+1预测日(明日)的读者流通人次建模的预测结果。之后重新以相似方法建模,对预测日为T+2(后天)、T+3(大后天)的读者流通人次进行预测(此时,预测日的前一至二日的读者流通人次为未知数,而预测日的天气状况视为已知)。实验结果表明,训练后得到的模型,预测准确率并未明显降低,均接近90%,见表3,显示采用此方法建构的预测模型适应性较强,预测效果较为稳定。

表3  三日预测效果对照

Tab.3  Contrast table of three-day prediction effect

平均绝对百分

误差MAPE(%) 平方相关系

数R(%)

T+1 训练集 9.25 95.47

测试集 9.56 96.07

T+2 训练集 9.08 95.74

测试集 10.08 95.86

T+3 训练集 9.40 95.63

测试集 10.16 95.65

3  结语

本文在全程贴近实际目标预测系统构建的指导思想下(适用、稳定、准确),以量子遗传SVM算法为核心,构建数学模型,对公共图书馆的每日读者流通人次进行短期预测,获得了较好的预测效果。

模型的数据实例来源于上海市嘉定区图书馆。建模步骤如下:首先对影响嘉定区图书馆每日读者流通人次的因素进行分析和筛选,而后采集、量化、清洗选定的因素数据,获得近3年内840组可用数据(包含11个特征字段),划分为训练集和测试集。接着将所获数据集进行归一化操作,使用RFE进行特征选择,而后使用量子遗传算法(QGA)对支持向量机(SVM)的超参数C、g进行寻优。模型以预测日(三日内)的读者流通人次作为训练目标,使用训练集数据进行SVM模型训练,训练完成后,加载此SVM模型对测试集数据进行了预测效果的检验。结果表明,采用此方法建立的模型,预测未来三日内读者流通人次,其总体预测准确率可达90%左右,有着较好的预测效果。

从模型选择、影响因素分析、数据采集、特征筛选到预测效果的评价,本文从始至终保持贴近实际预测系统的构建。如预测模型所使用特征数据,均为可获取或提前获知的数据:读者流通人次的历史数据一般可由相关流通系统的数据库获取、预测日的天气数据(最高气温、最低气温、降雨量)可从天气预报中获取。节假日等特殊时间段的预测虽然不在本文论及范围之内,但可以本模型预测数据为基准,辅以传统统计学方法,分析、考量其变动,便可进一步对特殊时间段的流通人次进行自动化预测。

一个全自动的、稳定且高精度的以机器学习算法为核心的每日读者流通人次短期预测系统的建立,将有效地提升图书馆智慧服务的层级,是人工智能深入参与到图书馆智慧服务中去的一个典型的范例

参考文献

[1]张学工. 关于统计学习理论与支持向量机[J]. 自动化学报, 2000, 26(1): 32-42.

[2]祁亨年. 支持向量机及其应用研究综述[J]. 计算机工程, 2004, 30(10): 6-9.

[3]丁世飞, 齐丙娟, 谭红艳. 支持向量机理论与算法研究综述[J]. 电子科技大学学报, 2011, 40(1): 1-10.

[4]冯振华, 杨洁明. SVM回归的参数选择探讨[J]. 机械工程与自动化, 2007, (3): 17-18, 22.

[5]潘妍, 孙立民, 马晓燕. 一种支持向量机的动态自适应加权算法[J]. 烟台大学学报(自然科学与工程版), 2009, 22(4): 282-285

[6]费巍, 徐军. 公共图书馆读者流量影响因素研究[J]. 山东图书馆学刊, 2012, (2): 56-58, 64.

[7]游伟, 李树涛, 谭明奎. 基于SVM-RFE-SFS的基因选择方法[J]. 中国生物医学工程学报, 2010, 29(1): 93-99.

[8]吴红霞, 吴悦, 刘宗田, 等. 基于Relief和SVM-RFE的组合式SNP特征选择[J]. 计算机应用研究, 2012, 29(6): 2074- 2077.

[9]葛继科, 邱玉辉, 吴春明, 等. 遗传算法研究综述[J]. 计算机应用研究, 2008, 25(10): 2911-2916.

[10]梁昌勇, 柏桦, 蔡美菊, 等. 量子遗传算法研究进展[J]. 计算机应用研究, 2012, 29(7): 2401-2405.

推荐访问:量子 遗传 流通 模型 读者