基于读者笔记数据动态生成图书精缩本研究

2017-03-02 18:10严志永
出版广角 2016年24期

【摘要】数字内容动态重组是满足当下碎片化阅读需求的一种重要手段,制作图书精缩本是一种内容重组方式。本文在分析当前图书精缩本现状的基础上,将用户思维引入图书精缩本的制作中,提出了一种基于读者笔记数据动态生成图书精缩本的方法。在散文集《看见》上的应用表明该方法能够动态生成图书摘录本并能够提高读者的阅读效率。

【关键词】笔记数据;动态重组;图书摘录

【作者单位】严志永,北京印刷学院,清华大学新闻与传播学院博士后流动站。

【基金项目】中国博士后科学基金项目(2015M581006号)。

碎片化阅读已成为现代社会阅读的主要方式[1],人们利用大段时间阅读大部头图书的机会逐渐减少。读者在阅读一本书时大量的时间其实是花在过滤信息以寻找自己感兴趣的内容这一环节上。戴盈指出在数字化时代,为了降低阅读的时间成本,我们需要将选书时间压缩并且减少误读图书的时间[2]。降低读者的阅读时间成本不仅需要读者提高内容选取技巧,也需要内容提供方运用用户思维来帮助读者选取内容。

数字内容动态重组是满足碎片化阅读的一种方法。数字内容动态重组通过对内容进行最大限度的聚合与重用,生成多元化、个性化产品来充分发挥内容价值,满足读者的需求[3]。数字内容动态重组系统一般基于领域词表、领域本体等语义知识建立,工作量很大,在现实中推广这种方式有一定的难度。

图书精缩本是内容重组的一种可选产品形式。精缩本图书在我国有很长的历史[4],现在图书市场上仍有大量的精缩本图书在出售,这其中既有纸质图书也有专门的电子版精缩本。本文拟在分析现有图书精缩本的基础上将用户思维运用到图书精缩本的生成中,即根据读者笔记数据和读者的阅读时间自动生成动态图书精缩本以帮助读者进行碎片化数字閱读。

一、图书精缩本现状

现在市场上的图书精缩本主要有缩写本和摘录本两种形式。缩写本是在把握全书内容的基础上以更短小的篇幅来重写全书的内容,摘录本是对全书内容进行摘录。缩写本的优势是能使读者以较小的篇幅和较少的阅读时间来了解大部头著作的内容,不足之处是无法保持原著语言的魅力[4]。摘录本的优势是能够保存文字的原貌,不减弱内容的原有魅力,不足之处是较难把握原书的全貌。

名著缩写本在我国很受欢迎,有代表性的作品当属外语教学与研究出版社出版的“书虫”系列双语读物、各出版社推出的名著缩写本和“罗辑思维”团队研发的“得到APP”。

“书虫”系列双语读物包括7个级别、15个套装、149册图书,适龄读者涵盖小学高年级、初中、高中和大学一年级新生,主要用于英语学习。该系列获得了巨大的成功,自1997年推出至今,销量超过6000万册[5]。根据开卷数据,在2013年前三季度英语读物类图书排行榜TOP100中,有68种出自“书虫”系列[6]。

除了单部文学名著的缩写本,市场上还有一类文学名著缩写集,这类图书通常囊括几十部甚至上百部文学名著,但每一部名著都被压缩成几页的篇幅。一个典型的例子是四川辞书出版社于2007年出版的邓双琴编著的《世界一流文学名著精缩》。该书以378页的篇幅囊括了《荷马史诗》《神曲》等90部世界名著。

缩写本在数字出版领域也有应用,如“罗辑思维”栏目组推出的“得到APP”中的“干货图书”功能。“干货图书”主打减少读者阅读时间的功能。以《世界为何存在》一书为例,该书原文有28.2万字,“得到APP”提供的干货图书只有0.6万字,为原书长度的1/47,显然能为读者节省大量的阅读时间。“得到APP”中也注明能够为读者平均节省4.6小时的阅读时间。

图书摘录本在图书市场上也较常见,典型的例子如北京师范大学出版社出版的“当代哲学经典”系列丛书。该丛书包含《逻辑学卷》《中国哲学卷》等八卷。其基本体例是从学术大家的著作中选取具有代表性的文章,加上编者写的作者简介和文本简介。以《逻辑学卷》为例,里面选取的王浩先生的两篇文章分别选自《逻辑之旅:从哥德尔到哲学》和《数学哲学》二书。为了克服摘录本的不足,书中提供了作者简介和文本简介,以使读者获得相关的背景知识。

缩写本更适合以小说为代表的连续型作品,能够帮助读者了解作品的全貌;摘录本更适合以散文集和论文集为代表的离散型作品,能够帮助读者对单篇文章有更深入的了解。

现有的图书精缩本有两点不足。首先,主要靠专家来完成,专家需要在通读全书的基础上对图书进行缩写或摘录。这种方法一方面成本非常高,另一方面精缩本质量也在很大程度上取决于专家的水平。事实上,名著缩写本已经引来学者的批评[7][8]。其次,一旦生成就无法更改,无法为不同的读者提供不同的精缩本,也无法根据读者阅读兴趣的变化生成不同的版本。

纸质书一旦出版就基本固定下来,想要出新版,成本非常高,并且较难为不同的读者生成不同的精缩本版本。数字出版与传统出版有很大的不同,一方面较容易及时跟进读者需求对图书精缩本进行调整,另一方面也较容易为不同的读者生成不同的图书精缩本。本文的研究就是为数字阅读读者动态生成图书精缩本。

二、用户思维

用户思维是互联网思维中非常重要的一种思维,也为出版领域的学者们所重视。方莉指出,数字时代编辑最需要的四种互联网思维中第一种就是用户思维,在出版行业,用户思维就是读者思维,也就是要努力挖掘读者的同情感、参与感和体验感,图书要满足读者的心理和自我实现的需要,要有契合时代的文本和话题[9]。盛瑨和张殷博指出,用户思维的重点是传播理念的转变,要改变过去“传者中心,以我为准”的心态,贴近受众,关注受众的需求[10]。罗小卫和程辉指出,出版业的用户思维就是读者思维,与工业时代的单一化、标准化思维模式有着本质的差异,读者的话语权应受到重视[11]。

前述图书精缩本在编辑时实际上并未很好地体现用户思维。在对图书进行缩写或摘录时,专家所依靠的是自己对图书内容和读者需求的理解。由于很难在第一时间接触到读者,他们对读者需求的把握很可能会出现失准。要想使图书精缩本这种图书形式在市场上引起更大的反响,需要将用户思维运用到编辑实践中。

爱奇艺公司在视频播放领域对用户思维进行了大胆的探索。一般来说,导演在编辑视频时无法知道观众的需求,对情节的取舍也需要依据自己的经验。针对此情况,爱奇艺推出了“绿镜”功能[12]。该功能在对视频观看数据进行大数据分析的基础上,将用户喜欢的精彩内容摘录出来形成最受观众关注的“精华版”视频。根据报道,该功能可使用户在30分钟内看完原长90分钟的《爸爸去哪儿》等节目,已至少有20万人次使用该功能观看《爸爸去哪儿》[13]。爱奇艺“绿镜”功能所做的实际上就是视频摘录的工作,因此其思想也可以应用到图书精缩本的制作过程中。

要实现数字内容动态重组,无疑需要读者的阅读行为数据。爱奇艺“绿镜”利用的是收集到的用户观看视频时快进或快退播放的大数据[14]。不论是电子书阅读器,还是智能手机上的阅读APP,数字阅读产品一般都会提供笔记功能,这些笔记数据可以作为生成图书精缩本的依据。

三、图书精缩本的自动生成及在数字阅读中的应用

图书内容的自动选取包含如下三个阶段:(1)对原书内容进行碎片化;(2)对读者笔记数据进行单元化;(3)根据碎片化的内容和单元化的笔记数据生成动态的图书摘录本。

在对原书内容进行碎片化时,粒度的选择非常重要。如果粒度太粗,则较难达到摘录图书以减少读者阅读时间的目的;如果粒度太细,图书被分割后内容单元会非常多,则需要更多的读者笔记数据来进行选择。笔者建议粒度的选择可以根据笔记数量的多寡来动态调整,随着笔记数据的积累,粒度可以做到越来越细,图书内容的摘录相应会越来越准确。

读者笔记数据的单元化指将笔记映射入碎片化后的内容单元中。在对纸质书做笔记时一般会定位到页码,而在数字出版中,很多图书以流式进行阅读,并且会根据设备屏幕来调整行数和列数,已经沒有了页码的概念。对读者笔记数据进行单元化就是将纸质书笔记的页码和数字阅读中的精确位置映射到第一阶段所生成的碎片化单元中。碎片化后各个单元内的读者笔记数量往往不同,严志永对此进行研究后发现读者笔记一般集中在图书的前20%[15]。

第三阶段就是根据各碎片单元的笔记比例来生成图书的摘录本。具体方法如下:(1)将碎片单元按照笔记比例排序;(2)根据读者的阅读需求选取笔记比例靠前的多个单元;(3)将选取的这些单元按照原书顺序排序后发给读者。

这种摘录方法既可以应用于前文提到的离散型图书,也可以应用于连续型图书。当应用于散文集和论文集等离散型图书时,可直接生成图书的摘录本;当应用于小说等连续型图书时,当前还需要人工提供全书的脉络,以将各个碎片单元串联起来。

数字内容提供方既可以直接将该方法生成的图书精缩本出售给读者,就像“得到APP”所做的那样;也可以在读者购买电子版全书之后作为附加服务提供给读者,以此作为特色来增加平台的用户黏性。当前数字内容平台差异化不明显,提供该功能有助于提高平台的竞争力。

四、以豆瓣笔记生成图书摘录本实证研究

豆瓣网于2011年1月推出了豆瓣笔记功能,并于2012年5月推出了豆瓣笔记APP,目的是方便豆瓣读者在阅读纸质书时做笔记。豆瓣笔记中包含页码、笔记等信息。得益于豆瓣网的众多读者,豆瓣笔记积累了大量的笔记数据。

本文以《看见》为例,研究如何根据读书笔记生成图书摘录本。首先将《看见》按照篇章划分为若干碎片化单元,其次将豆瓣读书笔记的相关根据页码映射到相应的碎片化单元即图书内容中,最后在统计比例数量的基础上动态生成图书摘录本。

柴静的畅销书《看见》于2013年1月由广西师范大学出版社出版,共有424页,230千字。截至2015年6月17日,该书在豆瓣网上共有读者22967名,读书笔记13375条。《看见》是由序言、20篇散文和后记组成的散文集。在这22篇文章中,前言和后记各只有2页,因此本文仅研究其中的20篇散文。

将这20篇散文按照笔记比例从高到低排序,并取排名前5位的散文(由于篇幅限制),得到表1。

表1 《看见》中笔记条数多的散文

排序 章 标题 页数 笔记比例

1 第一章 别当了主持人就不是人了 20 13.10%

2 第十章 真相常流失于涕泪交加中 20 10.59%

3 第十七章 无能的力量 36 7.80%

4 第五章 我们终将浑然难分,像水溶于水中 18 7.29%

5 第二章 那个温热的跳动就是活着 20 6.84%

从表1可知,豆瓣读者笔记在《看见》一书各章中的分布并不均衡,实际上有7章的豆瓣笔记比例超过平均值5%。动态生成的《看见》摘录本的应用方法如下:

(1)如果读者只有阅读一章的时间,则数字内容提供方可仅向读者提供第一章。该章仅有20页,占20章总共405页的4.94%,一般读者阅读完该章用时不超过20分钟,笔记比例却高达13.10%。

(2)如果读者有阅读五章的时间,则数字内容提供方可仅向读者提供第一章、第二章、第五章、第十章和第十七章。上述五章共114页,占20章总页数的28.15%,笔记比例则高达45.62%。

通过上述对《看见》生成摘录本的分析可知,本文提出的方法能够显著提高这类散文集读者的数字阅读效率。

五、总结与展望

本文将用户思维应用到数字内容动态重组中,提出了一种使用读者笔记数据自动生成图书动态精缩本的方法,该方法能够生成包括缩写本和摘录本两种形式的图书精缩本。本文基于豆瓣读书笔记数据为《看见》自动生成了动态的图书摘录本,结果表明该方法能够根据读者的碎片化阅读时间动态生成图书摘录本,从而大大提高读者的阅读效率。

数字内容的动态重组对数字出版而言是一个非常重要的问题。数字内容提供方可以在掌握读者阅读行为数据的基础上为读者提供个性化的知识和服务。如果能够通过读者的阅读数据得到读者阅读某一类内容的速度,那么读者只需要提供即将阅读的图书和自己拥有的阅读时间,本文提出的方法就能够使数字内容提供方提供更精准长度的内容,读者会得到更好的阅读体验。

本文提出的生成图书精缩本方法既能应用于散文集等离散型图书生成摘录本,也可应用于小说等连续型图书生成缩写本。为连续型图书生成缩写本无疑要比为散文集生成摘录本更难,有待于未来进一步地去解决。

[1]黄张活. 碎片化阅读趋势下传统图书馆面临的机遇与挑战[J]. 图书馆学刊,2016(2):33-35.

[2]戴盈. 数字化时代读者的选书智慧和阅读兴趣图谱构建[J]. 中国出版,2014(5):40-44.

[3]万智. 市场驱动下的出版内容动态重组模式思路[J]. 出版发行研究,2016(4):40-43.

[4]陆琳. 谈文学名著缩写本[J]. 信息系统工程,2010(10):134.

[5]勃朗特. 书虫·牛津英汉双语读物:6级 [M]. 韦斯特,江红,译.北京:外语教学与研究出版社,1997.

[6]杨毅,秦洁. 英语类图书零售市场分析[J]. 出版人, 2013(12): 50-51.

[7]王涛. 名著缩写值得商榷[N]. 光明日报,2004-09-01.

[8]司葆华. 风干的名著[J]. 成才之路,2008(34):91.

[9]方莉. 刍议数字时代下编辑的互联网思维[J]. 出版广角,2015(6):25-27.

[10]盛瑨,张殷博. 纸媒数字化转型中的互联网思维应用[J]. 出版广角,2015(15):32-33.

[11]罗小卫,程辉. 互联网时代图书选题策划创新[J]. 出版广角,2016(12):49-51.

[12]任捐献. 大數据时代网络视频网站的发展——以“爱奇艺”为例[J]. 新闻世界,2014(5):102-103.

[13]TechWeb. 爱奇艺推“绿镜”视频编辑功能 民意决定内容组合[N/OL]. (2013-11-27). [2016-10-20]. http://www.techweb.com.cn/internet/2013-11-27/1363246.shtml.

[14]爱奇艺. 爱奇艺上线“绿镜” 依靠大数据解构视频内容[N/OL]. (2013-11-26). [2016-10-20]. http://www.iqiyi.com/common/20131128/13875261ad970a12.html.

[15]严志永. 基于豆瓣笔记的纸质书读者阅读行为研究[J]. 科技与出版,2016(4):76-79.