权七小说

三数据的搜集和关键指标的度量(第1页)

天才一秒记住【权七小说】地址:https://www.quanqihao.com

三、数据的搜集和关键指标的度量

banner"

>

在具体检验他们的假说之前,学者们还需要对假说中的关键“变量”

进行合理的度量。

陈冬华等的具体假说(hypothesis)是:诗歌造诣能否反映个人的道德情操。

这个命题中有两个关键的指标,一个是个人的诗歌造诣,而另一个则是个人的道德情操水平。

为了能够从史书中获得相关的数据,研究者们将目光放在了唐朝。

作者们选择用唐朝史书的数据进行检验,主要是出于数据可得性和变量度量的考虑。

“诗歌创作在唐代达到了鼎盛,在史料中保留了丰富的关于诗人行为、道德以及诗歌创作的记录”

“之所以择唐而弃宋,原因有三个。

一是因为唐代更加注重诗作,诗人灿若辰星,而宋代显然更加重视词作,当然,词也是诗的一种形式,但是词的意境也是自苏轼之后才渐至开阔,并且词始终没有作为科举考试的内容。

二是宋代经靖康之耻,分为南北两宋,使得研究的环境因素变得更加复杂。

三是因为宋代在王安石主政时,在科举中取消了诗赋考试。”

[11]

在数据搜集和度量的过程中,作者们首先解决了如何度量诗歌造诣的问题。

个体在诗歌造诣方面的度量可能有很多种办法。

陈冬华等首先选取了一个具体的比较客观的方法。

作者们将入选《唐诗三百首》作为诗歌造诣的最高层次。

这意味着,在他们的样本中如果一个人的诗歌入选了《唐诗三百首》,他的造诣就被定义为1,否则就定义为0。

“《唐诗三百首》由蘅塘退士孙洙选编于清乾隆二十八年(1763年),是近250年来流传最广、影响很大的一部唐诗选本。

诗选收录诗人77名、唐诗313首,诗选中所收录的诗被认为在文学上具有极高的艺术价值。”

[12]

从这样的度量方法中可以看出,即使是“量化”

的方法,也存在很多不可避免的主观因素。

诗歌造诣是一个很难准确度量的因素,有些很出彩的诗歌并不一定会被《唐诗三百首》引用,而被《唐诗三百首》引用的也未必就一定比没有引用的要好。

正如其他“数字人文”

的研究中遇到的问题一样,在运用量化方法的时候,研究者没有办法百分百客观地剔除掉所有主观的因素。

而研究者可以最大限度剔除掉的就是通常所谓的“系统性”

误差。

具体来说,在陈冬华等的研究中,他们用《唐诗三百首》的是否收录来度量诗人的诗歌造诣,是基于下面这么一个基本的原理:从统计意义上来说,被收录进《唐诗三百首》中的诗歌相比于其他的诗歌更受欢迎。

在这里,我们强调的关键词是“统计意义上”

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

武动之武祖再临女主角是怎样练成的洪荒第一鸦我在天庭做仙官第九特区爆笑宠妃:爷我等你休妻豪门撩婚之娇妻请上位囤货重生,娇知青在七零被糙汉宠爆了邪气凛然灭运图录异化武道我靠赚差价暴富了超凡大卫在生存游戏做锦鲤重生七零:娇妻慢慢哄,军王步步宠仙路争锋哑妻不怂,总裁宠上瘾英雄学院之最强个性出狱了,大哥带我挥金如土黄泉摆渡人开局操作蝙蝠侠九天神王玄天武帝铁血残明之南洋崛起三国之单身狗怒开无双