阅读 · 写作 · 教育 · 思想 · 文艺
感受语文之美 , 播撒读写菌芝
基于人工智能的大数据分析技术已经在生活、科研中得到广泛运用,典型事例如梅西百货公司的实时定价机制、京东的用户画像技术等,据说还有些公司运用大数据技术“杀熟”,也做得毫不手软……
嘿嘿,大数据啥不能干啊!
最近,又有一些社科学者将其运用到文科的研究中,文科研究也拥有了崭新视角。有专家运用语义分析技术,对《全唐诗》进行深度的文本数据分析,发现了一些藏在诗歌中的有趣秘密。
《全唐诗》,是清代康熙年间编校的一本唐诗合集,收录二千二百余名诗人的四万八千九百余首诗作。
在大数据分析下,隐藏在这近五万首诗歌中的秘密浮出水面。
1.
谁是高产诗人?
以唐代诗人名字为关键词,进行大数据分析,看看谁的作品最多。在前十名中,竟发现了好几个陌生人:
白居易、杜甫、李白夺取前三名,估计谁也没有意见。
第4名“无名氏”,也可以理解,毕竟唐代是诗歌的黄金时代,肚子里有点墨水的文人就要吟上几句诗,只知作品不知作者也不是怪事。
另有两位名为“齐己”和“贯休”,这俩很有佛性的名字,对多数人来说都会感到陌生,如果不是大数据把两位的大名亮出来,很多读者都不会关注他们。
他俩是何许人呢?
齐己(863年—937年),晚唐著名诗僧,湖南长沙人,一生经历了唐朝和五代中的三个朝代。
关于齐己和尚,有个典故大家一定知道。据传,他“尝以《早梅》诗谒郑谷,谷改其'昨夜数枝开’为'昨夜一枝开’,遂拜谷为'一字师’。”
据说,齐己长得很有特点,颈上有一痈瘤,加上他诗作高产,时人戏谓之“诗囊”。
贯休(832~912),也是历经好几个朝代(唐、五代、前蜀)的诗僧。他有名诗:“一瓶一钵垂垂老,万水千山得得来”,时称“得得和尚”。
齐己、贯休,都是僧人,加上处于唐末乱世,人们忙于避乱,没有心情吟诵诗歌。因此二人写了这么多诗歌,却并不知名,直到被高科技硬硬地揪出来。
2.
哪个字是高频用字?
假如不是大数据分析,恐怕谁也不会想到,唐诗中使用最多的一个字,竟然是“不”字!
这?……不会吧!
不过,仔细想来,唐诗中还真是处处有“不(莫)”,且看李白《将进酒》:
君不见,黄河之水天上来,奔流到海不复回。
君不见,高堂明镜悲白发,朝如青丝暮成雪。
人生得意须尽欢,莫使金樽空对月。
……
岑夫子,丹丘生,将进酒,杯莫停。
与君歌一曲,请君为我倾耳听。
钟鼓馔玉不足贵,但愿长醉不复醒。
也许,一个“不”字,最能见出诗人的任性与不羁;也许,诗句中有了否定词,前后内容可形成转折顿挫,表达的情感更浓烈,所以流传甚广。
除“不”之外,列入高频字前10名的虚词还有“无”与“何”字,它在诗中的作用与“不”字有异曲同工之妙。呵呵,以后读写菌写诗 ,一定用上这仨字。
其余的多是意象了:人、山、风、日、云、春、花……
以下为重要字出现频率排名:
3.
哪个季节最入诗?
春夏秋冬,季节轮换。哪个季节,是古人最喜欢的呢?
我们用大数据分析《全唐诗》,发现四个季节依次排序为:
春、秋、夏、冬。
其中,“春”字出现19806次,“秋”字出现13946次,远远超过夏(2624次)和冬(1218次)。
这当然很好理解。
首先,春秋两个季节,景色美不胜收,每个场景都可入诗入画。黄鹂翠柳,白鹭青天;霜叶红透,秋波浩渺;鸿雁穿过白云,促织长鸣屋后……如此美景,即使不是诗人,也会触目生情。
其次,春秋两季,自然景观变化剧烈,最能引起诗人对生命、时间的思考。花开花落,叶生叶飞;草长草枯,雁去雁归……诗人面对这些情景,极易产生联想,或为时光飞逝、人生易老感叹;或为离家万里、壮志难酬伤感……
冬夏两季,景色并非不美,但气候委实令人难耐。冬天寒风刺骨,食物缺乏;夏天白日炎热,晚上又有蚊虫叮咬。身体都不舒服,哪有心情写诗?
4.
哪种颜色最入眼?
再来看看诗人喜欢哪些颜色:
第一自是“绿色系”(含绿、碧、青、翠等)
第二竟为“白色系”(含白、素、皎、皓等)
第三则为“红色系”(含红、丹、朱、赤、绛等)
在唐诗中,写景抒情诗占了很大比例,而“绿”“碧”“苍”“翠”等大都用于写景,
“绿树”“碧水”“苍松”“翠柳”等,都是写景诗描写的重要对象,绿色系的字自然成为常客。
“白”字出现多,应有两个原因。
一是纯净的白色讨诗人喜爱,“白云生处有人家”“白银盘里一青螺”“白雪却嫌春色晚”……哪一片白,不令人感觉清灵?
二是白色可渲染出韶华易逝的悲凉气氛,这正是最能触动诗人的情绪。“君不见,高堂明镜悲白发,朝如青丝暮成雪”“白头宫女在,闲坐说玄宗”“春风正淡荡,白露已清泠”……哪一丝白,不令人倍觉伤痛?
5.
哪个地方房价高?
如果唐代诗人买房,哪里的房地产市场最火爆呢?
《全唐诗》中,排名前五的地名是:
江南——417次
长安——335次
洛阳——229次
长沙——139次
江城——138次
美丽的江南、繁华的长安是当时的一线城市,相当于今天的上海和北京,房价一定不低。
韦庄喜欢江南:“人人尽说江南好,游人只合江南老。春水碧于天,画船听雨眠。”
白居易喜欢江南:“江南好,风景旧曾谙;日出江花红胜火,春来江水绿如蓝。能不忆江南?”
杜牧喜欢江南:“千里莺啼绿映红,水村山郭酒旗风。南朝四百八十寺,多少楼台烟雨中。”
江南有诗人浪漫的故事,长安呢?那里有诗人的梦想。
那是“春风得意马蹄疾”的长安,那是“绝胜烟柳满皇都”的长安 ,那是“满城尽带黄金甲”的长安,那是“莫愁前路无知己”的长安……
6.
诗人最易动何情?
如果把诗歌表现的情绪分为七种:
悲:愁、恸、痛、哀、伤、嗟…
惧:谗、谤、患、罪、诈、惧…
乐:悦、欣、乐、怡、洽、畅…
怒:怒、雷、吼、霆、霹、轰…
思:思、忆、怀、恨、吟、期…
喜:喜、倩、贺、好、良、善…
忧:恤、忧、痾、虑、艰、厄…
这些情绪在《全唐诗》近5万首诗中所占比例如下:
我们可能以为,代表大唐气象的唐诗应该是积极昂扬的,可实际情况是,“悲”情在其中占比最大。
也许,这和诗人的多愁善感有关,或者说,诗人高兴时,常常会忘了写诗;而在忧伤时,才会以诗言志。
春天到了,诗人会伤春;秋天来了,诗人要悲秋;别离时,劝君更尽一杯酒,西出阳关无故人;思乡时,羌笛何须怨杨柳,春风不度玉门关……
印度诗人泰戈尔说过:“和你一同笑过的人,你可能把他忘掉;但是和你一同哭过的人,你却永远不忘。”也许,这就是悲伤的力量吧!
7.
大数据下的唐诗排行榜
大数据分析唐诗被引用、评论的次数,我们可以得到一个排行榜,我们列出前十名,不知和你心目中的标准是否对应?
1.崔颢《黄鹤楼》
2.王维《送元二使安西》
3.王之涣《凉州词》
4.王之涣《登鹳雀楼》
5.杜甫《登岳阳楼》
6.柳宗元《登柳州城楼寄漳汀封连四州刺史》
7.孟浩然《临洞庭湖赠张丞相》
8.常建《题破山寺后禅院》
9.王勃《送杜少府之任蜀州》
10.李白《蜀道难》
您可以想一下,这10 首诗中,有多少“不、人、山、风”,有多少“日、云、春、花”;又有多少首写春秋,多少首有到“绿、白”二色?
站在科技与文艺的交叉路口,用大数据来分析唐诗,原来竟有这么多秘密!
不知下一个交叉路口,通向何方?
联系客服