• Tag Archives: O’Reilly

O'Reilly动物丛书颜色分析

在上次O'Reilly情人节福利文章里提到O’Reilly动物丛书颜色和内容的联系,于是拿到了360本O’Reilly丛书的旧数据,使用Python+networkx+matplotlib进行分析:

按颜色关键词排序
对书名进行分词作为关键词,统计频次排序。这里篇幅限制列出了出现大于1次的keywords列表,很明显动物丛书颜色是有主题的,比如最新的Data Science Kit都是红色封面。

PMS 301C
微软系列
[('.net', 12), ('windows', 10), ('visual', 7), ('basic', 6), ('c#', 6), ('2000', 5), ('essentials', 4), ('excel', 3), ('win32', 3), ('services', 3), ('writing', 2), ('framework', 2), ('server', 2), ('security', 2), ('access', 2), ('macros', 2), ('active', 2), ('language', 2), ('vb.net', 2), ('system', 2), ('word', 2),('asp.net', 2), ('administration', 2), ('transact-sql', 2),('applications', 2)]
PMS 3272C
Web相关
[('web', 12), ('xml', 7), ('mx', 5), ('javascript', 4), ('apache', 4), ('php', 4), ('essentials', 3), ('flash', 3), ('xslt', 3), ('html', 3), ('actionscript', 3), ('services', 3), ('practical', 2), ('cd', 2), ('privacy', 2), ('perl', 2), ('bookshelf', 2), ('http', 2), ('applications', 2)]
PMS 313C
神兽Perl
[('perl', 25), ('best', 3), ('journal', 3), ('perl/tk', 3), ('regular', 2), ('graphics', 2)]
PMS 165C
Oracle系列
[('oracle', 31), ('pl/sql', 7), ('sql', 3), ('tuning', 2), ('sql*plus', 2), ('performance', 2), ('database', 2), ('essential', 2), ('dbas', 2)]
PMS 2607C
Java相关
[('java', 33), ('enterprise', 7), ('javaserver', 3), ('javabeans', 3), ('best',3), ('applications', 3), ('practices', 3), ('xml', 2), ('web', 2), ('jdbc', 2),('data', 2), ('struts', 2), ('weblogic', 2), ('vol.', 2), ('servlet', 2), ('pages', 2), ('database', 2), ('jakarta', 2), ('workbook', 2)]
PMS 246C
语言+工具
[('python', 6), ('c', 6), ('c++', 5), ('mysql', 3), ('shell', 3), ('awk', 3), ('gnu', 3), ('practical', 3), ('vi', 2), ('unix', 2), ('sed', 2), ('emacs', 2), ('uml', 2), ('editor', 2), ('sql', 2), ('using', 2), ('embedded', 2), ('cvs', 2),('software', 2)]
PMS 2725C
Mac OS X
[('mac', 7), ('x', 7), ('os', 7), ('unix', 4), ('cocoa', 3), ('geeks', 2), ('panther', 2)]
PMS Reflex Blue
网络通信
[('networks', 4), ('using', 4), ('cisco', 4), ('network', 3), ('internet', 3), ('sendmail', 3), ('system', 3), ('administration', 3), ('samba', 2), ('essential', 2), ('routers', 2), ('802.11', 2), ('dns', 2), ('lists', 2), ('wireless', 2),('protocols', 2)]

orelly

按书名关系可视化

按颜色聚类就没有意义了,所以就按书名建图:如果两本书书名有相同的关键词则连边。把无信息量水词pocket, reference,cookbook, programming, guide, definitive, learning, designing, managing, mastering, building加入stopwords,剩下书名包含的信息量更有限了,每个节点的度不大。

作图用了Fruchterman-Reingold force-directed algorithm,同其他书关系比较多的书将绘制的比较靠近中心,而关系较少的会在相对靠外的位置。可以看出橙色和紫色封面的书有比较好的聚类,因为橙色关键字是Oracle紫色关键字是Java,青色的有Perl系列的,右下粉色的是Python系列。

orelly-with-labels

PS1: 不是统计专业的,也不知道还有什么信息可以挖掘,计算closeness, betweenness, Hub节点在这里ms没有实际意义,再去解下最大团Maximum Clique啥的。
PS2: 要是能找到更全更新的O'Reilly动物丛书数据就好啦!

O'Reilly情人节福利

oreilly

今年情人节O’Reilly给程序猿们也带来了福利:所有粉红色的电子书半价。FOREVER ALONE!

说到O’Reilly出品的动物丛书,程序猿无人不知。这系列书最显著的特点就是封面上手绘的动物,所以也有动物世界/饲养员指南的别名。考据癖有专门一篇文章解疑了为什么O’Reilly用动物形象做书籍封面,原文可见Origin of Species: A History of O'Reilly Animals

设计者Edie Freedman姐姐在设计动物丛书的第一本书时(上图中间),她接触到UNIX、vi、sed&awk、lex、yacc这些不知所云的词,让她觉得这些词都像来自于当时正流行的游戏“龙与地下城”,于是她心目中UNIX程序员的形象就是一个龙与地下城的玩家。Edie在19世纪的木版画中找到了灵感,画中诡异的动物刚好和那些高深的UNIX术语是绝配。还有一件更严肃的事情,出版动物丛书让Edie更加注意到生态问题。很多封面动物已经濒临灭绝,而在版画绘制的时期,这些动物还是大量存活的。O’Reilly也希望他们使用这些动物做封面能够引起人们对动物保护的关注。

关于O’Reilly动物丛书颜色和内容有没有联系,应该是有,不过没有查到具体说明和相似的问题,不过有所有O’Reilly丛书数据,可以根据颜色然后分析关键词,就先在这挖个坑。FOREVER ALONE!

close