update:2022.4.10
实现了必应的搜索功能,就是上课的html再改了一下
作为数学系的同学,已经很久没有见过“文本为主”的中文文章了。所以就把人物关系图做成了一个图文教程。
三体词云图升级版,人物关系图。 用上课讲的方法搜其实会有一些遗漏,因为对话的时候A一句B一句并不会被认为A、B有关系,但没有什么好的处理方法,本着宁缺毋滥的原则就选择不做额外添加了。手动添加自然可以,那就和咱们学的没什么关系了。
思来想去还是选择了做人物词云,思来想去还是选了三体三部曲。
只显示了出现频次大于15的人名,不包括秦始皇等代号,进行了一些人名归并(如史队=史强=大史)
将jieba库应用在三体上,有2919个词出现了15次及以上,用ignore_list显得有些呆,就直接人工筛人名了
有一点麻烦的就是很多人名会被切开,例如云天明被切成云/天明,东方延绪被切成东方/延绪。
前者还好处理,只要识别天明即可,后者……章北海一直都直接叫“东方”,只好人工处理
画了一个东京奥运会的奖牌榜的分布图。
原来打算只画金牌的,后来觉得symbol的圆形特别像奖牌,一时兴起就把三个都弄了。
不料经过查阅官方文档,symbol染不了色,三个一样不太美观,最后决定不予显示。
有一点不太直观的地方在于,奖牌数量极差太大,欧洲很多国家又很小,染色效果一般
数据源自手游明日方舟某次卡池大约700w次的抽卡记录,通过频率估计概率的方式探究 触发特殊概率机制(50抽)之后未公布的概率分布。
数据处理过程不是重点,忽略。
最开始画了一张频率随抽数变化的折线图,但发现相比用组合图标,把4种线花在一起更直观。
最后选择画了一系列饼图。这个时候用timeline就很合适了