是这样的:我们要做研究性学习。我的选题是『从数学分析看《红楼梦》的作者》。
我的方法是,抽取 505050 个和故事情节无关的虚词,并将全书随机拆散成 kkk 块。两两比较。如果这 505050 个虚词中,有超过 50p50p50p(其中 ppp 是参数)个虚词均 有关 (至于怎么检验相关,还没选定),则认为它们是一类的。
接着,考虑前 808080 回和后 404040 回被归到的类数,如果前八十回的样本几乎全被归到同一类中,则认为作者不同。
这么做可行吗?