2017-11-28 15:45:30 来源: 中国青年网
在高考评分中,作文往往是最耗费工作量,也最具争议的一项。近年来,由于高考作文评价体系屡遭质疑,相关领域的专家学者开始思考运用机器评分,来取代准确度不高且耗时耗力的人工批改。11月26日,华东师范大学中文系副教授徐默凡,在华东师范大学一场有关“应试作文写作质量的计量和计算”的研讨会上,就机器在作文评分中的实现可能性进行了探讨,并对当下的应试作文评分进行了反思。
研讨会现场。
通过数据统计可找出背题套题的作文
据徐默凡介绍,目前有望运用于机器评分的自然语言处理模型有三类,分别是基于规则识别、数据统计和神经网络的自然语言处理。
所谓基于规则识别的自然语言处理,是基于一定的规则对作文进行句法分析和语义分析,从而掌握对语言的理解和表达。徐默凡认为,这条路对于作文机器评分是走不通的。因为首先,人类自身并未建构起准确的作文评分标准;其次,作文评价标准涉及到的因素比句子理解更多,思想、逻辑、结构、语言等要素难以规则化。
第二种模型则是基于神经网络的自然语言处理。它的原理在于运用脑科学和仿生学,模仿人脑对信息的处理方式。然而在徐默凡看来,这种模型也不适合用于机器评分。除了训练复杂度高,费时费力之外,无法对它的信息处理过程进行探测和评估,因而结果的可解释性差。
更重要的是,这种模型牵涉到了关键的智能伦理问题。AlphaGo的横空出世令人惊诧,而相比围棋,作文更是人类智能的体现。如果将作文评分交给人工智能,很容易引起伦理上的反感甚至恐慌。高考这一事关很多人前途的重大考试,若完全交由人工智能去判断评分,很有可能会造成“机器将会主宰人类社会”的联想。
于是相比之下,基于数据统计的自然语言处理才是更适合机器评分的模型。这种数据统计的基本原理是,一个句子是否合理,不必了解它的句法语义,只需要考察它在人类说过的话中出现的可能性大小如何:出现的可能性越大,即越合理;可能性越小,则越不合理。理论上,进行这种自然语言处理时,需要把人类讲过的所有话都统计一遍;然而在现实中,进行词频统计就已绰绰有余。“词频统计现在已经是比较成熟的研究成果了,”徐默凡说,“在实际中,也可以考虑到前后文的关联和影响。只是考虑的词越多,意味着计算也会越复杂。”