阅读历史 |

第六章 组会 (第4/5页)

加入书签

凌志打开自己的PPT,毫不怯场地讲道:

“今天给大家分享一下我最近阶段性的实验结果以及论文。”

……

“这是我的数据预处理过程,我大致分为了5个步骤,……”

“这是我对句子对匹配的实验结果,两个句子属于同一人所发布即为正样本,不是同一人即为负样本。……”

“你先等下,你分类所用的特征都有哪些?”

老王问道。

“哦哦,我一会儿会详细说,我现在仅仅是先把结果抛出来。……”

“这个正样本和负样本的叫法合不合理嘞?这个实验结果你们觉得怎么样?”

老王跟大家讨论了一阵,然后让凌志继续。

“我使用的特征是一个14个维度的向量,包括人工提取的特征和神经网络提取的特征。……”

凌志讲PPT沿用了老王以前对学生们的教导——多用图表,少用文字,凌志对此深以为然。

事实上PPT本来就是用来突出重点的,如果往上面堆砌太多文字的话,讲者容易对着PPT念,听者也会觉得乏味,不会自己思考。而用图片和少量文字突出重点,就比较容易让听众们接受。

正如接下来凌志分享的论文,用一张图说明了一句话中每个词之间的远近关系。

“比如现在有两句话,‘他对媒体发表言论’以及‘他出席了新闻发布会’。虽然这两句话意思很接近,但我们如何用程序来进行打分判断呢?”

“我们应当将第一句话中的‘他’所对应的词向量跟第二句话中的每个词进行对比,找出意义最接近的那个。后面以此类推,‘媒体’对应‘新闻发布会’,‘发表’对应‘出席’。就这样通过词向量之间相似度的计算,进而合并为两个句子之间的相似度。”

凌志展示出两个句子之间的相似度:0.912,大家很容易地理解了两个句子之间的相似度是如何计算出的,因为图上每个词之间的距离远近都非常清晰。

↑返回顶部↑

书页/目录