新手学术写作中的若干常见问题

Posted on Sep 21, 2024 by [AiX-im Wangqge bLueriVerLHR]

写一篇学术论文是困难的,写一篇高水平学术论文是困难的,写一篇严谨且有价值的学术论文是更加困难的。

写论文的过程是痛苦的,这与写代码的难受不同。 写代码会为 bug 和性能着急,但论文除了要为写的不好着急,还要接受老师与同学的 judge,还要忍住自己对自己的怀疑。 要让自己满意,让同学满意,让老师满意,最后才有可能让审稿人满意。 我觉得很多时候连让自己满意都做不到,这个时候来自老师与同学的 judge 就会更加沉重,继而怀疑自己费劲巴拉到底在搞个啥东西?

写出一篇让所有人满意的论文,就是成长的过程,是思维逻辑,判断力,写作能力,分析能力,乃至个人心性的成长过程。 作为半只脚进门的“门外汉”,我没法给出如何完成一篇好的论文,但我可以将我遇到的问题总结出来,一方面为自己提醒,一方面帮大家少踩坑。

不会英语写作

该问题可分为如下几个小问题:

  1. 盲从辅助工具。对文字进行强行翻译后,人造中式句式。
  2. 英语论文阅读累积少,或过度依赖翻译工具。导致无法正确判断英语写作质量,中文思维。
  3. 语法、句式均没问题,但写作偏白话,并不专业。

对整体写作而言,害处:1 > 2 >> 3

🤗 Wangqge 其实英语写作,在有了 ChatGPT 之后,对于能够熟练利用的人会很快变成一个微小的问题,但是需要将这种能力转化成自己的能力。

问题 1 的本质其实是不会中文写作。 我最经常吐槽的一点是,你写这个东西,外国人看不懂,中国人看起来也费劲

对于问题 2 一定要做好阅读积累。

问题 3 在有了 ChatGPT 之后,解决起来应该会更加简单,大家一定要熟悉使用。

想要解决英语写作,我觉得不是一朝一夕的事,我自己目前也很差。我认为可能的解决方案包括但不限于以下几点:

  1. 多读,带着学写作的目的去读,培养对英文句式的感觉。
    • 和快速阅读文章核心内容不同,这可能需要细心观察一个好的学术论文该有的句式句法。
    • 不同论文中对于问题的分析和概况是有相同之处的,有很多好的论文句式可以套用。
  2. 合理使用工具。
    • ChatGPT 和 Grammarly 是很强大的工具,但他们并不能很好的处理中式句式和中文思维,他们的功能在于 润色挑错。所以,当你喂给它一个你自己造的中文句式后,它们并不能帮你彻底改善,反而可能会变得更四不像。只有在我们在第 1 点完成的不错后,才能更好的使用工具。

🤗 Wangqge 两项总结没有问题,尤其是 2。人和动物最重要的区别就是开发并熟练使用工具。而多读 paper 带给你的能力是驾驭工具而不是被工具支配。 比如,ChatGPT 有时候会给你一些不恰当的动词,名词,和学术论文中不常见的形容词,你需要判别出来,而不是盲目使用。

关于问题 1,逻辑,观点,表达,本质是个表达的问题,这个做不好,中文写出来的东西也会很奇怪。

观点表述不清

观点表述不清是最常见的问题,出现在我论文的每一节,每一段,甚至每一句话中。 一个观点,自己明白,和给别人讲明白,是完全两个事情。 问题的原因可能来自于以下几点:

  1. 语言组织结构差,重要的部分不突出。总-分-总 结构是一个不错的选择。
  2. 学术写作本质是讲故事。

🤗 Wangqge 中国古代小说有一个名词叫做草蛇灰线。 你要为你说的内容埋下伏笔,但是学术 paper 不应该出现遥远的呼应逻辑。

我强烈要求各位就地解决问题。

总分结构:用三段式论述你的观点。

一个简单的例子在论述一的关键挑战时:

XXX 是 GNN 训练中的一个关键挑战。因为 XXXXXXX, 目前有些系统 XXXXXX,但是他们 XXXXXXX,因而无法解决这个问题。

再比如你要介绍你解决 XXX 挑战的一个关键设计:

为了解决这一问题,我们提出一个 XXXX 的负载均衡算法,该方法通过 XXXXX 的方式识别关键边并对数据进行划分。与传统方法相比,该方法能够 XXXXX。

句子粒度上,paper 应该构成总分结构,而段落整体上也应该是个总分结构。 比如一个章节的第一段,你论述系统的整体框架,那么后面你分别介绍系统的每个组件,在介绍系统的每个组件的 paragraph 中,你首先介绍该组件的设计原则和基本思路,然后再去详细论述设计。

  1. 自己就没抓住重点,更不要谈写出重点。对问题分析浮于表面或者解释了一些没营养的东西,不仅没有重点,更让审稿人厌烦。

🤗 Wangqge 几乎所有人都有这个问题。 今天你要给家里的狗分骨头,大狗三块,小狗两块,你得告诉我为什么给大狗三个,小狗两个,因为大狗体格大,吃的多!!! 这才是直接的我期待的答案。 你不能告诉我,大狗吃的骨头便宜,小狗吃的贵!这不挨着!!!! 你也不能告诉我大狗的骨头是菜市场买的,小狗的骨头是超市买的!!我不感兴趣!!

  1. 与示意图,实验结果图配合差,不能有效支撑观点。较为复杂的观点需要一个好的示意图来辅助,没有不行,差也不行。

🤗 Wangqge 我建议各位,从你的项目一开始,就用一个 PPT 组织你的整个流程,包括早期思路,解决方案,具体设计,实验结果,论文的故事线以及大体框架。 这样一来,你相当会知道你在每一个阶段需要什么样的图片来论述你的观点,你的设计,你的 Motivation。 早期图片的精确和恰当会让你整个流程都受益,最后的论文撰写也是如此。

  1. 承接问题 1,较差的英语写作同样让人看不懂。

🤗 Wangqge 差的英语差的写作1 + 1 > 2 的魔力。 而 好的写作 + 差的英语(表达简单,而不是有错误)远比 差的写作 + 好的英语 能够让人接受。

  1. 胡乱简写。包括在未定义之前使用简写,简写过多,简写难理解。默认自己懂的前置知识,别人也懂,使用没有解释与描述的专业说法或词汇。

🤗 Wangqge 这个问题一定要注意。 早期的 draft 中和 presentation 你可以用简写方便组内同学理解,但是在写论文中,读到太多未定义的简写对于审稿人来说极容易耗费耐心。 专业词汇的使用同样道理。

逻辑不连贯

逻辑问题也是非常严重,一句话的因为和所以之间并没有联系。 更为严重的是,自己常常不自知,难以发现。 问题的原因可能来自于以下几点:

  1. 想起一句写一句,没有完整的中文稿来捋顺逻辑。
    • 看中文稿找逻辑问题要简单的很多,我之前常常想起一句就写一句英文,导致特别多的逻辑问题。
    • 建议大家在写一段话之前,先捋顺中文稿的逻辑。

🤗 Wangqge 想起一句写一句是大家最大的问题,我鼓励大家写之前多想,多用中文来理清自己的逻辑,想清楚了,用中文写,中文写完英文写。 当然如果你对英文自信,想清楚了就可以直接上手。

重要的是,写这一个段落之前,你要想清楚,这句话 你要写清楚什么,还有哪些东西 我不要在这里写。 用几句话作为主干标识出来,然后就围绕你想要表达的东西来写。 大家经常陷入逻辑陷阱的主要原因 不是没想清楚自己该写什么,而是没定下来,什么东西不该写! 这样就会导致你围绕你的东西越写越大,在一个段落中你涉及到问题都需要解释。 像传递闭包一样,啥我都要来几句,这样很不好,一定要给自己每一个 paragraph 要讨论的东西设置一个边界。

如果你的问题有两个挑战,组织成两个自然段; 如果你的两个 challenge 之间有着密切的联系使他们无法拆分。那么请想一想,这俩 Challenge 的 Root Reasons 是不是一个 Challenge?嗯?嗯?

  1. 读多了陷入思维通路,发现不了问题。

🤗 Wangqge 要么请人帮着看,要么写完隔一天,自己重新看看,千万别一直和你写的东西相面,今天就要把他打磨好,至少这个方法对我不管用。

  1. 逻辑通路太长,要解释 D,前面还解释了因为 A,所以 B,再因为 B 所以 C,再因为 C,才有了 D。

🤗 Wangqge 3 的问题 很有可能就是来自 1 的冗长讨论导致逻辑链拉长。

  1. 逻辑跳跃,刚解释完 A,直接得出 D 的结论。

🤗 Wangqge 感觉往往和 3 差不多。 用主干性的语言,限制你在当前段落中的表达欲望。

解决逻辑问题,光靠自己是不行的,很多时候让自己满意是比较简单的,所以需要让老师与同学帮忙阅读,别人能看得懂了,才是真有逻辑。

🤗 Wangqge 当局者迷,旁观者清,但是我希望大家经过一个 paper 或者几个 paper 后能够做好最基本的逻辑表达。

用词不准确

用词不准确是很严重,也显得很不专业的一个问题,但却是最常见的。 有几种情况是最常见的:

  1. 用词不标准。比如缓存率,可能是 Cache Ratio,也可以是 Cache Rate,这需要看看其他论文是怎么用的,这类问题大多可以解决,不要自己随便用。
  2. 用词不形象。尤其体现在动词的选择上,选择一个好的动词并不简单。需要多推敲,多看其他论文是怎么用的。
  3. 自己造词,不是指写错了,而是胡乱用一些不存在的短语,或者连词,XX-XX。

🤗 Wangqge 这些问题 看上去微小,但是危害极大。 因为用词的不准确很可能导致:

  1. 你的概念与一些领域中的另一个用词重复,导致误解。甚至完全看不懂你要干什么。
  2. 不恰当的动词让你看上去很业余。

这一点的解决方法是,当你用一个奇怪的词汇时候,去谷歌搜一下看看大家都是咋用的,谷歌会直接告诉你这么用的 paper 是谁写的。 如果 paper 是个好 paper,或者作者是个神仙,那你也可以这么用。

作图不严谨

实验作图是一个很难的问题,好的示意图很加分,也对整体理解论文很有帮助。 Reviewer 可能先看你的图,再看你的算法,最后才看你的文字。 如果在图这一关不能吸引人,那可能文字就不看了。

作图的问题可能包括如下几点:

  1. 缺少信息,省略了要解释问题的关键步骤。
  2. 图中表达的重点模糊,不突出,难以理解要表达的核心观点。
  3. 给出一个设计的过程示意图,不如用图展示出这个设计的 Intuition。
  4. 不严谨,图中有符号或连线不知所云。
  5. 不美观,包括多种情况,选色,排版,线条太细,图整体太挤或太空。

一个优秀的实验作图,可以让读者通过图和图的标题就理解意思,如果做不到,或者还需要读文章才能看懂,都要差点意思,想画一个好的示意图很不容易。

🤗 Wangqge 这个问题你要看看别人的图咋画,多练习,这东西和审美,悟性经验都有关系。 我们很难有个很正式的流程或者指南,告诉你画什么样的图是对的,但我们会在组会上纠正你的问题。 艾新这里总结的问题基本就是我们常见的问题了。

详略不当

详略不当也是一个很容易出现的问题,最明显的情况就是我们常说的“流水账”。 你也挑不出写的毛病,写的都是对的,但是没重点,没营养,平淡无味,类似于实验报告。

问题可以简单总结为以下几点:

  1. 没有一个凝练的写作思路,没有大纲。论文中出现的每一段最好都是有意义的,如果找不到一个段落出现的意义,那么它多半是冗余的。

🤗 Wangqge 一句话,一个段落,出现在那里,如果你发现删掉这句话,不影响任何东西,那删掉它。

  1. 语言啰嗦,一件事反反复复说,总分总的架构要贯穿全文始终。

🤗 Wangqge 参见上面,你给我讲 大狗的骨头在哪个菜市场买的,翻过几座山,越过几条河坐什么车买的花了多少钱,今天汇率是多少,兑换成美金可不便宜。 面对这样的语言时候,人的 耐心 往往消磨的非常快。

我们写作还有个问题要避免冗余。 比如你在前面强调了某个问题会造成 XXX 的问题,你后面再介绍的时候不要把问题完整介绍一遍。 你就说,这一操作会导致 XXX 的问题(如 Section XXX 所示),这只是一个小例子,诸如此类。

  1. 强调为什么要这么做,比啰啰嗦嗦讲怎么做的更重要。因为有的时候想把设计过程讲清楚难免冗长,但是 Intuition 最好是凝练而容易理解的。

🤗 Wangqge “想把设计过程讲清楚难免冗长,但是 Intuition 最好是凝练而容易理解的。”

很好,理解很到位,所以总分结构是非常恰当的。

你用精简,凝练的语言先告诉我,你干了什么,你大概是用什么方法干的,你的方法为什么好,然后你的设计 巴拉巴拉巴拉。 这样如果我看着你的设计看不懂,我也能大概猜到你的东西是合理的。 审稿人和你的方向完全一致的概率并不高于 50%,简单易懂的概括性语言是相当加分的。

  1. 该详细给出 insight 的地方反而使用 high-level 的词语去一概而过。
    • 很常见,比如我会说我通过一个 A 方法解决了这个问题,我直接就说 A 的方法名。这就没有 insight,也很空,不如直接了当的给出 A 方法的哪个设计,怎么做的,为啥就解决了这个问题。

🤗 Wangqge “你干了什么,你大概是用什么方法干的,你的方法为什么好”

一个常见的写法是: 我们提出了一个 XXXX 的负载均衡方法来很好地解决这一问题。

你方法是啥啊,啥原则啊,啥设计啊,咋就好了?我要说他不好呢?

我们提出了一个 XXXX 的负载均衡方法,通过平衡不同分区的热度顶点的分布,在保证计算负载均衡的同时,最小化机器通信量。

(请注意,这只是个例子,热度顶点分布和通信量没有直接因果,你要用类似的句式去表达合理的因果。而不是用这个句子去套你不合理的因果)

一些默认的规则要遵守

  1. 全文所有图片要是矢量图,缩小不失真,图中的字体必须统一,配色尽量统一,字体建议 Arial。
  2. 文章中时态一般默认是一般现在时。
  3. Conclusion 中不要出现引用。
  4. 在文章的 intro 中少 deliver 一些信息,不要给问题先下“定义”,不要增加 Reviewer 的理解难度。要循序渐进的引出问题,总之要让人容易看懂,不要让 Review 在 intro 中就先看到一个文章后面出现的 high-level 问题抽象

附注

🤗 bLueriVerLHR 在进行 Paper Reading 分享的时候,也可以进行类比。

如何将文章写下的内容,透过通俗易懂的表达,和不一定了解文章背景的组员分享。 如果要做到集思广益,让不同方向的组员能够一起来讨论文章的利弊,就可以将组员视为 Reviewer,讲述论文。

不过,因为讲述论文时候没有非常严格的词汇限制,可以考虑领域对比,用其它领域的词语对一些连续内容进行概括。 这样子可以更好的让组员有个形象的认知,在讨论的时候也不至于理解偏差过大。