Cloud2016 同意,即使是 GPT-4,推断能力以及 conciseness 都还需要加强,以及大家最常吐槽的 hallucination。这些弱点在你问一个写 grant proposal 这样的需要强事实的创意写作问题时就集中暴露了,上来就编出一堆不存在的论文 + 强行迎合设定进行文本套娃。

即使如此,目前 GPT-4 的水平比其他所有开源模型以及 GPT-3.5 还是强不少。个人猜测,可能领先 Google 的进度两到三年。如果相关数据在训练文本中不是太稀有,给定一个靠谱的框架和上下文,目前定位写作助手还是可以的。当然,我是降临派,表示期待 GPT-5 的表现。

对于你的问题,我的感觉是 GPT 基本可以保证知识的覆盖度(只要你关注的问题不是太偏门),所以我有时也会利用它验证想法,因为很多研究类问题需要输入较多上下文,而这类问题使用 Google 并没有办法很好地搜索到答案。

    nan.xiao @yuanfan 抱歉,我对工具吐槽太狠了,不要介意呀,希望后续有新的问题,还可以帮忙贴一贴 GPT 的答案,这至少也让我知道,在我提的这个问题上,它们是无能为力的。

      nan.xiao GPT 基本可以保证知识的覆盖度

      在这个问题上来看,它提供的答案体现出来了。

      另外,没有人做过的或者新的东西算不算偏门?对于这类问题, GPT 可以简洁一点,或者就给出最新的成果。

      针对不同的数据科学岗位,GPT 会在哪些方面有助于提升工作效率?我很好奇这个问题,是否有相关的文章在总结经验,比如商业分析师岗位,GPT 在哪些方面可以给到帮助?

      Cloud2016 你这吐槽不狠啊,许多时候我也觉得新必应跟以前相比降智了,而且变敷衍了。

      针对不同的数据科学岗位,GPT 会在哪些方面有助于提升工作效率?我很好奇这个问题,是否有相关的文章在总结经验,比如商业分析师岗位,GPT 在哪些方面可以给到帮助?

      这个问题也是我想问的,我总觉得是不是我没用对它们,所以没有用好它们。

      有另一种解释,找不到任何相关材料,没有人研究过。这个检验问题可能本身没什么应用价值,不值得研究。我只是在机械地用 MECE 原则去对方法做划分。

      3 个月 后

      偶然看到一则消息说了类似的问题。所有的大语言模型都对强事实的推理问题无解。有人出了一道很简单的推理计算问题,如下:

      Sally (a girl) has 3 brothers. Each brother has 2 sisters. How many sisters does Sally have?

      涉及阅读理解了,LLM 模型没有一个答对的 https://benchmarks.llmonitor.com/sally

        yuanfan 不算。考试一般不会出现脑筋急转弯,但会考类似上面的题。脑筋急转弯需要的理解层次更高,非正式,答案也可能不唯一。

        Cloud2016

        Sally is one of the sisters mentioned in the statement. So, Sally has one sister.

        by GPT3.5

          Liechi 和你不一样。刚去验证的,截图为证,使用的是 gpt-3.5-turbo.

          我突然想到一个点,咱们讨论的其实都属于一个确定性的问题。而 GPT 等 LLM 本质上都是基于概率论、统计的,只有在研究不确定性问题的时候,它们才有相对优势。这是在拿我们的优势去挑战它们的劣势,有点欺负人家。

            Cloud2016
            哈哈,“欺负”这个词好“人类”啊,只有人类才会有这种基于道德规训带来的心理状态。

            Cloud2016 我刚又试了一下,这次答案是:

            Sally has 2 sisters. The riddle mentions that Sally is one of the sisters, and there are 3 brothers, so in total, there are 4 sisters, including Sally.

            看来它不知道自己在说什么。