Google最新超大模型Pathways：一个会讲笑话的6400亿参数的语言模型

去年，谷歌研究院宣布了一个新的Pathways的愿景，一个可以跨领域和任务通用的单一模型，同时具有很高的效率。实现这一愿景的一个重要里程碑是开发新的Pathways系统来协调加速器的分布式计算。

今天，Google介绍了一个新的语言模型，一个Pathways语言模型：PaLM，这是一个用Pathways系统训练的5400亿个参数、仅有dense decoder的Transformer模型，在数百个语言理解和生成任务上对PaLM进行了评估，发现它在大多数任务中实现了最先进的性能，在许多情况下都有显著的优势。

PaLM模型对比现阶段最优秀的模型

与当前基准的最优秀模型相比，PaLM都提升不错，在自然语言推理、常识推理等方面尤其明显。

几个实例：

标注因果关系，概念理解，从表情符号猜测电影，以及寻找同义词和反事实的实例

我们观察到PaLM 540B与思维链提示相结合，在三个算术数据集和两个常识性推理数据集上有很强的性能。例如，通过8次提示，PaLM解决了GSM8K中58%的问题，这是一个由数千道具有挑战性的小学数学题组成的基准，超过了之前用7500个问题的训练集对GPT-3 175B模型进行微调并与外部计算器和验证器相结合而取得的55%的最高分。

Google最新超大模型Pathways：一个会讲笑话的6400亿参数的语言模型

PaLM模型对比现阶段最优秀的模型

标注因果关系，概念理解，从表情符号猜测电影，以及寻找同义词和反事实的实例

DataLearner 官方微信

逻辑运算实例

笑话解释

热门博客