学习是智能的基本特征,自然界进化出来的学习机制存在多样性。动物可以学习,因而可以根据经验来改变行为,所有哺乳动物的脑都是学习机器,人类则通过学习来选择和完善几乎所有自主行为的。动物学习有所谓经典条件反射、操作条件反射、二阶条件反射、潜在学习(前置条件反射)、强化学习(基于模型、无模型)等。人工智能的学习机制目前还很单一,跟自然界相比仍然处于很低的水平。
对习得知识的记忆,有所谓程序性记忆(习惯,无法用语言描述的被整体性记忆的知识,比如游泳、骑车、乐器演奏等)和陈述性记忆(可以用语言描述的,可以逐条提取的记忆)。陈述性记忆又分为情景记忆(比如犯罪现场描述、故事等)和语义记忆(比如学习了某个抽象的理论等)。人工智能中的知识存储也是没有自然界这么复杂的。
学习机制需要效用函数,比如多巴胺等几种神经递质。强化学习的效用函数会根据经验进行调整,由所谓奖赏预测误差来驱动。基于模型的强化学习是通过所谓的心理模拟和先前获得的知识来调整决策策略的过程。通过心理模拟,动物可以基于对环境的了解来预测各种行为的假想结果,并将假想结果与先前预期结果进行比较,从而调整相应行为的效用价值。心理模拟与实际结果的差异可以让动物产生“遗憾”、“宽慰”、“失望”、“欢欣”、“后悔”等情绪,这些情绪记忆可以改变未来行为和决策。人工智能目前还没有情绪的概念,更不要说产生意识了。