大时代之巅

设置

第2045章 AI改变世界(第2/3页)

    所以当百度的文心一言推出之后，就会出现很多令人难以理解的事其实原因很简单，文心一言使用的是英文数据，中文语料的数据实在是太少了。

    别看国内人多，但网络上真正有价值的内容实在不多，稍微出格一点，这些有价值的语料就要按法律法规给删除了。

    就剩下了一堆没法训练ai的垃圾内容。

    就比如，大时代之巅到底是一本怎样的书

    如果有人说好，有人说不好，这些内容就都是有价值的内容，ai模型经过一番的训练和评估，从而给出比较客观公正的评价。

    如果作者想要维护评论区的和谐，把所有说好的内容都留下了，说差的内容都删除了，最后只剩下了一片赞歌，那么即便这些赞歌都是对的，这也是垃圾信息。

    因为对ai模型来说缺少了多元化的评判。

    从出发点到终点，有一万条路，ai模型的训练就是把这一万条路都走一遍，然后选出最合适的那条路，这才是ai的价值。

    就像生物制药，有一万种选择，ai帮忙给出最好的那几个选择，就会大大地缩减研发经费、提高研发成功率。

    要是一开始就只一条路，那还训练个屁啊，不给ai选择、评判、思考和分析的机会，就只告诉他一个标准答案，ai就会毫无意义。

    德文、法文、日文、韩文的数据量太少，中文的数据量很大，可是因为环境的限制有价值的数据也很少。

    所以，想训练出世界级的ai模型，就只能用英文语料来训练。

    这就需要一些弱势语言的ai模型，要有语言转换能力，去转换成英文。

    就像使用文心一言，让他画一个起重机的图片。

    结果画的是鹤。

    这就很让人费解。

    其实很简单，起重机的英文是e，而e在英文里主要是指鹤。所以ai模型就画出了鹤的图片。

    又比如“可乐鸡翅”这种，放在中文语境里，其实很好理解，就是一道菜。可是，这里面有一道翻译的手续，把“可乐鸡翅”翻译成英文，在翻译过程中就造成了信息离散，导致画出来的可乐和鸡翅。

    chat一样会遇到这样的困境。

    用英文向chat提问，回答的速度会非常快，而且准确度极高；如果用中文、日文、韩文、法文、德文等其他语言来提问，反应速度就会很慢，给出的答案也会错误百出。

    因为其他语言的数据量太小了，训练出的模型就不够智能。

    只有英文版最智能。

    文心一言想要表达得智能一些，就不能对接中文的语料，要去对接英文的训练数据才行，然后背后再增加一套翻译算法和内容审查算法。

    所以，想做出一款伟大的ai产品，除了在人工智能领域的顶尖算法之外，还有很重要的一个因素，就是训练ai模型的数据。

    这些数据里，有些是开源的公共数据，全世界都可以用。有一些是私有数据，只有自己可以用。

    像微软、谷歌、facebook这种硅谷的巨头公司，除了可以使用庞大的公有数据外，还有庞大的有价值的英文私有数据可以使用，他们做出来的ai模型就会比只根据公有数据训练的ai模型要更加强大。

    所以，周不器对内容很重要，尤其是海外的英文内容。

    这些都是私有数据，都有可能成为紫微星在未来世界竞争中最宝贵的
    （本章未完，请翻页）