感觉楼主可以稍微放心一点,现如今的大语言模型可以说是美国独占鳌头,但美国科技巨头的大语言模型必然掺杂了相当多的意识形态,举个例子:
你问他如何看待哈马斯的屠杀行为,模型会说我只是个大语言模型,我不会回复任何恐怖主义相关的内容。但是如果你问他如何看待以色列发起的屠杀行为,模型可能也不会回复但是模型会用比较中性的词语来定义这个屠杀行为。(比如,我被禁止回复任何关于以色列的军事行动的内容)
因为过年审核的原因不可能直接用美国的大语言模型;同样从零开始构建属于国内自己的大语言模型必须用国内自己的互联网内容。中文互联网内容数量倒是可以说是海量,但是因为种种原因质量可以说是很低。所以想训练一个大语言模型是需要相当多的时间的,楼主大可不必过于担忧。
最后叠个甲,以上的都是我自己个人的看法,我个人认为是不需要太过担忧的,不赞同也别攻击我