5作者: philomath8689 个月前
您好, 我手头有一个大型(2 GB)的经过整理的高质量文本语料库,使用的是一种低资源语言。我希望构建一个模型,为写作者提供高级的“自动补全”服务。 我考虑使用一个仅解码器模型,例如 Llama、Mistral 或 Gemma,切掉嵌入层(这些层基于不需要的语言),创建新的嵌入层(可能基于在语料库上训练的 FastText 模型进行初始化),并搭配一个从我的语料库新创建的 tokenizer,然后用我的语料库训练模型直到收敛。 其他潜在的细节包括:一个用于同义词感知的训练的自定义损失函数(基于一个自定义的高质量同义词词典),其中“正确”单词的同义词会得到一定程度的奖励;使用特定于该语言的词性标注器对语料库进行词性标注,并将词性标注头添加到模型中作为多任务学习,以强制进行语法生成。 为了能够使用一个好的模型作为基础,我可能不得不使用 PEFT (LoRA)。我目前的配置是 Colab Pro+ 上可用的,所以我可能可以使用 7b-12b 范围的模型? 我的主要问题是,哪个基础模型最适合这项任务?(再说一次,用于各种类型的普通写作补全,而不是编程或高级推理)。 此外,同义词和词性标注的添加会有帮助还是有害? 还有什么我可能遗漏的吗? 谢谢!
1作者: Maulik_hacker9 个月前
嗨,HN, 我今年14岁,对创业公司着迷已久。我注意到一个大问题:我们大多数人(尤其是第一次创业的人)会浪费几个月的时间去构建没人想要的东西。所以我创建了Startup Solve——一个由人工智能驱动的平台,在你写一行代码之前,帮你对你的创业想法进行压力测试。 它包括六个工具: ~ AI联合创始人 → 像一个聪明的伙伴一样与你一起头脑风暴。 ~ 创业先知 → 对你的想法进行压力测试,并提出风险投资人会问的尖锐问题。 ~ 融资预测器 → 预估你的想法是否能够获得融资。 ~ 创意孵化器 → 帮助完善和细化宽泛的想法。 ~ 可行性扫描器 → 评估可行性、市场规模和竞争情况。 ~ 增长引擎 → 生成潜在的市场推广策略。 我们的目标不是取代创始人,而是节省时间,提高清晰度,并帮助你专注于正确的问题,而不是追逐噪音。 我是在没有任何编码背景的情况下创建了这个平台,一路学习。虽然还处于早期阶段,但一些试用过的人说,感觉就像为他们的创业公司配备了一个“现实检验伙伴”。 我很乐意收到来自HN的反馈——既包括坦诚的批评,也包括关于如何让这个平台对认真的创始人更有价值的想法。 [https://startup-solve.lovable.app](https://startup-solve.lovable.app) 感谢阅读。