folksy_idioms

History

john 9298c425bc Add naturalization pass — 9,025 sayings, 36K training pairs New pipeline step: naturalize_corpus.py runs Prompt A ("dialect coach") over both polished and previously-discarded sayings, recovering material the first polish pass was too aggressive with. Results: - 9,468 usable from naturalization (vs 5,499 from initial polish) - After dedup: 9,025 unique sayings (was 2,312) - 36,079 training pairs (was 9,257) - 100% vocab coverage, avg 10.1 words (punchier than 13.1) - Relaxed quality filter: drops artifacts/nonsense, not noun presence New scripts: - naturalize_corpus.py: gentle LLM naturalization pass, resume-safe - rebuild_training_pairs.py: combined filter + dedup + training pair generation from naturalized corpus, replaces separate steps Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>		2026-03-10 07:24:37 -04:00
..
corpus_filtered.jsonl	Add naturalization pass — 9,025 sayings, 36K training pairs	2026-03-10 07:24:37 -04:00
corpus_naturalized.jsonl	Add naturalization pass — 9,025 sayings, 36K training pairs	2026-03-10 07:24:37 -04:00
corpus_polished.jsonl	Fix generator quality issues and run initial corpus pipeline	2026-03-10 04:33:56 -04:00
corpus_raw.jsonl	Fix generator quality issues and run initial corpus pipeline	2026-03-10 04:33:56 -04:00
corpus_stats.json	Add naturalization pass — 9,025 sayings, 36K training pairs	2026-03-10 07:24:37 -04:00
discard_analysis.csv	Fix generator quality issues and run initial corpus pipeline	2026-03-10 04:33:56 -04:00
training_pairs.jsonl	Add naturalization pass — 9,025 sayings, 36K training pairs	2026-03-10 07:24:37 -04:00